ZlodeiBaal May 10 2022 at 14:23

Как улучшить распознавание скелетов в MediaPipe

5 min

5.2K

Recognitor corporate blogAlgorithms*Image processing*Machine learning*Artificial Intelligence

Tutorial

+14

Comments 14

wadik69 May 10 2022 at 16:32

Человек может разметить около тысячи изображений в час

Сотку бы за час разметить - уже было бы хорошо

rnj2000 May 10 2022 at 17:19

Тут же предлагается bounding box для первичной детекции руки разметить, без самих ключевых точек. Это делается максимально быстро в простом VGG Image Annotator или грузится на толоку.

За статью респект, применю ваш в опыт в поиске ключевых точек на рентгенах костей

ZlodeiBaal May 10 2022 at 17:45

Спасибо! Да, вы все правильно описали.

Если человек в кадре один/два, если нет высоких требований на точность детекции то это 500-1500 в час. В зависимости от анотатора и датасета.

При разметке скелетов там конечно уже все очень медленно становится.

wadik69 May 10 2022 at 18:01

Да, я понимаю, что это ограничительные рамки для первичной детекции, но всё равно выглядит как оптимистичный сценарий, как по мне. Хотя, если прям не отрываться от компьютера и нет высоких требований к разметке, то 500 фотографий, наверное, вполне реально. В любом случае, это мелочи, а статья действительно классная - спасибо большое автору!

ZlodeiBaal May 10 2022 at 19:34

Я сам не специалист в оценке скорости такой разметки. Но когда мы привлекаем наших разметчиков то я обычно закладываю где-то 500 картинок в час на такой тип (10 в минуту). Сам я конечно за минуту штук 20-30 прокликиваю, но долго в таком режиме наверное нельзя (я максимум минут 20-30 обычно так делаю чтобы оценить что за задача вообще).
Вообще на Хабре много кто специализируется именно на лейблинге, можно позвать например kucev, думаю что он может примерно оценить какие у них стандарты на такие таски.

le2 May 11 2022 at 02:27

я не знаю как в новых версиях, но на состояние полгода-год назад они значительно улучшили детектор скелета просто перейдя от картинок 128x128 к 256х256.

Второе, промахи детектора в медиапайп не бесит, потому что... детектор вызывается очень редко) В первый раз скелет (или рука или лицо) действительно детектится детектором, а дальше рамка детектора уже расчитывается из точек ландмарка скелета (или ладони или лица).

ZlodeiBaal May 11 2022 at 02:35

1) там была ещё пачка улучшений при обучении, судя по их статьям. Не только повышение размера

2) зависит от задачи и от ракурсов. Посмотрите на примеры проблем которые я привожу (в видео чуть более полные примеры). Для большинства задач с которыми работали мы просто за счёт переобучения детектора число ошибок падало в несколько раз. Но да, я согласен что могут быть задачи где это не критично. Там не должно быть сложных условий наблюдения где объект теряется, постоянного входа и выхода из кадров новых объектов.

И кстати, для рук там по дефолту, если в кадре нет двух рук, детектор достаточно часто проверяет наличие.

Sergechug May 11 2022 at 07:29

А yolov5 не используете? Вроде SOTA.

ZlodeiBaal May 11 2022 at 07:30

1) в тексте есть прямое упоминание

2) Про sota я бы поспорил...)

Kwent May 11 2022 at 17:19

Можно без спора мне рассказать что sota, а то в моем мире тоже пока yolov5)

ZlodeiBaal May 11 2022 at 17:28

Надо определиться что такое SOTA.
paperswithcode.com/sota/object-detection-on-coco
paperswithcode.com/task/real-time-object-detection

1) Максимальное качество? Там много претендентов, но все Трансформеры.
2) Максимальное качество на свертках? Там вроде Yolov4-p7
3) Максимальное качество при каких-то скоростях? Ну, там есть и yolop и yolox
github.com/hustvl/YOLOP
github.com/Megvii-BaseDetection/YOLOX
Но вообще там ооочень много вариантов если лезть внутрь.
4) Максимальное удобство конвертации на разные платформы? Но если разобраться то оказывается что даже в TensorRT yolov5 конвертируется не оптимально. Есть кастомные конвертаторы которые ускоряют примерно в 2 раза итоговые модели…

Это не отмменяет что Yolov5 очень удобный и быстрый для использования. Но говорить что он «SOTA». Ну, такое…

OShapovalov May 11 2022 at 17:47

Есть кастомные конвертаторы которые ускоряют примерно в 2 раза итоговые модели…

А вот про это можно подробнее?

На наших задачах трансформеры хуже по точности (и хуже по соотношению точность/скорость), yolov4-p7 тоже ощутимо хуже, yolop и yolox тоже не фонтан, но мы маловато их копали. Пока продолжаем считать, что yolov5 сота. Кстати ее нет на paperswithcode, так как нет статьи

ZlodeiBaal May 11 2022 at 18:24

Это не называется «SOTA». Это называется «пайплайн обучения в yolov5 + yolov5 работает лучше по нашему датасету»:) Это нормально, так бывает.

«Кстати ее нет на paperswithcode, так как нет статьи»
Иногда AlexeyAB интересные картинки у себя в твиттере (https://twitter.com/alexeyab84) постит с реальным сравнением разных yolo
Например — twitter.com/alexeyab84/status/1481982576818630662/photo/1

Где-то я ещё видел сравнения детекторов по классическим задачам/датасетам, yolov5 было не впереди.

А вот про это можно подробнее?

Говорят вот эта имплементация ускоряет на tensorrt ощутимо — github.com/enazoe/yolo-tensorrt
Но сам не пробовал, все хочу. Говорят там NMS и какие-то операции вокруг него перенесены тоже на TensorRT.

OShapovalov May 11 2022 at 18:36

«пайплайн обучения в yolov5 + yolov5 работает лучше по нашему датасету»

Так можно и про любой бенчмарк сказать. Yolov5 на многих дасатетах прекрасно работает, см kaggle

За ссылку по конвертации спасибо, изучим