Pull to refresh

Comments 14

Человек может разметить около тысячи изображений в час

Сотку бы за час разметить - уже было бы хорошо

Тут же предлагается bounding box для первичной детекции руки разметить, без самих ключевых точек. Это делается максимально быстро в простом VGG Image Annotator или грузится на толоку.

За статью респект, применю ваш в опыт в поиске ключевых точек на рентгенах костей

Спасибо! Да, вы все правильно описали.

Если человек в кадре один/два, если нет высоких требований на точность детекции то это 500-1500 в час. В зависимости от анотатора и датасета.

При разметке скелетов там конечно уже все очень медленно становится.

Да, я понимаю, что это ограничительные рамки для первичной детекции, но всё равно выглядит как оптимистичный сценарий, как по мне. Хотя, если прям не отрываться от компьютера и нет высоких требований к разметке, то 500 фотографий, наверное, вполне реально. В любом случае, это мелочи, а статья действительно классная - спасибо большое автору!

Я сам не специалист в оценке скорости такой разметки. Но когда мы привлекаем наших разметчиков то я обычно закладываю где-то 500 картинок в час на такой тип (10 в минуту). Сам я конечно за минуту штук 20-30 прокликиваю, но долго в таком режиме наверное нельзя (я максимум минут 20-30 обычно так делаю чтобы оценить что за задача вообще).
Вообще на Хабре много кто специализируется именно на лейблинге, можно позвать например kucev, думаю что он может примерно оценить какие у них стандарты на такие таски.

я не знаю как в новых версиях, но на состояние полгода-год назад они значительно улучшили детектор скелета просто перейдя от картинок 128x128 к 256х256.

Второе, промахи детектора в медиапайп не бесит, потому что... детектор вызывается очень редко) В первый раз скелет (или рука или лицо) действительно детектится детектором, а дальше рамка детектора уже расчитывается из точек ландмарка скелета (или ладони или лица).

1) там была ещё пачка улучшений при обучении, судя по их статьям. Не только повышение размера

2) зависит от задачи и от ракурсов. Посмотрите на примеры проблем которые я привожу (в видео чуть более полные примеры). Для большинства задач с которыми работали мы просто за счёт переобучения детектора число ошибок падало в несколько раз. Но да, я согласен что могут быть задачи где это не критично. Там не должно быть сложных условий наблюдения где объект теряется, постоянного входа и выхода из кадров новых объектов.

И кстати, для рук там по дефолту, если в кадре нет двух рук, детектор достаточно часто проверяет наличие.

1) в тексте есть прямое упоминание

2) Про sota я бы поспорил...)

Можно без спора мне рассказать что sota, а то в моем мире тоже пока yolov5)

Надо определиться что такое SOTA.
paperswithcode.com/sota/object-detection-on-coco
paperswithcode.com/task/real-time-object-detection

1) Максимальное качество? Там много претендентов, но все Трансформеры.
2) Максимальное качество на свертках? Там вроде Yolov4-p7
3) Максимальное качество при каких-то скоростях? Ну, там есть и yolop и yolox
github.com/hustvl/YOLOP
github.com/Megvii-BaseDetection/YOLOX
Но вообще там ооочень много вариантов если лезть внутрь.
4) Максимальное удобство конвертации на разные платформы? Но если разобраться то оказывается что даже в TensorRT yolov5 конвертируется не оптимально. Есть кастомные конвертаторы которые ускоряют примерно в 2 раза итоговые модели…

Это не отмменяет что Yolov5 очень удобный и быстрый для использования. Но говорить что он «SOTA». Ну, такое…

Есть кастомные конвертаторы которые ускоряют примерно в 2 раза итоговые модели…

А вот про это можно подробнее?

На наших задачах трансформеры хуже по точности (и хуже по соотношению точность/скорость), yolov4-p7 тоже ощутимо хуже, yolop и yolox тоже не фонтан, но мы маловато их копали. Пока продолжаем считать, что yolov5 сота. Кстати ее нет на paperswithcode, так как нет статьи

Это не называется «SOTA». Это называется «пайплайн обучения в yolov5 + yolov5 работает лучше по нашему датасету»:) Это нормально, так бывает.

«Кстати ее нет на paperswithcode, так как нет статьи»
Иногда AlexeyAB интересные картинки у себя в твиттере (https://twitter.com/alexeyab84) постит с реальным сравнением разных yolo
Например — twitter.com/alexeyab84/status/1481982576818630662/photo/1

Где-то я ещё видел сравнения детекторов по классическим задачам/датасетам, yolov5 было не впереди.

А вот про это можно подробнее?

Говорят вот эта имплементация ускоряет на tensorrt ощутимо — github.com/enazoe/yolo-tensorrt
Но сам не пробовал, все хочу. Говорят там NMS и какие-то операции вокруг него перенесены тоже на TensorRT.

«пайплайн обучения в yolov5 + yolov5 работает лучше по нашему датасету»

Так можно и про любой бенчмарк сказать. Yolov5 на многих дасатетах прекрасно работает, см kaggle

За ссылку по конвертации спасибо, изучим

Sign up to leave a comment.