qwertyforce Jun 2 2023 at 17:39

Автоматический майнинг изображений

Medium

6 min

4.2K

Search engines*Python*Image processing*Machine learning*Artificial Intelligence

Case

+11

Comments 7

PereslavlFoto Jun 2 2023 at 22:29

Почему же вы не пользуетесь википедией для поиска таких изображений? Изображения из этого фотобанка можно задаром использовать для любых коммерческих задач, а реддит такого не обещает.

qwertyforce Jun 3 2023 at 10:20

Не знал, что в Wikimedia столько изображений, спасибо! В дальнейшем я планирую написать классического поискового робота, который просто переходит по ссылкам на сайтах и Wikimedia тут сильно пригодится, так как это классический сайт, где веб-страницы сильно связаны между собой. Но я думаю такой робот будет сложнее чем просто использовать Reddit API. Еще один плюс Reddit в том, что это поток свежего контента, т.е всегда знаешь endpoint с самыми новыми данными

molnij Jun 3 2023 at 14:34

А если вопрос коммерциализации вас не так тревожит, то может вам подойдет например LAION-5B? Хотя, как понимаю, сейчас все скорее упирается в мощности чем в количество картинок которое нужно найти?

qwertyforce Jun 3 2023 at 17:07

Я думаю это просто эксперимент по извлечению полезной информации из интернета) Конечно фильтрация датасетов будет быстрее и если конечная цель это просто намайнить побольше картинок, то это правильная стратегия. Я скорее пытался на примере Reddit, показать онлайн сбор информации - не статической. Возможно не очень хорошо описал свою мотивацию в начале статьи. Но да, инструмент для фильтрации датасетов был бы тоже очень полезен, подумаю над этим!

berng Jun 4 2023 at 15:58

Почему сразу не взять BayesianGaussianMixture ? Она вроде что-то похожее делает на GM+BIC и сама эффективно уменьшает число классов. И ничего тестировать не надо

qwertyforce Jun 5 2023 at 12:11

Надо) По умолчанию он вот такое выдает (гистограмма по weights_)

>the model can decide to not use all the components by setting some component weights_ to values very close to zero. The number of effective components is therefore smaller than n_components.

Но даже если n_components поставить большим (256 например) там все равно все веса около нуля и не сильно друг от друга отличаются. А твикать гиперпараметры тут еще сложнее, так как непонятно как они будут влиять на модель (я в Variational Bayesian methods не сильно разбираюсь)

berng Jun 5 2023 at 16:30

У меня просто похожая проблема, с сильным дисбалансом классов, порядка 10^3, и я иттеративно ищу необходимые компоненты жадным поиском - сначала сравниваю, что работает лучше - BGM или GM, а потом начинаю жадный перебор. Функционал там сильно негладкий, а AIC/BIC не работают из-за особенностей формулировки задачи, поэтому и интересно, почему у вас GM+BIC лучше, чем BGM. У меня BGM очень неплохо отсекает классы при дисбалансе, только количество иттераций EM (max_iter) я поднимаю до 400 для увеличения точности - при дефолтном 100 алгоритм сбоит.

Show the best of all time