Pull to refresh

Comments 7

Почему же вы не пользуетесь википедией для поиска таких изображений? Изображения из этого фотобанка можно задаром использовать для любых коммерческих задач, а реддит такого не обещает.

Не знал, что в Wikimedia столько изображений, спасибо! В дальнейшем я планирую написать классического поискового робота, который просто переходит по ссылкам на сайтах и Wikimedia тут сильно пригодится, так как это классический сайт, где веб-страницы сильно связаны между собой. Но я думаю такой робот будет сложнее чем просто использовать Reddit API. Еще один плюс Reddit в том, что это поток свежего контента, т.е всегда знаешь endpoint с самыми новыми данными

А если вопрос коммерциализации вас не так тревожит, то может вам подойдет например LAION-5B? Хотя, как понимаю, сейчас все скорее упирается в мощности чем в количество картинок которое нужно найти?

Я думаю это просто эксперимент по извлечению полезной информации из интернета) Конечно фильтрация датасетов будет быстрее и если конечная цель это просто намайнить побольше картинок, то это правильная стратегия. Я скорее пытался на примере Reddit, показать онлайн сбор информации - не статической. Возможно не очень хорошо описал свою мотивацию в начале статьи. Но да, инструмент для фильтрации датасетов был бы тоже очень полезен, подумаю над этим!

Почему сразу не взять BayesianGaussianMixture ? Она вроде что-то похожее делает на GM+BIC и сама эффективно уменьшает число классов. И ничего тестировать не надо

Надо) По умолчанию он вот такое выдает (гистограмма по weights_)

>the model can decide to not use all the components by setting some component weights_ to values very close to zero. The number of effective components is therefore smaller than n_components.


Но даже если n_components поставить большим (256 например) там все равно все веса около нуля и не сильно друг от друга отличаются. А твикать гиперпараметры тут еще сложнее, так как непонятно как они будут влиять на модель (я в Variational Bayesian methods не сильно разбираюсь)

У меня просто похожая проблема, с сильным дисбалансом классов, порядка 10^3, и я иттеративно ищу необходимые компоненты жадным поиском - сначала сравниваю, что работает лучше - BGM или GM, а потом начинаю жадный перебор. Функционал там сильно негладкий, а AIC/BIC не работают из-за особенностей формулировки задачи, поэтому и интересно, почему у вас GM+BIC лучше, чем BGM. У меня BGM очень неплохо отсекает классы при дисбалансе, только количество иттераций EM (max_iter) я поднимаю до 400 для увеличения точности - при дефолтном 100 алгоритм сбоит.

Sign up to leave a comment.

Articles