Было бы здорово узнать про какие-то частности решения включая: - Как именно ставилась задача исключительно в терминах ELPV, или были какие-то более глубокие постановки(мб что-то планируется в будущем) - Какие именно архитектуры были использованы в финальном решении, с учётом требований к внедрению
Каким же образом поймать такие корреляции и превратить их в один признак? На помощь приходит идея сверток 1 × 1 из предыдущей работы. Продолжая эту идею, можно предположить, что чуть меньшее количество коррелированных кластеров будет чуть большего размера, например 3 × 3. То же самое справедливо для 5 × 5 и т. д., но гугл решил остановиться на 5 × 5.
Не очень понятно, как свёртки 1 х 1 убивают/объединяют коррелированные признаки? Нам например известен эффект переобучения линейных классификаторов при наличии коррелированых признаков в объектах обучающей выборки.
Почему свёртка 1х1 не может в процессе обучения выучить какие-нибудь огромные веса (+10^9 и -10^9) для коррелированных признаков, став тем самым излишне чувствительной к шуму?
Было бы здорово узнать про какие-то частности решения включая:
- Как именно ставилась задача исключительно в терминах ELPV, или были какие-то более глубокие постановки(мб что-то планируется в будущем)
- Какие именно архитектуры были использованы в финальном решении, с учётом требований к внедрению
Не очень понятно, как свёртки 1 х 1 убивают/объединяют коррелированные признаки? Нам например известен эффект переобучения линейных классификаторов при наличии коррелированых признаков в объектах обучающей выборки.
Почему свёртка 1х1 не может в процессе обучения выучить какие-нибудь огромные веса (+10^9 и -10^9) для коррелированных признаков, став тем самым излишне чувствительной к шуму?
Кажется, я что-то не вполне верно понимаю :)
А если жажда применять word2vec неискоренима, то можно посмотреть например на такие штуки:
https://arxiv.org/pdf/1605.02019.pdf
Я и тематически кластера найдутся и самому себе можно будет говорить: «Я юзаю word2vec».