Pull to refresh

Comments 3

странно, что самая «нечеловеческая» метрика оказалось самой лучшей. Хотя, судя по описанию, векторы «новая прокладка» \ «новая рубашка» или «свежая коллекция» \ «свежая зелень» перекидываются в очень близкие точки по хеммингу, так что может быть дело в этом… вы же сортируете слова в фразе по алфавиту или там минимизация расстояния Левенштейна для слов?

Есть ли у вас априорная оценка? Т.е. когда таких фраз\слов вообще не было использовано, посмотреть в статистику гугла\яндекса — насколько популярна эта фраза в соцсетях? (а то будет «100% потерянных вещей, которые мы нашли — оказались под фонарём»)
Мы пробовали сортировать слова по алфавиту, но выигрыша от этого в дисперсии не наблюдали. Поэтому решили оставить «как есть», но легко заметить, что косинусная метрика не зависит от порядка слов, так что сортировка там ничего не даст.

Априорную оценку мы не строили, так как мы привязаны к конкретному типу обращения, и я не представляю, как собрать нужную мне статистику не в рамках наших текущих аккаунтов. Наша методика типична для задач машинного обучения: мы собирали ядро фраз с достаточным числом конверсий и кликов, часть фраз использовалась для предсказания как ядро, а на остальной части данных мы пытались предсказать, а потом сравнивали результаты с истинными.
В контекстной рекламе никто не будет мешать несмешиваемое, поэтому тут подход имеет место быть. Например, свежую зелень будут продавать вместе со свежими овощами
Sign up to leave a comment.