CalltouchForever Sep 14 2017 at 17:30

Использование различных метрик для кластеризации ключевых запросов

12 min

13K

Calltouch corporate blogWeb analytics*Contextual advertising*Increasing Conversion Rate*

Tutorial

Comments 3

vassabi Sep 15 2017 at 11:39

странно, что самая «нечеловеческая» метрика оказалось самой лучшей. Хотя, судя по описанию, векторы «новая прокладка» \ «новая рубашка» или «свежая коллекция» \ «свежая зелень» перекидываются в очень близкие точки по хеммингу, так что может быть дело в этом… вы же сортируете слова в фразе по алфавиту или там минимизация расстояния Левенштейна для слов?

Есть ли у вас априорная оценка? Т.е. когда таких фраз\слов вообще не было использовано, посмотреть в статистику гугла\яндекса — насколько популярна эта фраза в соцсетях? (а то будет «100% потерянных вещей, которые мы нашли — оказались под фонарём»)

CalltouchForever Sep 15 2017 at 12:51

Мы пробовали сортировать слова по алфавиту, но выигрыша от этого в дисперсии не наблюдали. Поэтому решили оставить «как есть», но легко заметить, что косинусная метрика не зависит от порядка слов, так что сортировка там ничего не даст.

Априорную оценку мы не строили, так как мы привязаны к конкретному типу обращения, и я не представляю, как собрать нужную мне статистику не в рамках наших текущих аккаунтов. Наша методика типична для задач машинного обучения: мы собирали ядро фраз с достаточным числом конверсий и кликов, часть фраз использовалась для предсказания как ядро, а на остальной части данных мы пытались предсказать, а потом сравнивали результаты с истинными.

tiendi3 Sep 15 2017 at 20:37

В контекстной рекламе никто не будет мешать несмешиваемое, поэтому тут подход имеет место быть. Например, свежую зелень будут продавать вместе со свежими овощами