Pull to refresh

Comments 15

пользователь криптовалют никогда не заходит на странички на каких-нибудь товарах.майлру или тындекс.маркете?
Все совпадения случайны. При написании статьи ни один программист не пострадал.
Очень интересно, но не все дошло. Надо будет подробнее разобраться, особенно мат. термины и аппарат.
А то «рисовали-рисовали сову», а после заголовка «Моделирование и результаты» — опа «готовая сова» :)
На самом деле я постарался схематично пробежаться по всему подходу, посвятив пару параграфов каждому из этапов (сбор данных, конструирование признаков, выбор признаков, моделирование, валидация). В этом смысле моделирование получило не меньше внимания, чем остальные части. Если всем все понравится и мне разрешат, то я как-нибудь поподробнее напишу про моделирование.

Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».

Что касается мат.части, книга Бишопа чудо как хороша.
Мейл.ру, дарю идею. Зачем там всякая биг дата, больше о пользователях позволит узнать только тотальная слежка.
Статья как раз о том, как из тотальной слежки Лестрейда получить выводы, достойные Шерлока Холмса. Что толку следить за человеком, если нельзя сказать «Элементарно, Ватсон!»
И все же, как определяете ботов (общий принцип)?
Как склеиваете логи одного пользователя, но который заходит с разных устройств или для вас это два разных пользователя?
Как-то непонятно:
Например, на картинке ниже первая строка соответствует посещению сайта hi-tech.mail.ru пользователем A21CE около полудня 9 апреля, а вторая строка — посещению сайта horo.mail.ru.

Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?

А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?
Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?

Да, этот идентификатор пишется в куки
А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?

Отсеиваются из-за того, что не проходят через фильтр «живых».
По поводу определения ботов — это целая большая подзадача. Используется смесь полуручного отбора на основании посещения «плохих» сайтов, анализа паттернов посещения по частоте и распределений посещений внутри дня. Также кое-какие наработки из области Фурье-анализа. Научные статьи, лежащие в основе, гуглятся.

Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.
Приветствую!

Весьма интересная статья. Пару вопросов, если можно:

1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.
2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.
1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.

Используем, в этой статье не довелось упомянуть про все типы используемых фич.

2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.

Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.
Хорошая статья! Всегда приятно читать когда используются похожие алгоритмы с теми, что использую сам, но в совершенно других направлениях и тематиках.

Из логично возникших вопросов: а почему не учитываете операционку с которой сидит пользователь/тип устройства/провайдера и.т.д.? Ведь такие данные могут уже значить много сами по себе.
Как я писал, в статье для краткости не упомянуты все типы фич. На самом деле те, что Вы предложили, используются.
Sign up to leave a comment.