Pull to refresh

Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал

Reading time3 min
Views21K


Пролог


Последние год-полтора я чувствовал себя в ЖЖ как этот таксист. Впервые я зарегистрировался в LiveJournal уже больше 10 лет назад. Про фейсбук тогда наверно и Дуров не слыхивал, а тут можно было объединяться по интересам, обмениваться мнениями, писать корифеям типа Лебедева. У меня сформировалась френдлента и я стал замечать, что русский сегмент не так уж велик и в общем-то все друг друга знают. Года с 2011 примерно ЖЖ стал чахнуть, движуха стала перемещаться в твиттер и фейсбук, а я стал замечать что контингент комментирующих меняется. Сначала это было незаметно, но с прошлого года я поймал себя на мысли, что открывая комментарии к посту, я задаюсь вопросом того самого бородатого отшельника. Да и в прессе стали проскакивать статейки интересного содержания.

Но особой веры журналистам у меня нет, поэтому вооружившись Python, BeautifulSoup, psycopg2, matplotlib и PostgreSQL я решил провести собственное мини-расследование и заодно освежить/приобрести кое-какие навыки.

Внешний вид и поведение


Что таить, я и сам любил иногда потроллить, за многое до сих пор стыдно, но бесценный (ха-ха) опыт позволил мне сформулировать основные признаки тролля:
  • Мало постов. Тролль ничего не пишет, он сркормится в чужих журналах и как следствие у него…
  • Мало полученных комментариев.
  • Много написанных в чужие журналы комментариев
  • Мало «зафрендивших» друзей. Тролль заводит журнал не для общения, зачастую ради одного единственного наброса.

Но те, кого я искал были не совсем троллями.
Они явно не были одиночками, похоже что они действовали сообща и у них было больше возможностей по маскировке.
Они могли писать осмысленные посты и иметь много друзей, поэтому пока мой уродливый скриптик дергал странички мобильной версии ЖЖ выделенных мной топовых блоггеров, я ломал голову как потом обработать полученные данные.
  • Предполагалось, что большое количество мурзилок должно было появиться в короткий срок, поэтому для каждого юзера извлекалась дата регистрации.
  • Начиная с какого-то времени в ЖЖ ввели возможность комментировать через аккаунты твиттера, фейсбука и прочих сервисов. Видя как орды ботов в твиттере тащат в тренды все что угодно, я полагал это подмножество юзеров перспективным.
  • Был придуман «коэффициент мурзилкоподобия», который являлся отношением написанных комментариев к полученным. Этот коэффициент для идеального тролля должен был стремиться к бесконечности, а для сферического интроверта ожидался равным единице. Но все оказалось немного страннее.


Улов


Скрипт работал все новогодние праздники, в консоли иногда оказывались юзернеймы знакомых людей, иногда даже уже ушедших. Все-таки 10 лет это немалый срок…
За пару недель, словив три бана, удалось распарсить примерно 11 тысяч постов, 2.3 миллиона комментариев, которые оставили около 90 тысяч юзеров к не всем записям 7 топовых блоггеров. Негусто, и наверно около 5% от того, что я хотел напарсить изначально. Дамп этой базы данных можно скачать здесь.

Пришло время анализировать данные. Первым делом я решил вывести зависимость «мурзилкоподобности» от времени регистрации.
Мдаа...

Нормировка, попытки расчета с влиянием количества собственных постов, подбор весовых коэффициентов, все это не показывало никаких аномалий и более напоминало попытку подгона решения под ответ. Глянем для внешних юзеров.
Хм...

Ну, этот скачок вполне объясним. Например добавили новые сервисы с которых можно авторизоваться.

Почти смирившись с тем, что намека на доказательства нет, я решил напоследок построить график простого соответствия даты регистрации пользователя его нынешнему количеству друзей.
Вон они, касатики



Да, я собрал мало данных. Да, это не совсем моя предметная область, многие вещи я делал впервые и мог ошибиться. Да, я уже подзабыл что такое коэффициент Стьюдента. Да и в общем-то это ничего не доказывает.
Возможно ли, что юзеры, регистрировавшиеся в один день отличаются большей популярностью в блогосфере? Вряд ли. Предлагаю подумать вместе.

Вместо эпилога


Самое смешное, что полностью график выглядит так

Аномалия 2004 года крупнее.


Ссылка на репозиторий. Не судите код строго, очень спешил.
Особую благодарность за консультации в расследовании хочется выразить моему другу a11aud.
Only registered users can participate in poll. Log in, please.
Как объяснить такие аномалии на графиках?
21.04% Что-то не так посчитано73
18.16% На юзеров, зарегистрировавшихся в эти дни повлиял знак Зодиака, фаза Луны и Венера во втором доме63
42.65% Это неправильные тролли, боты или еще какая сетевая нечисть148
18.16% Иное63
347 users voted. 311 users abstained.
Tags:
Hubs:
+14
Comments34

Articles

Change theme settings