SwampWalker Jan 16 2015 at 01:06

Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал

3 min

21K

Abnormal programming*

+14

Comments 34

serginho Jan 16 2015 at 01:31

Мне кажется из таких графиков ничего невозможно узнать. Всплески могут быть обоснованы и вполне банальными причинами, например показали статью по федеральному каналу про ЖЖ, и пошел всплеск регистраций. Плюс рекламные кампании и т.п.

Т.к. наиболее простой способ создать кучу троллей, это их зарегистрировать, и подружить их между друг другом, я бы пошел по пути построения графов пользователей и их дружбы, и выделял группы пользователей, которые имеют наименьшее количество друзей «вне группы».

+12

SwampWalker Jan 16 2015 at 07:29

Поэтому и без разоблачения. Всплески регистраций могут случаться, не спорю.

Vapaamies Jan 16 2015 at 02:59

Комментарий к полному графику: «Выборы, выборы, кандидаты пи...». Всплеск 2014 года также понятен.

UFO just landed and posted this here

questor Jan 16 2015 at 14:13

Нет, вы не правы вот в чём. Заказчику нужны 100 отзывов в день. У вас лично есть один профиль, а 99 вам приходится додумывать и дозаполнять всякой фигнёй. Нормальный человек ну допустим 7 жежечек может вести, семь виртуальных личностей.
После этой грани вы не сможете ежедневно вести по 100 виртуалов, где-то да спалитесь. Не верите — попробуйте.
Ручной труд не может быть массовым, ботов не научились ещё писать настолько ювелирно.
Возможно, уже придумали «экзоскелеты» (наборы скриптов в подмогу ручной работе — помощь ведению профиля, базы с профилями, календари и т.п.), не знаю как сейчас с этим дело обстоит.
Лично я бы первым делом в конторах, продающих псевдочеловеков первым бы сервером ставил не сервер для работничков — а сервер, который бы мерял человечность этих псевдоботов — и пилил бы попапы «Петя, у твоего журнала дядя Васи давно не было постов, падает параметр ХХХХ — напиши что-нибудь про....»

mickvav Jan 16 2015 at 22:56

Ну да, берем каких-нибудь the Sims на автопилоте, подвешиваем модуль протоколирования а-ля real time blogging, плюсуем гуглинг картинок и словарь соответствия sims-овских объектов реальным — и получается живенький такой зомбачок… ;)

SwampWalker Jan 16 2015 at 08:00

Полученные это в свой журнал.
Мои критерии очень наивные, а четких быть не может. Плюс все они фальсифицируемы.

germn Jan 16 2015 at 07:44

Если предположить, что «тролли» работают за деньги, абсолютное большинство их комментариев должно быть написано в рабочие часы (с 9 до 18, например). Попробуйте посмотреть по этому критерию.

SwampWalker Jan 16 2015 at 08:07

Тогда надо и географию привязывать, страна большая. Как отличить столичного мурзилку от блогера-полуночника из Хабаровска?

germn Jan 16 2015 at 08:15

Ну если на статью ориентироваться, то речь там только о Питере с Москвой. Но в общем случае, да, часовой пояс учитывать нужно.

nadenok Jan 16 2015 at 10:51

хм. всегда думал, что проплаченные тролли — это эдакие сетевые задроты, «фрилансеры» в своей области и график у них произвольный — как удобно. Но никак не представлял себе человека в офисе с выделенными рабочими часами.

lockywolf Jan 16 2015 at 14:25

Вероятно, так сложнее контролировать.

Prizrak Jan 16 2015 at 11:32

Не надо политизировать статью. Уберите ссылку на новую, а то можно подумать все ради этой ссылки и писалось.

-16

Liny_li Jan 16 2015 at 14:28

Вероятно, надо искать одинаковые или очень похожие комментарии. Если это боты, то у них заведомо не будет большого разнообразия в текстах, если проплаченные фрилансеры, у них все равно тексты часто будут различаться буквально парой слов, потому что написать за день сотню разных комментариев на одну и ту же тему очень сложно.

TheRaven Jan 16 2015 at 15:38

НУ вот как-то так:

lopatoid Jan 16 2015 at 18:27

Ну или аккаунты с одинаковой датой регистрации. Вот тут Антон Носик словил целый выводок ботов, зареганных в один день:
dolboeb.livejournal.com/2178576.html

kenoma Jan 17 2015 at 00:39

Я бы пошел по пути, по которому новостные агрегаторы группируют статьи из разных источников по схожести тематик — определил бы частоту конкретных словосочетаний из топиков и по ним бы кластеризовал бы тексты. А потом посмотрел бы, кто в каких кластерах живет. Заодно вышел бы коэффициент троллеподобия по степени принадлежности к тому или иному кластеру.

Liny_li Jan 16 2015 at 14:38

И еще, что касается критериев. В идеале, надо бы вручную найти сотню настоящих троллей и/или ботов и проанализировать их аккаунты, чтобы получить данные по массе возможных критериев: дата регистрации, количество постов, комментариев, френдов и т.п. Также можно получить частотный словарь комментариев и какие-нибудь дополнительные их характеристики (тут есть простор для фантазии).
После этого можно сравнить полученные данные и выявить черты, которые совпадают у большинства из нашей выборки. А потом искать троллей по этим критериям в автоматическом режиме

UFO just landed and posted this here

GunGraveKoga Jan 16 2015 at 14:46

Интересная идея. Важным на мой взгляд фактором является тематика привлекающая троллей, особенно оплаченных, такой критерий наверное то же стоит учитывать. Да и отсеять обычных людей проще будет, нормальный человек мало вероятно будет выискивать специально все сообщения по конкретной тематики или сообщения человека с конкретными взглядами, и спамить его комментариями, по крайней мере частота сообщений не большая должна быть.

Spetros Jan 16 2015 at 15:57

Странно, что не стали считать статистику по ключевым словам в комментариях.
Несложно вычислить аккаунты аккаунты которые занимаются толстым троллингом на политические темы, набор частоиспользуемых слов(вместе с популярными их искажениями) для них не таким большим должен быть. Ведь даже если они в дискуссии и вступают, то ответы — шаблонные.
Ввести коэффициент отношения стоп-слов к общему количеству сообщений, который и быть служить одним из критериев определения «мурзилки».

darkfrei Jan 16 2015 at 18:43

Бывают и не автоботные тролли, а вполне человекоподобные, которые пишут для развлечения.

Spetros Jan 16 2015 at 20:57

Автоботный вбросил(типовую на сегодня фразу по заданной теме) и пошел дальше план выполнять. У человекоподобных словарный запас шире, размеры комментария варьируется в широких приделах. Они, для развлечения, вполне могут вступать в длительные дискуссии. Плюс человекоподобные кормятся в привычных для себя местах. И тех и других вполне можно выделить из общей массы.

Mox Jan 16 2015 at 17:27

RomanL Jan 16 2015 at 17:49

Забавно. Я тоже все собираюсь сделать анализ «мурзилок», но пока руки не доходят :)

DISaccount Jan 16 2015 at 18:05

Поставленная Вами задача гораздо сложнее. Я хочу сказать, что процесс, который вы изучаете, имеет множество параметров. Вам необходимо рассматривать статистику в многомерном пространстве. Поясню:
— сеансы активности
— кол-во друзей
— склонность к определенным тематикам
— количество комментариев по тематикам
— количество комментариев на пост
— кол-во символов на комментарий
— интервалы между комментариями
— …
Я привел характеристики, которые пришли первыми в голову по аналогии с прочими соц.сетями (в ЖЖ не зарегистрирован, не знаю какая там кухня, простите). Далее, выделив основные признаки, Вам необходимо составить статистику по каждому из них, изучить взаимную кросскорреляцию между признаками и у Вас будет приблизительная картина среднестатистического пользователя ЖЖ. Имея статистику/распределение, будет легче искать отклонения. То есть выше Вам уже рекомендовали дать определение «троллю», я же Вам рекомендую проделать обратную работу. Искать «нормального» пользователя. Зная его свойства, легче искать отклонения.

darkfrei Jan 16 2015 at 18:44

Вплоть до хэша из комментариев.

oleg1251 Jan 16 2015 at 21:10

Если это реальные люди, которым поставлены определенные задачи, тогда можно предположить что они будут создавать резонанс работая вместе над каждым постом.Так как один комментарий потеряется а если будет несколько «нужных» комментариев то удастся достигнут нужного результата. Поэтому как вариант вручную отловить несколько откровенно провокационных на обсуждения такого толка постов и попробовать перечес множество комментаторов.