Pull to refresh

Comments 34

Мне кажется из таких графиков ничего невозможно узнать. Всплески могут быть обоснованы и вполне банальными причинами, например показали статью по федеральному каналу про ЖЖ, и пошел всплеск регистраций. Плюс рекламные кампании и т.п.

Т.к. наиболее простой способ создать кучу троллей, это их зарегистрировать, и подружить их между друг другом, я бы пошел по пути построения графов пользователей и их дружбы, и выделял группы пользователей, которые имеют наименьшее количество друзей «вне группы».
Поэтому и без разоблачения. Всплески регистраций могут случаться, не спорю.
Комментарий к полному графику: «Выборы, выборы, кандидаты пи...». Всплеск 2014 года также понятен.
UFO just landed and posted this here
UFO just landed and posted this here
Нет, вы не правы вот в чём. Заказчику нужны 100 отзывов в день. У вас лично есть один профиль, а 99 вам приходится додумывать и дозаполнять всякой фигнёй. Нормальный человек ну допустим 7 жежечек может вести, семь виртуальных личностей.
После этой грани вы не сможете ежедневно вести по 100 виртуалов, где-то да спалитесь. Не верите — попробуйте.
Ручной труд не может быть массовым, ботов не научились ещё писать настолько ювелирно.
Возможно, уже придумали «экзоскелеты» (наборы скриптов в подмогу ручной работе — помощь ведению профиля, базы с профилями, календари и т.п.), не знаю как сейчас с этим дело обстоит.
Лично я бы первым делом в конторах, продающих псевдочеловеков первым бы сервером ставил не сервер для работничков — а сервер, который бы мерял человечность этих псевдоботов — и пилил бы попапы «Петя, у твоего журнала дядя Васи давно не было постов, падает параметр ХХХХ — напиши что-нибудь про....»
Ну да, берем каких-нибудь the Sims на автопилоте, подвешиваем модуль протоколирования а-ля real time blogging, плюсуем гуглинг картинок и словарь соответствия sims-овских объектов реальным — и получается живенький такой зомбачок… ;)
Полученные это в свой журнал.
Мои критерии очень наивные, а четких быть не может. Плюс все они фальсифицируемы.
Если предположить, что «тролли» работают за деньги, абсолютное большинство их комментариев должно быть написано в рабочие часы (с 9 до 18, например). Попробуйте посмотреть по этому критерию.
Тогда надо и географию привязывать, страна большая. Как отличить столичного мурзилку от блогера-полуночника из Хабаровска?
Ну если на статью ориентироваться, то речь там только о Питере с Москвой. Но в общем случае, да, часовой пояс учитывать нужно.
хм. всегда думал, что проплаченные тролли — это эдакие сетевые задроты, «фрилансеры» в своей области и график у них произвольный — как удобно. Но никак не представлял себе человека в офисе с выделенными рабочими часами.
Вероятно, так сложнее контролировать.
Не надо политизировать статью. Уберите ссылку на новую, а то можно подумать все ради этой ссылки и писалось.
Вероятно, надо искать одинаковые или очень похожие комментарии. Если это боты, то у них заведомо не будет большого разнообразия в текстах, если проплаченные фрилансеры, у них все равно тексты часто будут различаться буквально парой слов, потому что написать за день сотню разных комментариев на одну и ту же тему очень сложно.
Ну или аккаунты с одинаковой датой регистрации. Вот тут Антон Носик словил целый выводок ботов, зареганных в один день:
dolboeb.livejournal.com/2178576.html
Я бы пошел по пути, по которому новостные агрегаторы группируют статьи из разных источников по схожести тематик — определил бы частоту конкретных словосочетаний из топиков и по ним бы кластеризовал бы тексты. А потом посмотрел бы, кто в каких кластерах живет. Заодно вышел бы коэффициент троллеподобия по степени принадлежности к тому или иному кластеру.
И еще, что касается критериев. В идеале, надо бы вручную найти сотню настоящих троллей и/или ботов и проанализировать их аккаунты, чтобы получить данные по массе возможных критериев: дата регистрации, количество постов, комментариев, френдов и т.п. Также можно получить частотный словарь комментариев и какие-нибудь дополнительные их характеристики (тут есть простор для фантазии).
После этого можно сравнить полученные данные и выявить черты, которые совпадают у большинства из нашей выборки. А потом искать троллей по этим критериям в автоматическом режиме
UFO just landed and posted this here
Интересная идея. Важным на мой взгляд фактором является тематика привлекающая троллей, особенно оплаченных, такой критерий наверное то же стоит учитывать. Да и отсеять обычных людей проще будет, нормальный человек мало вероятно будет выискивать специально все сообщения по конкретной тематики или сообщения человека с конкретными взглядами, и спамить его комментариями, по крайней мере частота сообщений не большая должна быть.
Странно, что не стали считать статистику по ключевым словам в комментариях.
Несложно вычислить аккаунты аккаунты которые занимаются толстым троллингом на политические темы, набор частоиспользуемых слов(вместе с популярными их искажениями) для них не таким большим должен быть. Ведь даже если они в дискуссии и вступают, то ответы — шаблонные.
Ввести коэффициент отношения стоп-слов к общему количеству сообщений, который и быть служить одним из критериев определения «мурзилки».
Бывают и не автоботные тролли, а вполне человекоподобные, которые пишут для развлечения.
Автоботный вбросил(типовую на сегодня фразу по заданной теме) и пошел дальше план выполнять. У человекоподобных словарный запас шире, размеры комментария варьируется в широких приделах. Они, для развлечения, вполне могут вступать в длительные дискуссии. Плюс человекоподобные кормятся в привычных для себя местах. И тех и других вполне можно выделить из общей массы.
Вероятно, надо искать одинаковые или очень похожие комментарии. Если это боты, то у них заведомо не будет большого разнообразия в текстах, если проплаченные фрилансеры, у них все равно тексты часто будут различаться буквально парой слов, потому что написать за день сотню разных комментариев на одну и ту же тему очень сложно.
Забавно. Я тоже все собираюсь сделать анализ «мурзилок», но пока руки не доходят :)
Поставленная Вами задача гораздо сложнее. Я хочу сказать, что процесс, который вы изучаете, имеет множество параметров. Вам необходимо рассматривать статистику в многомерном пространстве. Поясню:
— сеансы активности
— кол-во друзей
— склонность к определенным тематикам
— количество комментариев по тематикам
— количество комментариев на пост
— кол-во символов на комментарий
— интервалы между комментариями
— …
Я привел характеристики, которые пришли первыми в голову по аналогии с прочими соц.сетями (в ЖЖ не зарегистрирован, не знаю какая там кухня, простите). Далее, выделив основные признаки, Вам необходимо составить статистику по каждому из них, изучить взаимную кросскорреляцию между признаками и у Вас будет приблизительная картина среднестатистического пользователя ЖЖ. Имея статистику/распределение, будет легче искать отклонения. То есть выше Вам уже рекомендовали дать определение «троллю», я же Вам рекомендую проделать обратную работу. Искать «нормального» пользователя. Зная его свойства, легче искать отклонения.
Вплоть до хэша из комментариев.
Если это реальные люди, которым поставлены определенные задачи, тогда можно предположить что они будут создавать резонанс работая вместе над каждым постом.Так как один комментарий потеряется а если будет несколько «нужных» комментариев то удастся достигнут нужного результата. Поэтому как вариант вручную отловить несколько откровенно провокационных на обсуждения такого толка постов и попробовать перечес множество комментаторов.
А в чем там аномалия? Выбросы достаточно небольшие и действительно объяснимые.
Объяснить тем, что в эти дни регистрировались более популярные люди?
В начале 2000-х годов регистрация в Livejournal была по приглашениям. Возможно в 2004 как раз их отменили.
Sign up to leave a comment.

Articles