Comments 34
Мне кажется из таких графиков ничего невозможно узнать. Всплески могут быть обоснованы и вполне банальными причинами, например показали статью по федеральному каналу про ЖЖ, и пошел всплеск регистраций. Плюс рекламные кампании и т.п.
Т.к. наиболее простой способ создать кучу троллей, это их зарегистрировать, и подружить их между друг другом, я бы пошел по пути построения графов пользователей и их дружбы, и выделял группы пользователей, которые имеют наименьшее количество друзей «вне группы».
Т.к. наиболее простой способ создать кучу троллей, это их зарегистрировать, и подружить их между друг другом, я бы пошел по пути построения графов пользователей и их дружбы, и выделял группы пользователей, которые имеют наименьшее количество друзей «вне группы».
+12
Комментарий к полному графику: «Выборы, выборы, кандидаты пи...». Всплеск 2014 года также понятен.
0
UFO just landed and posted this here
UFO just landed and posted this here
Нет, вы не правы вот в чём. Заказчику нужны 100 отзывов в день. У вас лично есть один профиль, а 99 вам приходится додумывать и дозаполнять всякой фигнёй. Нормальный человек ну допустим 7 жежечек может вести, семь виртуальных личностей.
После этой грани вы не сможете ежедневно вести по 100 виртуалов, где-то да спалитесь. Не верите — попробуйте.
Ручной труд не может быть массовым, ботов не научились ещё писать настолько ювелирно.
Возможно, уже придумали «экзоскелеты» (наборы скриптов в подмогу ручной работе — помощь ведению профиля, базы с профилями, календари и т.п.), не знаю как сейчас с этим дело обстоит.
Лично я бы первым делом в конторах, продающих псевдочеловеков первым бы сервером ставил не сервер для работничков — а сервер, который бы мерял человечность этих псевдоботов — и пилил бы попапы «Петя, у твоего журнала дядя Васи давно не было постов, падает параметр ХХХХ — напиши что-нибудь про....»
После этой грани вы не сможете ежедневно вести по 100 виртуалов, где-то да спалитесь. Не верите — попробуйте.
Ручной труд не может быть массовым, ботов не научились ещё писать настолько ювелирно.
Возможно, уже придумали «экзоскелеты» (наборы скриптов в подмогу ручной работе — помощь ведению профиля, базы с профилями, календари и т.п.), не знаю как сейчас с этим дело обстоит.
Лично я бы первым делом в конторах, продающих псевдочеловеков первым бы сервером ставил не сервер для работничков — а сервер, который бы мерял человечность этих псевдоботов — и пилил бы попапы «Петя, у твоего журнала дядя Васи давно не было постов, падает параметр ХХХХ — напиши что-нибудь про....»
0
Полученные это в свой журнал.
Мои критерии очень наивные, а четких быть не может. Плюс все они фальсифицируемы.
Мои критерии очень наивные, а четких быть не может. Плюс все они фальсифицируемы.
0
Если предположить, что «тролли» работают за деньги, абсолютное большинство их комментариев должно быть написано в рабочие часы (с 9 до 18, например). Попробуйте посмотреть по этому критерию.
0
Тогда надо и географию привязывать, страна большая. Как отличить столичного мурзилку от блогера-полуночника из Хабаровска?
0
хм. всегда думал, что проплаченные тролли — это эдакие сетевые задроты, «фрилансеры» в своей области и график у них произвольный — как удобно. Но никак не представлял себе человека в офисе с выделенными рабочими часами.
0
Не надо политизировать статью. Уберите ссылку на новую, а то можно подумать все ради этой ссылки и писалось.
-16
Вероятно, надо искать одинаковые или очень похожие комментарии. Если это боты, то у них заведомо не будет большого разнообразия в текстах, если проплаченные фрилансеры, у них все равно тексты часто будут различаться буквально парой слов, потому что написать за день сотню разных комментариев на одну и ту же тему очень сложно.
+2
НУ вот как-то так:
0
Ну или аккаунты с одинаковой датой регистрации. Вот тут Антон Носик словил целый выводок ботов, зареганных в один день:
dolboeb.livejournal.com/2178576.html
dolboeb.livejournal.com/2178576.html
+1
Я бы пошел по пути, по которому новостные агрегаторы группируют статьи из разных источников по схожести тематик — определил бы частоту конкретных словосочетаний из топиков и по ним бы кластеризовал бы тексты. А потом посмотрел бы, кто в каких кластерах живет. Заодно вышел бы коэффициент троллеподобия по степени принадлежности к тому или иному кластеру.
0
И еще, что касается критериев. В идеале, надо бы вручную найти сотню настоящих троллей и/или ботов и проанализировать их аккаунты, чтобы получить данные по массе возможных критериев: дата регистрации, количество постов, комментариев, френдов и т.п. Также можно получить частотный словарь комментариев и какие-нибудь дополнительные их характеристики (тут есть простор для фантазии).
После этого можно сравнить полученные данные и выявить черты, которые совпадают у большинства из нашей выборки. А потом искать троллей по этим критериям в автоматическом режиме
После этого можно сравнить полученные данные и выявить черты, которые совпадают у большинства из нашей выборки. А потом искать троллей по этим критериям в автоматическом режиме
+1
Интересная идея. Важным на мой взгляд фактором является тематика привлекающая троллей, особенно оплаченных, такой критерий наверное то же стоит учитывать. Да и отсеять обычных людей проще будет, нормальный человек мало вероятно будет выискивать специально все сообщения по конкретной тематики или сообщения человека с конкретными взглядами, и спамить его комментариями, по крайней мере частота сообщений не большая должна быть.
0
Странно, что не стали считать статистику по ключевым словам в комментариях.
Несложно вычислить аккаунты аккаунты которые занимаются толстым троллингом на политические темы, набор частоиспользуемых слов(вместе с популярными их искажениями) для них не таким большим должен быть. Ведь даже если они в дискуссии и вступают, то ответы — шаблонные.
Ввести коэффициент отношения стоп-слов к общему количеству сообщений, который и быть служить одним из критериев определения «мурзилки».
Несложно вычислить аккаунты аккаунты которые занимаются толстым троллингом на политические темы, набор частоиспользуемых слов(вместе с популярными их искажениями) для них не таким большим должен быть. Ведь даже если они в дискуссии и вступают, то ответы — шаблонные.
Ввести коэффициент отношения стоп-слов к общему количеству сообщений, который и быть служить одним из критериев определения «мурзилки».
+1
Бывают и не автоботные тролли, а вполне человекоподобные, которые пишут для развлечения.
+1
Автоботный вбросил(типовую на сегодня фразу по заданной теме) и пошел дальше план выполнять. У человекоподобных словарный запас шире, размеры комментария варьируется в широких приделах. Они, для развлечения, вполне могут вступать в длительные дискуссии. Плюс человекоподобные кормятся в привычных для себя местах. И тех и других вполне можно выделить из общей массы.
0
Вероятно, надо искать одинаковые или очень похожие комментарии. Если это боты, то у них заведомо не будет большого разнообразия в текстах, если проплаченные фрилансеры, у них все равно тексты часто будут различаться буквально парой слов, потому что написать за день сотню разных комментариев на одну и ту же тему очень сложно.
+1
Забавно. Я тоже все собираюсь сделать анализ «мурзилок», но пока руки не доходят :)
0
Поставленная Вами задача гораздо сложнее. Я хочу сказать, что процесс, который вы изучаете, имеет множество параметров. Вам необходимо рассматривать статистику в многомерном пространстве. Поясню:
— сеансы активности
— кол-во друзей
— склонность к определенным тематикам
— количество комментариев по тематикам
— количество комментариев на пост
— кол-во символов на комментарий
— интервалы между комментариями
— …
Я привел характеристики, которые пришли первыми в голову по аналогии с прочими соц.сетями (в ЖЖ не зарегистрирован, не знаю какая там кухня, простите). Далее, выделив основные признаки, Вам необходимо составить статистику по каждому из них, изучить взаимную кросскорреляцию между признаками и у Вас будет приблизительная картина среднестатистического пользователя ЖЖ. Имея статистику/распределение, будет легче искать отклонения. То есть выше Вам уже рекомендовали дать определение «троллю», я же Вам рекомендую проделать обратную работу. Искать «нормального» пользователя. Зная его свойства, легче искать отклонения.
— сеансы активности
— кол-во друзей
— склонность к определенным тематикам
— количество комментариев по тематикам
— количество комментариев на пост
— кол-во символов на комментарий
— интервалы между комментариями
— …
Я привел характеристики, которые пришли первыми в голову по аналогии с прочими соц.сетями (в ЖЖ не зарегистрирован, не знаю какая там кухня, простите). Далее, выделив основные признаки, Вам необходимо составить статистику по каждому из них, изучить взаимную кросскорреляцию между признаками и у Вас будет приблизительная картина среднестатистического пользователя ЖЖ. Имея статистику/распределение, будет легче искать отклонения. То есть выше Вам уже рекомендовали дать определение «троллю», я же Вам рекомендую проделать обратную работу. Искать «нормального» пользователя. Зная его свойства, легче искать отклонения.
+1
Вплоть до хэша из комментариев.
0
Если это реальные люди, которым поставлены определенные задачи, тогда можно предположить что они будут создавать резонанс работая вместе над каждым постом.Так как один комментарий потеряется а если будет несколько «нужных» комментариев то удастся достигнут нужного результата. Поэтому как вариант вручную отловить несколько откровенно провокационных на обсуждения такого толка постов и попробовать перечес множество комментаторов.
0
Можно по быстрому посмотреть на главные компоненты от всего этого дела и исключить те переменные, которые несущественны.
+1
А в чем там аномалия? Выбросы достаточно небольшие и действительно объяснимые.
0
В начале 2000-х годов регистрация в Livejournal была по приглашениям. Возможно в 2004 как раз их отменили.
+1
Sign up to leave a comment.
Сеанс белой магии без разоблачений или как я троллей в ЖЖ искал