iggisv9t Aug 1 2019 at 15:05

Визуализация новостей рунета

6 min

15K

Open Data Science corporate blogOpen source*Data Mining*Machine learning*Natural Language Processing*

+35

Comments 26

Artgor Aug 1 2019 at 15:48

Активно участвую в работе над этим проектом и мне он очень нравится. Приглашаю интересующихся тоже поучаствовать в нём :)

dmitry_sh Aug 1 2019 at 17:23

Интересный проект! А как присоединиться?

iggisv9t Aug 1 2019 at 17:23

Для начала надо присоединиться к ods.ai — потому что всё это в рамках сообщества. Потом искать где там #ml4sg

3aiats Aug 1 2019 at 17:25

а вы тащите в том числе количество просмотров новости? если да — можно попробовать посчитать влияние новостей о кассовых сборах фильмов в зависимости от освещения в прессе рекордов в первый — второй — третий викенд. Если проклюнется что нибудь интересное, можно попробовать монетизировать

iggisv9t Aug 1 2019 at 17:26

Я думаю, что этим и без нас занимаются, конечно. Сейчас мы просмотры не парсим. Когда-нибудь обязательно будем.

Deerenaros Aug 2 2019 at 15:01

Без просмотров, особенно персонализированных, боюсь, это слишком не интересно для монетизации. Разве что спекулятивной)

Есть вообще какие-либо перспективы изучения этих графиков окромя удовлетворения собственного любопытства?

iggisv9t Aug 2 2019 at 16:17

Мы же не задачу рекомендаций решаем. То есть вопрос стоит «что пишут», а не «что читают». И тем более не «что предложить почитать». Если брать именно этот проект в чистом виде — то это скорее археология. Но я уже говорил в другом комментарии, что есть бизнес-задачи, где то же самое монетизируется. Только на других данных. Например то же самое «что пишут» в соцсетях простые пользователи даёт ответ на вопрос «что читают» и «что интересно», соответственно и «что предложить почитать». Странно говорить о возможностях инструмента не глядя на сам инструмент, а только на то, к чему его сейчас применили.

Если пытаться охарактеризовать проект с точки зрения того, чем он не является, то разумеется выглядеть будет абсурдно. В данном случае проект не является ни в каком качестве бизнесом. Ни стартапом, ни POC для какого-то стартапа, ни чем похожим. Поэтому вопросы о монетизации надо было бы задавать начиная с вопроса «а нужна ли монетизация?». Ответ — вообще не обязательно. С деньгами и работниками конечно будет эффективнее, но задачи тогда тоже будут другие.

Я говорил, что в проекте предполагаются не только эти графики, поэтому не будем перспективы проекта сжимать в рамки того, что уже нарисовали. Я немного ответил на этот вопрос здесь habr.com/ru/company/ods/blog/460287/#comment_20466025

Дополню, что дата-журналистика находит свою нишу и пользуется спросом. Сам факт того, что люди читают новости, показывает то, что людям интересно, что происходит. То есть если вы переживаете по поводу аудитории — не переживайте.

По поводу просмотров всё таки отвечу. Во-первых мы их всё равно рано или поздно скачаем. Во-вторых пока больше других фундаментальных задач, без которых просмотры бесполезны. В третьих — сначала мы собрали разные индексы о просмотрах самих СМИ, не конкретных статей, отранжировали и начали качать с самых популярных. Лента_ру везде в примерах только потому что она была уже скачана до нас.

rPman Aug 1 2019 at 22:07

Я извиняюсь за нескромный вопрос, 80 человек! достаточно сомнительный по монетизации проект, как вы собираетесь собственно поддерживать работу такого количества человек над таким относительно бесполезным проектом как анализ 'новостей' рунета?

dmitry_sh Aug 2 2019 at 11:08

не согласен, что проект бесполезный. Новостной поток — это своеобразный «пульс» общества. Клубок новостей — это как некий общественный «мозг», который совокупно реагирует на происходящее. Его анализ — потенциальный ключ к прогнозированию и принятию решений. Решения могут быть разные — общественные, планы развития, и даже ставки на биржах. имхо

iggisv9t Aug 2 2019 at 12:56

80 человек, из которых 2-4 бывают активны постоянно, около 20 вносили какой-то вклад в проект. У нас за ЗП никто не работает, в том числе и я. И никто и не надеялся на какие-то вознаграждения. Монетизация не была целью никогда. Я пытался пояснить мотивацию участников в разделе «команда» и формат таких проектов в разделе «краткая справка». В общем, нет необходимости поддерживать 80 человек, их которых 60 ограничились только тем, что заполнили заявку на участие.

Тем не менее на нас выходят организации, которым интересно применять подобные подходы к своим данным и задачам. Так что потенциал для монетизации есть, но немного в других рамках, уже вне всего этого движа.

AirLight Aug 2 2019 at 04:04

Как это применять? Примеры можно? Действительно ли он вообще позволяет что-то выуживать?

iggisv9t Aug 2 2019 at 13:28

Изначальная идея применений примерно как то, что описано до ката. То есть чисто проверка гипотез о том, что происходит и как об этом пишут. Готовят ли почву для каких-то действий или событий, пытаются ли отвлечь внимание. С несколькими источниками можно будет сравнивать перекос в направленности или находить заимствования. Ещё интересные обзоры истории можно делать, как в том примере с лицами. Там видно, например, как на политическую арену выходили персоны из ИТ, а до этого там был только Гейтс, хотя в тот момент всех интересовало только его богатство. Для рекламщиков и пиарщиков здесь тоже есть интерес. Я сам, к сожалению, не очень понимаю их мир, но отслеживать влияние медиа — это очень важная для них задача.

S_A Aug 2 2019 at 05:03

Проект отличный, жаль что я попадаю в категорию нинзь за фатальным недостатком свободного времени по семейным обстоятельствам.

В плане веб-разработки там поляна широкая для творчества! А объем по моему мнению не запредельный. Идеально для желающих научиться делать современно и красиво.

iggisv9t Aug 2 2019 at 12:57

Сделать что-то один раз, или посоветовать подход — тоже хороший вариант участия.

Arson Aug 2 2019 at 08:58

Мне кажется было бы интересно искать корреляции графиков, например человек интересуется новостями про победы в спорте, по идее система должна ему показать все новости с такими-же графиками и с зависимыми. Такие-же это, понятно, новости с пиками в тех же местах где пики того что я ищу, а зависимые — это, например, новости о фанатах/беспорядках, пик которых обычно следует (но не совпадает) за пиком спортивных новостей. Или наоборот, пик каких-то новостей всегда будет предшествовать тому что я ищу.

iggisv9t Aug 2 2019 at 13:01

У нас есть в планах воспроизвести одну работу на эту тему. В ней ищут совпадение по пикам разных устойчивых фраз во временных рядах. Там это применяли к предвыборным кампаниям США на базе твитов и политических блогов, и обнаруживали кто за кем повторяет. Возможности применения такого подхода, конечно гораздо шире. Алгоритм называется K-Spectral Centroid Clustering, а проект memetracker. Meme здесь в том смысле, в каком его Докинз вводил.

nikolay_karelin Aug 2 2019 at 11:17

По поводу визуализации, есть хороший обзор здесь: http://jmlda.org/papers/doc/2015/no11/Aysina2015Survey.pdf

К сожалению, там нету ссылок на активные и открытые проекты. Нашел только вот эти две статьи с описанием исследовательских проектов:

iggisv9t Aug 2 2019 at 13:08

Спасибо, почитаю. Пока только картинки посмотрел. Мы тоже пробовали steamgraph, stacked area и прочее из предложенного. Из-за огромного количества тем графики в таком виде получаются сильно перегружены. Пришли к тому, что хорошо сделанный bump chart и ridgeline plot пока лучший вариант. Но в любом случае выводить вообще всё не получится. Мы хотим давать пользователю выбор, как отображать. Пока только выбор из двух форматов.

Tollanin Aug 2 2019 at 13:08

Планируете ли Вы использовать вручную предопределённые сложносоставные темы (в виде графа с векторами оценки взаимосвязей). Корректно составленный граф позволяет оценивать валидность источников СМИ (по аналогии с группами вопросов для проверки валидности (лживости) в психологических тестах).

iggisv9t Aug 2 2019 at 13:12

Честно говоря, я не понял о чём вы. То есть по отдельности понимаю куски идей, а как это всё вместе связано не понял. Мы очень надеемся на иерархические модели — наверное это можно назвать сложносоставными темами, и они строят дерево тем, да, то есть граф. Мысль про валидность, психологические тесты и вопросы не понял совсем.

Tollanin Aug 2 2019 at 14:41

Подразумевал: полезные для жизни результаты обычно учитывают валидность источников. Для какой-то изучаемой темы мы вручную строим шаблон из нескольких элементов со взаимосвязями. Например «сын моего отца мне не брат» — правильный ответ «Я». Если в результате анализа конкретного СМИ этот паттерн не проходит (например, утверждается, что ответ «сестра»), то у такого источника занижается оценка валидности (компетентности) по данной теме.

GomelKiev Aug 3 2019 at 00:10

Посмотрите проект gdelt у гугла.

iggisv9t Aug 5 2019 at 13:20

Спасибо, интересно. Там похоже долго нужно разбираться.

v_m_smith Aug 3 2019 at 14:25

а в открытом доступе для всех вы планируете результаты вашей обработки показывать?
В идеале хорошо бы вам превратиться не только в визуализатор, но и в экструдер новостей, чтобы новости превращались в краткую лаконичную саммари, содержащую лишь значимый факт из новости, без всей этой кликбейтной шелухи.
А то тошнит уже от нынешних «новостей»

и круто было бы конечно семантически связывать новости. чтобы от каждой можно было проследить цепочку в исторической перспективе, с цифрами динамики, графиками и т.п.

iggisv9t Aug 5 2019 at 13:23

Да, в открытом доступе будет, как только до приличного вида доведём.
Суммаризация текстов — довольно сложная задача, но в принципе всё для этого есть. Можно будет этим заняться, когда с текущим пулом задач разберёмся.

Связывать новости друг с другом семантически — это уже похоже на предмет для серьёзной научной работы, то есть это не просто техническая проблема. Мы такое любим, но тут понятно, что это надолго и результаты могут быть разные.
Спасибо за идеи.

3aiats Aug 7 2019 at 10:28

Подумалось тут на досуге, можно ли посчитать скорость и направление миграции новостей в сми? ну например оригинал РБК и клоны со ссылками и без, и так для разных ресурсов. По идее можно смоделировать карту миграции новостей по темам от разных источников (проблема может быть в поиске оригинала) и построить на этой логике неплохой агрегатор новостей