Leono Oct 23 2016 at 18:27

Тематическое моделирование на пути к разведочному информационному поиску. Лекция в Яндексе

19 min

16K

Яндекс corporate blogSearch engines*System Analysis and Design*Algorithms*Data visualization*

+54

Comments 10

stokker Oct 23 2016 at 18:53

Странный вопрос о монетизации… В этой сфере, кто первый — того и тапки.

stokker Oct 24 2016 at 01:37

И кстати, это не камень в огород Википедии?

Saffron Oct 23 2016 at 19:41

Пятнадцать лет назад, ещё до всяческих умных алгоримтов, запросто находил информацию в интернете. Основной секрет — надо искать в два-три шага. Например, сначала найти достойное доверие сообщество, почитать его, узнать термины, искать дальше. Это особенно хорошо работало, когда можно было вбить ключевые слова в поисковик и увидеть страницы, их содержащие. К сожалению, в наше время такой поиск больше не работает — поисковик отдаёт тебе то, что как он думает, ты ищешь, а не то, что ты конкретно указал в запросе.

dcc0 Oct 23 2016 at 20:54

Я и раньше находил и сейчас нахожу то — что мне надо. Мое субъективное мнение: существующего поиска достаточно для осуществления практически любой научной и образовательной деятельности.

Куда более остро стоят вопросы сохранности информации, в сети много изменений, пропадают сайты, изображения и т.д.

Here_and_Now Oct 24 2016 at 00:14

Я бы заплатил уже за функцию поисковика, которая позволит помечять коммерческий буллшит, тексты, которые я уже читал (не содержат нового знания) и тексты, которые мне как раз могут быть интересны.

А если это ещё и визуализировать так круто, как рассказал автор доклада, то цена может быть в 10 раз выше.

Почему этого ещё нет? Думаю потому, что более-менее нормальные результаты получаются на базах научных знаний, которые имеют строгие правила оформления + многие дополнительные параметры документы описаны отдельно. Если взять более коммерческую, а не академическую задачу (а таких людей большинсво), то данные надо будет собирать по сотням блогов, форумов и книг. Отделять действительно полезные статьи от рекламных поверхностных материалов. Вычитывать их. В общем получится каша, хуже чем после 3-4 уточнений с человеческим мозгом.

Как думаете?

chersanya Oct 24 2016 at 02:23

Конечно, лучше (=проще получить хороший результат) работает на научных датасетах — мы с Воронцовым строили, например, тематические модели конференций, arxiv'а. Однако вне науки тоже можно пробовать, для начала что-то более-менее адекватное — например, как написано в статье, дамп хабра. Но и это, как я понимаю, уже в некоторым смысле пройденный этап — сейчас анализируют методами тематического моделирования к примеру данные из соц сетей. При этом, кстати, можно учитывать не только непосредственно текст, но и например геолокацию, пользователя, дату и т.п. — и всё в рамках ARTM :) И библиотека bigartm сейчас, насколько я знаю, почти всё это поддерживает — можно пробовать самим на своих данных.

Here_and_Now Oct 24 2016 at 11:05

Тогда не совсем понятна проблема с монетизацией. Если система помогает искать знания, то «интеллектуальная элита» способна заплатить пару долларов в месяц за такой сервис.

Вообще напоминает идею Semantic web, но с оговоркой, что никто размечать контент не будет, потому надо всё делать самим)

Очень жду такую систему. У самого были мысли, что подобный сервис был бы интересен, но навыков недостаточно) Пишите ещё об улучшении поиска информации и образования!

markhor Oct 24 2016 at 11:13

Очень нужна ссылка на статью и код Насти Яниной! Комбинирование регуляризаторов и подбор весов — это самое сложное и самое крутое, полезное в ARTM, а документации нифига нет про это. См. мою статью — про это жалуюсь. Банально как в CLI задавать декорреляцию — без чтения кода непонятно.

varagian Nov 19 2017 at 16:34

Вадим, если еще актуально (я случайно наткнулся на этот коммент год спустя), напишу Насте

contentinform Sep 13 2021 at 11:22

есть проект с рабочим названием Контент Информ, писал на эту тему статью «Проблемы и перспективы поисковых технологий», нужны небольшие инвестиции)))