Pull to refresh

Comments 10

Странный вопрос о монетизации… В этой сфере, кто первый — того и тапки.
И кстати, это не камень в огород Википедии?
Пятнадцать лет назад, ещё до всяческих умных алгоримтов, запросто находил информацию в интернете. Основной секрет — надо искать в два-три шага. Например, сначала найти достойное доверие сообщество, почитать его, узнать термины, искать дальше. Это особенно хорошо работало, когда можно было вбить ключевые слова в поисковик и увидеть страницы, их содержащие. К сожалению, в наше время такой поиск больше не работает — поисковик отдаёт тебе то, что как он думает, ты ищешь, а не то, что ты конкретно указал в запросе.
Я и раньше находил и сейчас нахожу то — что мне надо. Мое субъективное мнение: существующего поиска достаточно для осуществления практически любой научной и образовательной деятельности.

Куда более остро стоят вопросы сохранности информации, в сети много изменений, пропадают сайты, изображения и т.д.

Я бы заплатил уже за функцию поисковика, которая позволит помечять коммерческий буллшит, тексты, которые я уже читал (не содержат нового знания) и тексты, которые мне как раз могут быть интересны.

А если это ещё и визуализировать так круто, как рассказал автор доклада, то цена может быть в 10 раз выше.

Почему этого ещё нет? Думаю потому, что более-менее нормальные результаты получаются на базах научных знаний, которые имеют строгие правила оформления + многие дополнительные параметры документы описаны отдельно. Если взять более коммерческую, а не академическую задачу (а таких людей большинсво), то данные надо будет собирать по сотням блогов, форумов и книг. Отделять действительно полезные статьи от рекламных поверхностных материалов. Вычитывать их. В общем получится каша, хуже чем после 3-4 уточнений с человеческим мозгом.

Как думаете?
Конечно, лучше (=проще получить хороший результат) работает на научных датасетах — мы с Воронцовым строили, например, тематические модели конференций, arxiv'а. Однако вне науки тоже можно пробовать, для начала что-то более-менее адекватное — например, как написано в статье, дамп хабра. Но и это, как я понимаю, уже в некоторым смысле пройденный этап — сейчас анализируют методами тематического моделирования к примеру данные из соц сетей. При этом, кстати, можно учитывать не только непосредственно текст, но и например геолокацию, пользователя, дату и т.п. — и всё в рамках ARTM :) И библиотека bigartm сейчас, насколько я знаю, почти всё это поддерживает — можно пробовать самим на своих данных.
Тогда не совсем понятна проблема с монетизацией. Если система помогает искать знания, то «интеллектуальная элита» способна заплатить пару долларов в месяц за такой сервис.

Вообще напоминает идею Semantic web, но с оговоркой, что никто размечать контент не будет, потому надо всё делать самим)

Очень жду такую систему. У самого были мысли, что подобный сервис был бы интересен, но навыков недостаточно) Пишите ещё об улучшении поиска информации и образования!
Очень нужна ссылка на статью и код Насти Яниной! Комбинирование регуляризаторов и подбор весов — это самое сложное и самое крутое, полезное в ARTM, а документации нифига нет про это. См. мою статью — про это жалуюсь. Банально как в CLI задавать декорреляцию — без чтения кода непонятно.

Вадим, если еще актуально (я случайно наткнулся на этот коммент год спустя), напишу Насте

есть проект с рабочим названием Контент Информ, писал на эту тему статью «Проблемы и перспективы поисковых технологий», нужны небольшие инвестиции)))
Sign up to leave a comment.