Pull to refresh

Comments 8

Спасибо. Интересно.
А какой у вас объем обучающей/проверочной выборки? И, собственно, откуда набор данных? Сами размечали?

А какие признаки из html вы используете? Вряд ли система предназначена для работы на plain-text.
Объем начальной выборки приблизительно 1000 эпизодов, размечались тексты вручную. Обучались на всём подряд — различные сырые HTML-страницы, простой текст. Последующие выборки строились инкрементально: прогоняем случайный текст, отбираем те случаи, когда решение затруднено, затем эти случаи добавляются частично в обучающий, и частично в проверочный наборы. Всего потребовалось 6 таких итераций, накопленное суммарное количество эпизодов порядка 10 000.
Спасибо, интересная информация. Как раз изучаю данную тематику.
А как с производительностью такого алгоритма при объемах обработки, свойственных поисковой системе?
Вообще, деревья решений – один из самых быстрых алгоритмов. Должен справляться )
А если не хочется писать свою реализацию этого алгоритма, в opennlp, например, есть компонент Sentence Detector, использующий Maximum Entropy Model. Его можно обучить для русского языка.

sourceforge.net/apps/mediawiki/opennlp/index.php?title=Sentence_Detector
Как показывает практика, вычислительная нагрузка в связи с использованием такого подхода ощутимо возрастает, но не по вине дерева решений. Профилирование показало, что проблемы возникают с регулярными выражениями, применяемыми к левым контекстам: в отдельных случаях сложность алгоритма получается квадратичной. Одним из путей решения может быть замена подобных регулярных выражений обратными (работающими справа налево). В худшем случае, представленный метод может быть применен для обучения более быстрых, но менее интуитивно понятных моделей, поскольку обучающую выборку можно сделать сколь угодно большой, без участия ассессоров.
Спасибо, очень своевременная статья, т.к в данный момент пытаемся решить похожую задачу.

Скажите, пожалуйста, как именно называется этот алгоритм, чтобы о нём можно было подробнее почитать в книжках, подобных той, что вы указали. Это какая-то модификация ID3?
Sign up to leave a comment.