Comments 8
Спасибо. Интересно.
А какой у вас объем обучающей/проверочной выборки? И, собственно, откуда набор данных? Сами размечали?
А какие признаки из html вы используете? Вряд ли система предназначена для работы на plain-text.
А какой у вас объем обучающей/проверочной выборки? И, собственно, откуда набор данных? Сами размечали?
А какие признаки из html вы используете? Вряд ли система предназначена для работы на plain-text.
+3
Объем начальной выборки приблизительно 1000 эпизодов, размечались тексты вручную. Обучались на всём подряд — различные сырые HTML-страницы, простой текст. Последующие выборки строились инкрементально: прогоняем случайный текст, отбираем те случаи, когда решение затруднено, затем эти случаи добавляются частично в обучающий, и частично в проверочный наборы. Всего потребовалось 6 таких итераций, накопленное суммарное количество эпизодов порядка 10 000.
+3
Спасибо, интересная информация. Как раз изучаю данную тематику.
+3
А как с производительностью такого алгоритма при объемах обработки, свойственных поисковой системе?
0
Вообще, деревья решений – один из самых быстрых алгоритмов. Должен справляться )
А если не хочется писать свою реализацию этого алгоритма, в opennlp, например, есть компонент Sentence Detector, использующий Maximum Entropy Model. Его можно обучить для русского языка.
sourceforge.net/apps/mediawiki/opennlp/index.php?title=Sentence_Detector
А если не хочется писать свою реализацию этого алгоритма, в opennlp, например, есть компонент Sentence Detector, использующий Maximum Entropy Model. Его можно обучить для русского языка.
sourceforge.net/apps/mediawiki/opennlp/index.php?title=Sentence_Detector
0
Как показывает практика, вычислительная нагрузка в связи с использованием такого подхода ощутимо возрастает, но не по вине дерева решений. Профилирование показало, что проблемы возникают с регулярными выражениями, применяемыми к левым контекстам: в отдельных случаях сложность алгоритма получается квадратичной. Одним из путей решения может быть замена подобных регулярных выражений обратными (работающими справа налево). В худшем случае, представленный метод может быть применен для обучения более быстрых, но менее интуитивно понятных моделей, поскольку обучающую выборку можно сделать сколь угодно большой, без участия ассессоров.
0
Спасибо, очень своевременная статья, т.к в данный момент пытаемся решить похожую задачу.
Скажите, пожалуйста, как именно называется этот алгоритм, чтобы о нём можно было подробнее почитать в книжках, подобных той, что вы указали. Это какая-то модификация ID3?
Скажите, пожалуйста, как именно называется этот алгоритм, чтобы о нём можно было подробнее почитать в книжках, подобных той, что вы указали. Это какая-то модификация ID3?
0
Sign up to leave a comment.
Точка, точка, запятая: машинное обучение