Я поступал в ВУЗ в 17 лет. В голове был футбол, CS и Памела Андерсон.
Я не знал, чего хочу; просто понимал, что эта область мне нравится. Прошел год после окончания ВУЗа, и только сейчас я начал понимать, чего хочу.
К чему это всё… В 17-18 лет понимать, чего хочешь — это не про всех. Я бы не считал этот возраст сознательным.
> Построим матрицу оценок расстояний между элементами
правильно ли я понимаю, что раз этот алгоритм строит матрицу расстояний между каждыми двумя элементами множества, то сложность такого алгоритма — квадратичная? Даже если сделать оптимизацию (матрица симметрична относительно диагонали), то получим (n^2)/2. Плюс вычислеие расстояния между объектами.
Такой алгоритм годится для относительно небольших данных (ну, скажем, до 50 000 объектов)
Вообще, деревья решений – один из самых быстрых алгоритмов. Должен справляться )
А если не хочется писать свою реализацию этого алгоритма, в opennlp, например, есть компонент Sentence Detector, использующий Maximum Entropy Model. Его можно обучить для русского языка.
К слову добавлю высказывание отца одной моей знакомой (астрофизик, доктор наук):
«Знание некоторых принципов легко возмещает незнание некоторых фактов.»
В принципе очень даже соответствует посылу статьи.
Почитал то, что они пишут у себя на сайте. Может, я плохо читал, но пока о самом Data Mining там ничего особо не пишут. Их система, как я понял, умеет приглядываться к неструктурированным текстам и определять структуру удобного представления/хранения данных из этих текстов. Про семантический анализ массачусетские прохвессоры пока молчат =)
Я так понял, что это целый комплекс, куда как отдельная подсистема входит система data mining?
Если так, то data mining, опирающийся на использование онтологий, автоматическое онтологическое моделирование и т.д. не будут развиваться так быстро, как хотелось бы. Пока нет инструментария для автоматического пополнения этих самых онтологий. Составить приемлемую таксономию для 100 понятий вручную еще можно. А если их на порядок-другой больше? =)
Но всё равно, по мне, так для построения механизма анализа и принятия решений такая технология по потенциалу превосходит голые нейронные сети.
Суть даже не в знании/не знании математики. Привить будущему программисту культуру математического мышления — значит поставить его на рельсы, по которым он сам потом и поедет. Возьмите для примера студента с философского или биолого-почвенного факультета — и сразу будет понятно, чего ему не хватает для того, чтобы стать программером.
Я не знал, чего хочу; просто понимал, что эта область мне нравится. Прошел год после окончания ВУЗа, и только сейчас я начал понимать, чего хочу.
К чему это всё… В 17-18 лет понимать, чего хочешь — это не про всех. Я бы не считал этот возраст сознательным.
правильно ли я понимаю, что раз этот алгоритм строит матрицу расстояний между каждыми двумя элементами множества, то сложность такого алгоритма — квадратичная? Даже если сделать оптимизацию (матрица симметрична относительно диагонали), то получим (n^2)/2. Плюс вычислеие расстояния между объектами.
Такой алгоритм годится для относительно небольших данных (ну, скажем, до 50 000 объектов)
А если не хочется писать свою реализацию этого алгоритма, в opennlp, например, есть компонент Sentence Detector, использующий Maximum Entropy Model. Его можно обучить для русского языка.
sourceforge.net/apps/mediawiki/opennlp/index.php?title=Sentence_Detector
Достичь точности 98% в sentiment analysis, пускай и для очень ограниченной задачи — это уже огромное достижение.
визУализировать
Спасибо за хороший перевод
«Знание некоторых принципов легко возмещает незнание некоторых фактов.»
В принципе очень даже соответствует посылу статьи.
А как же синие окошки, зациклившиеся проги и прочие радости? )
Вот, теперь к Гуглу присматриваюсь
Если так, то data mining, опирающийся на использование онтологий, автоматическое онтологическое моделирование и т.д. не будут развиваться так быстро, как хотелось бы. Пока нет инструментария для автоматического пополнения этих самых онтологий. Составить приемлемую таксономию для 100 понятий вручную еще можно. А если их на порядок-другой больше? =)
Но всё равно, по мне, так для построения механизма анализа и принятия решений такая технология по потенциалу превосходит голые нейронные сети.