Pull to refresh
1
0
Дмитрий Донцов @Donskoy

Пользователь

Send message
Я поступал в ВУЗ в 17 лет. В голове был футбол, CS и Памела Андерсон.
Я не знал, чего хочу; просто понимал, что эта область мне нравится. Прошел год после окончания ВУЗа, и только сейчас я начал понимать, чего хочу.

К чему это всё… В 17-18 лет понимать, чего хочешь — это не про всех. Я бы не считал этот возраст сознательным.
Можно еще обратить внимание на пока еще небольшой, но активно растущий открытый русскоязычный корпус opencorpora.org.
> Построим матрицу оценок расстояний между элементами

правильно ли я понимаю, что раз этот алгоритм строит матрицу расстояний между каждыми двумя элементами множества, то сложность такого алгоритма — квадратичная? Даже если сделать оптимизацию (матрица симметрична относительно диагонали), то получим (n^2)/2. Плюс вычислеие расстояния между объектами.
Такой алгоритм годится для относительно небольших данных (ну, скажем, до 50 000 объектов)
И чтоб Робонука стала государственным праздником в Китае!
Меня одного радует рекомендация (80%) посмотреть «12 обезьян» после «12 друзей Оушена» на первом скриншоте?
А мне понравилась маленькая элегантная ссылочка на вакансии в комментарии к коду.
Вообще, деревья решений – один из самых быстрых алгоритмов. Должен справляться )
А если не хочется писать свою реализацию этого алгоритма, в opennlp, например, есть компонент Sentence Detector, использующий Maximum Entropy Model. Его можно обучить для русского языка.

sourceforge.net/apps/mediawiki/opennlp/index.php?title=Sentence_Detector
> Научив пакет автоматически распознавать настроение каждого твита о фильме (позитивное, нейтральное, негативное) с точностью 98%…

Достичь точности 98% в sentiment analysis, пускай и для очень ограниченной задачи — это уже огромное достижение.
> предположениями о том, как визализировать
визУализировать
Спасибо за хороший перевод
Не-не, его Сергей зовут =)
К слову добавлю высказывание отца одной моей знакомой (астрофизик, доктор наук):
«Знание некоторых принципов легко возмещает незнание некоторых фактов.»

В принципе очень даже соответствует посылу статьи.
Да-да, наконец-то закончу свою атомную бомбу
Главное чтобы Ютуб.деньги не ввели )
забавный инкубатор постпаскального поколения школьников =)
А как же синие окошки, зациклившиеся проги и прочие радости? )
Да, проще такой термометр встроить в гирю. И дитё никуда из-под нее не денется, и руку держать долго не надо
Я тоже давно хочу себе свой поисковичок, ага.
Вот, теперь к Гуглу присматриваюсь
не, доставка подорожает
Почитал то, что они пишут у себя на сайте. Может, я плохо читал, но пока о самом Data Mining там ничего особо не пишут. Их система, как я понял, умеет приглядываться к неструктурированным текстам и определять структуру удобного представления/хранения данных из этих текстов. Про семантический анализ массачусетские прохвессоры пока молчат =)
Я так понял, что это целый комплекс, куда как отдельная подсистема входит система data mining?
Если так, то data mining, опирающийся на использование онтологий, автоматическое онтологическое моделирование и т.д. не будут развиваться так быстро, как хотелось бы. Пока нет инструментария для автоматического пополнения этих самых онтологий. Составить приемлемую таксономию для 100 понятий вручную еще можно. А если их на порядок-другой больше? =)

Но всё равно, по мне, так для построения механизма анализа и принятия решений такая технология по потенциалу превосходит голые нейронные сети.
Суть даже не в знании/не знании математики. Привить будущему программисту культуру математического мышления — значит поставить его на рельсы, по которым он сам потом и поедет. Возьмите для примера студента с философского или биолого-почвенного факультета — и сразу будет понятно, чего ему не хватает для того, чтобы стать программером.

Information

Rating
Does not participate
Location
Санкт-Петербург и область, Россия
Registered
Activity