Pull to refresh

Comments 6

Из начала поста я так и не понял, что за задача классификации стоит перед вами. А подход, когда вы решаете взять часть текстов ресурса (те, что вписываются в вашу задачу), проигнорировав остальные, несколько пугает. Примерно как физик, который отбрасывает результаты тех экспериментов, что противоречат его гипотезе.

И… Вы точно всерьез работаете с текстами? Не в обиду, но у вас даже в заголовке банально не хватает запятой:
Повышаем качество классификации текстов, подключив Википедию

По тексту поста примерно такая же картина.

В конце поста читаю загадочное: "… подход позволяет автоматически, без ручного анализа, отобрать… наборы текстов, помогающие решать задачу классификации." Понятно, что всем хочется «без ручного анализа» (мол, машина умеет работать, вот пусть и возится), но здесь какие-то полтора землекопа вырисовываются, когда непонятными методами решаются непонятные задачи, но это подается как взвешенный и правильный вариант решения правильно поставленных задач, и это предлагается принять на веру.

В общем, не очень оно научно. Скажите, Вы запостили, чтобы просто была еще одна «публикация», или с целью обсудить тему?
Ну, как Вам ответить. Мне не очень интересно обсуждать вопрос в ключе нужности/ненужности запятых (а в заголовке её может и не быть, зависит от того, на что делается акцент). И хабр не ВАК'овский журнал, так что от постов здесь лучше мне не станет.
Поэтому я отвечу в стиле «сперва добейся». Покажите рост качества на своих методах — я буду счастлив.
Хм… А вот прямо так и ответьте, как в вашей фразе «Повышаем качество классификации текстов подключив Википедию» можно обойтись без запятой, на что, так сказать, акцент нужно поставить?

Хабр — площадка открытая. Пояснить, о чем ваш пост (с какими бы языковыми ошибками он не был написан) только вежливо для аудитории, которая не всегда «в теме». Думаю, что добиться хотя бы понимания аудитории — это не читерство в стиле «у меня есть хорошо принятые аудиторией публикации на крупнейшей в рунете площадке», а именно прямая работа того, кто пишет для этой самой аудитории.

У вас некие путевые заметки: «Используем… Концентрируемся… Заменяем...», где «по ходу пьесы» вы еще и тюнингуете исходные данные, чтобы ваш алгоритм их осилил. А-ля «У меня 10 детей, имена запоминать лень, я их всех назвал Саша», но выглядит псевдонаучно донельзя.
Несколько лет назад вынашивал мысль построить граф Википедии, но не придумал ему применения. Просто хотелось визуализировать его и посмотреть. :-)
Есть более злой источник для рисования графов чем Википедия. FreeBase, советую посмотреть.
Ну и где код? Что это за текст? :)
Sign up to leave a comment.

Articles