Pull to refresh

Comments 6

Подскажите, как бы сделать распознавание текста "по смыслу", чтобы отсекать одинаковые новости из разных источников, когда говорят об одном и том же другими словами.

Хостинг с GTX1080 у меня уже есть. ))

Я бы начал со следующего:
1. Надо подготовить данные. Нет смысла сразу запихивать в модельку весь текст. Для этого можно использовать re и gensim.parsing.preprocessing.remove_stopwords. Это первое что приходит на ум в препроцессинге. Основаня задача -- убрать всю воду из текста, оставив ключевые слова.
2. Моделька. Для ресерча я бы начал с похожести текстов. Для этого отлично подойдут модельки для "Feature Extraction" (этот пайпалйн есть в Optimum Transformers) и/или "Sentence Similarity". А потом полученые данные используем в косинусальном сходстве.

Смотрите в сторону topic modelling или реферирования. Рассчитываете тематику новостей из выборки, потом просто считаете расстояния по темам и если оно меньше порога - значит, скорее всего, об одном

Возможно, стоит применить несколько метрик сразу. К примеру, если сравниваете заголовки, то можно сравнивать схожесть эмбеддингов предложений (https://huggingface.co/sentence-transformers/LaBSE для английского и https://huggingface.co/cointegrated/LaBSE-en-ru для русского).

Подскажите, а как обстоят дела с качеством работы ускоренных моделей? Проводился ли сравнительный замер метрик качества исходной и ускоренной модели?

Замеры классических метрик не были проведены. При запуске бенчмарка появляется ответ каждой из моделей на «пример». Глобально ответы даёт верные, но есть небольшое расхождение. Например в text classification ответ отличается на 0,01%. Было бы круто провести анализ метрик популярных моделей. С радостью приму Pull Request 🤗

Sign up to leave a comment.

Articles