AlekseyKorshuk Apr 4 2022 at 11:22

Optimum Transformers: как экономить от 20к$ в год на NLP

5 min

3.6K

Python*Machine learning*Artificial IntelligenceNatural Language Processing*

+12

Comments 6

comerc Apr 4 2022 at 11:31

Подскажите, как бы сделать распознавание текста "по смыслу", чтобы отсекать одинаковые новости из разных источников, когда говорят об одном и том же другими словами.

Хостинг с GTX1080 у меня уже есть. ))

AlekseyKorshuk Apr 4 2022 at 12:29

Я бы начал со следующего:
1. Надо подготовить данные. Нет смысла сразу запихивать в модельку весь текст. Для этого можно использовать re и gensim.parsing.preprocessing.remove_stopwords. Это первое что приходит на ум в препроцессинге. Основаня задача -- убрать всю воду из текста, оставив ключевые слова.
2. Моделька. Для ресерча я бы начал с похожести текстов. Для этого отлично подойдут модельки для "Feature Extraction" (этот пайпалйн есть в Optimum Transformers) и/или "Sentence Similarity". А потом полученые данные используем в косинусальном сходстве.

Ales_Nim Apr 4 2022 at 12:34

Смотрите в сторону topic modelling или реферирования. Рассчитываете тематику новостей из выборки, потом просто считаете расстояния по темам и если оно меньше порога - значит, скорее всего, об одном

nutcracker1337 Apr 4 2022 at 16:34

Возможно, стоит применить несколько метрик сразу. К примеру, если сравниваете заголовки, то можно сравнивать схожесть эмбеддингов предложений (https://huggingface.co/sentence-transformers/LaBSE для английского и https://huggingface.co/cointegrated/LaBSE-en-ru для русского).

laut87 Apr 4 2022 at 18:49

Подскажите, а как обстоят дела с качеством работы ускоренных моделей? Проводился ли сравнительный замер метрик качества исходной и ускоренной модели?

AlekseyKorshuk Apr 4 2022 at 18:55

Замеры классических метрик не были проведены. При запуске бенчмарка появляется ответ каждой из моделей на «пример». Глобально ответы даёт верные, но есть небольшое расхождение. Например в text classification ответ отличается на 0,01%. Было бы круто провести анализ метрик популярных моделей. С радостью приму Pull Request 🤗

Show the best of all time