Pull to refresh
50
0
Сергей Шкарин @Kouki_RUS

ML Engineer

Send message

Синтетический набор данных C4_200M для исправления грамматических ошибок

Reading time5 min
Views1.2K

Задача исправления грамматических ошибок (Grammatical Error Correction, GEC) заключается в моделировании грамматических и других типов ошибок в текстах для того, чтобы предложить поправки в грамматике и правописании, которые смогут улучшить качество письменного вывода в документах, электронных письмах, сообщениях в блогах и даже в неформальных чатах. За последние 15 лет были достигнуты существенные успехи в задаче GEC, что в значительной степени можно объяснить переосмыслением проблемы как задачи «перевода». Когда этот подход был представлен, например, в Google Docs, он привел к значительному увеличению числа принятых предложений по исправлению грамматики.


Однако одной из самых больших проблем для моделей GEC является недостаток данных. В отличие от других задач обработки естественного языка (Natural Language Processing, NLP), таких как распознавание речи и машинный перевод, для GEC доступно очень мало обучающих данных, даже для таких ресурсоемких языков, как английский. Обычно эта проблема решается созданием синтетических данных с использованием ряда методов, от основанных на эвристике случайных «исправлений» на уровне слов или символов до подходов, основанных на моделях. Однако такие методы имеют тенденцию быть упрощенными и не отражают истинное распределение типов ошибок у реальных пользователей.

Читать дальше →
Total votes 1: ↑1 and ↓0+1
Comments0

Retrieval Transformer в картинках

Reading time6 min
Views5.8K

Резюме: Новые языковые модели могут быть намного меньше GPT-3, но при этом достигать сравнимых результатов благодаря использованию запросов к базе данных или поиску информации в Интернете. Ключевая идея заключается в том, что построение все более и более крупных моделей — не единственный способ повысить качество.


Последние несколько лет ознаменовались появлением больших языковых моделей (Large Language Models, LLM) — моделей машинного обучения, которые способствовали быстрому развитию сферы машинной обработки и генерации естественного языка. Некоторые из основных вех развития области с 2017 года включают в себя:

Читать дальше →
Total votes 4: ↑4 and ↓0+4
Comments0

GoEmotions — набор данных для детализированной классификации эмоций

Reading time7 min
Views1.6K

Эмоции являются ключевым аспектом социальных взаимодействий, который влияет на поведение людей и формирует межличностные отношения. Это особенно характерно для языка: всего несколькими словами мы можем выразить большое количество очень тонких и сложных эмоций. Вот почему на протяжении долгого времени в научном сообществе стоит цель научить машины понимать контекст и эмоции, что, в свою очередь, позволит создавать множество приложений, таких как чат-боты, обладающие эмпатией, модели определения токсичного поведения в интернете и улучшенные системы поддержки клиентов.


В последнее десятилетие сообщество NLP-исследователей сделало доступным несколько наборов данных для классификации эмоций на основе языковых данных. Большая часть из них были созданы вручную и включают в себя тексты определенной предметной области (например, новостные заголовки, субтитры фильмов и даже сказки), однако в основном имеют достаточно скромный размер или сосредоточены всего на 6 базовых эмоциях (гнев, удивление, отвращение, радость, страх и печаль), предложенных в 1992 году. Хотя эти наборы данных позволили начать первые исследования в области классификации эмоций, они также подсветили необходимость создания более объемного набора данных, содержащего более детализированный перечень эмоций, которые можно было бы применить в более широком кругу потенциальных приложений.

Читать дальше →
Total votes 2: ↑1 and ↓10
Comments0

Представляем ScaNN: эффективный поиск схожих векторов

Reading time6 min
Views4.2K

Предположим, нам необходимо выполнить поиск в большой коллекции литературных произведений, используя запросы, требующие точного соответствия названия, автора или других легко индексируемых критериев. Такая задача хорошо подходит для реляционной базы данных и такого языка, как SQL. Однако, если мы хотим использовать более абстрактные запросы, такие как «Поэма о гражданской войне», становится невозможным полагаться на наивные метрики сходства вроде количества общих слов между двумя фразами. Например, запрос «научная фантастика» больше связан с «будущим», чем, например, с «наукой о Земле», несмотря на то, что в первом случае у нас нет общих слов, а во втором есть общекоренное слово к одному из слов запроса.


Машинное обучение значительно улучшило способность компьютеров понимать семантику языка и, следовательно, отвечать на эти абстрактные запросы. Современные модели машинного обучения могут преобразовывать входные данные, такие как текст и изображения, в эмбеддинги — многомерные векторы, обученные таким образом, чтобы более похожие входные данные располагались ближе друг к другу в векторном пространстве. Таким образом, для данного запроса мы можем вычислить его эмбеддинг и найти литературные произведения, эмбеддинги которых будут ближе всего к запросу. Так, машинное обучение превратило абстрактную и ранее трудно определяемую задачу в строго математическую. Однако остается проблема вычислений: как быстро найти ближайшие эмбеддинги набора данных для данного эмбеддинга запроса? Набор эмбеддингов часто слишком велик для поиска перебором, а его высокая размерность затрудняет оптимизацию отсечением.

Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments2

Использование нейронных сетей для поиска ответов в таблицах

Reading time5 min
Views5.1K

Большая часть информации в мире хранится в виде таблиц, которые можно найти в Интернете или в базах данных и документах. В таблицах может находиться всё что угодно, от технических характеристик потребительских товаров до финансовой статистики и данных экономического развития страны, спортивных результатов и многого другого. Для того, чтобы найти ответ, сейчас необходимо вручную просматривать эти таблицы или полагаться на специальную службу, которая дает ответы на конкретные вопросы (например, о спортивных результатах). Однако эта информация была бы намного более доступной и полезной, если бы ее можно было запрашивать на естественном языке.


Например, на следующем рисунке показана таблица с рядом вопросов, которые люди могут задать. Ответ на эти вопросы может быть найден в одной или нескольких ячейках таблицы («У какого рестлера было больше всего побед?» — «Which wrestler had the most number of reigns?»), или может потребоваться объединение нескольких ячеек таблицы («Сколько чемпионов мира имеют только одну победу?» — «*How many world champions are there with only one reign?»).


image6 (1)


Таблица и вопросы с ожидаемыми ответами. Ответы можно выбрать напрямую из таблицы (#1, #4) или вычислить на основе данных таблицы (#2, #3).

Читать дальше →
Total votes 2: ↑2 and ↓0+2
Comments3

Перекрестные описания — семантическое сходство для изображений и текста

Reading time8 min
Views2.3K

За последнее десятилетие удалось добиться значительного прогресса в области автоматического аннотирования изображений — задачи, в которой компьютерный алгоритм создает письменные описания изображений. Значительный прогресс достигнут благодаря использованию современных методов глубокого обучения, разработанных как для задач компьютерного зрения, так и для обработки естественного языка, в сочетании с большими наборами данных, которые объединяют изображения и описания, созданные людьми. Помимо поддержания таких важных практических приложений, как предоставление описаний изображений для людей со слабым зрением, эти наборы данных также позволяют работать над интересными исследовательскими вопросами, касающимися интеграции языковых и визуальных средств в качестве входных данных модели. Например, изучение глубокого представления такого слова, как «автомобиль», означает использование как лингвистического, так и визуального контекстов.

Читать дальше →
Rating0
Comments0

REALM — интеграция извлеченной информации в модели языковых представлений

Reading time6 min
Views1.4K

Последние достижения в области обработки естественного языка (Natural Language Processing, NLP) в значительной степени основаны на успехах предварительного обучения без учителя, с помощью которого можно обучать универсальные языковые модели на большом количестве текстов без ручной разметки или меток. Было показано, что такие предобученные модели, вроде BERT и RoBERTa, запоминают удивительно большое количество общих знаний о мире, например «место рождения Франческо Бартоломео Конти», «разработчик JDK» и «владелец Border TV». Хотя способность кодировать знания особенно важна для определенных задач обработки естественного языка, таких как ответы на вопросы, поиск информации и генерация текста, эти модели запоминают знания неявно, т. е. знания о мире фиксируются абстрактным образом в весах модели, что затрудняет определение, какие знания были сохранены и где именно они хранятся в модели. Кроме того, объем памяти и, следовательно, точность модели ограничены размером нейронной сети. Чтобы получить больше знаний о мире, стандартной практикой является обучение все более крупных сетей, что, однако, может сильно замедлять и удорожать процесс.

Читать дальше →
Rating0
Comments2

Два новых набора данных для разговорного ИИ

Reading time6 min
Views1.4K

Одним из главных вызовов в сфере автоматической обработки естественного языка (Natural Language Processing, NLP) является построение таких разговорных ассистентов, которые могут понимать различные лингвистические явления, приcущие разговорной речи. Например, поскольку люди обычно не продумывают заранее, что они собираются сказать, устная речь часто прерывается, т.е. изобилует т.н. нарушениями беглости речи (disfluencies). Это могут быть как довольно простые нарушения, такие как вставка междометий, повторения, исправления или повторное начало, которые попросту нарушают непрерывность предложения, так и более сложные семантические нарушения беглости, меняющие значение всей фразы. Также для правильного понимания разговора часто необходимо знание темпоральных отношений, т.е. отношений временного следования или предшествования между действиями. Эти особенности естественной речи вызывают трудности у современных разговорных ассистентов, а успехи в улучшении их работы весьма скромны. Отчасти это объясняется отсутствием наборов данных, которые бы содержали столь интересные разговорные и речевые феномены.

Читать дальше →
Total votes 1: ↑1 and ↓0+1
Comments0

KELM — внедряя графы знаний в корпус для предварительного обучения языковой модели

Reading time4 min
Views2.5K

Большие предобученные модели для обработки естественного языка (Natural Language Processing, NLP), такие как BERT, RoBERTa, GPT-3, T5 и REALM, использующие корпусы полученных из Интернета текстов на естественном языке и тонко настроенные под конкретную задачу, добились значительных успехов в различных NLP задачах. Однако текст на естественном языке сам по себе представляет собой достаточно ограниченный набор знаний, а факты могут быть выражены множеством разных слов. Более того, обилие информации, неподкрепленной фактами, а также токсичное содержание текстов может в результате стать причиной наличия нежелательной предвзятости в итоговых моделях.


Альтернативным источником информации являются графы знаний (Knowledge Graphs, KGs), которые состоят из структурированных данных. Графы знаний фактологичны по своей природе, поскольку информация обычно извлекается из более авторитетных источников, и последующая пост-обработка и ручная редактура позволяют гарантировано избавиться от неприемлемого или некорректного содержания. Таким образом, модели, которые могут включить в себя графы знаний, обладают преимуществом, связанным с большей достоверностью и сниженной токсичностью. Однако структурированный формат графов осложняет их интеграцию в существующие корпуса для предварительного обучения языковых моделей.

Читать дальше →
Total votes 6: ↑5 and ↓1+6
Comments4

Достижения и проблемы генерации развернутых ответов на вопросы открытой предметной области

Reading time10 min
Views1.5K

Развернутые ответы на вопросы открытой предметной области (Open-domain Long-form Question Answering, LFQA) — это одна из фундаментальных задач в обработке естественного языка (Natural Language Processing, NLP), которая включает в себя извлечение документов, относящихся к заданному вопросу, и их использование для генерации подробного ответа, доходящего до абзаца в длину. Несмотря на то что в последнее время был достигнут значительный прогресс в области ответов на фактоидные вопросы (QA) открытой предметной области, для которых достаточно короткой фразы или сущности, гораздо меньше было сделано в области ответов на вопросы в развернутой форме. Тем не менее, LFQA является важной задачей, особенно потому, что она предоставляет тестовую площадку для измерения фактологичности генеративных текстовых моделей. Но действительно ли существующие тесты и метрики подходят для дальнейшего развития технологий LFQA?

Читать дальше →
Rating0
Comments0

FELIX — гибкое редактирование текста с помощью тегов и вставок

Reading time5 min
Views1.1K

Seq2seq модели набирают все большую популярность для решения различных задач генерации естественного языка (NLG), начиная от машинного перевода и заканчивая одноязычными задачами генерации текста, такими как суммаризация, объединение предложений, упрощение текста и постредактирование машинного перевода. Однако для многих одноязычных задач эти модели кажутся неоптимальным выбором, поскольку желаемый выходной текст часто представляет собой незначительную переработку входного текста. При выполнении таких задач модели seq2seq работают медленнее, потому что они генерируют вывод по одному слову за раз (т.е. авторегрессионно), и слишком затратны, потому что большинство входных токенов просто копируются в вывод.

Читать дальше →
Total votes 6: ↑6 and ↓0+6
Comments0

Учимся понимать таблицы на меньшем объеме данных

Reading time7 min
Views2.1K

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текста (следствию, консеквенту). Хотя эта проблема часто считается важным тестом на понимание в системах машинного обучения (ML) и была глубоко изучена для простых текстов, гораздо меньше усилий было приложено для применения таких моделей к структурированным данным, таким как веб-сайты, таблицы, базы данных и т. д. Тем не менее, распознавание семантического следования особенно актуально, когда содержимое таблицы необходимо точно суммировать и представить пользователю, и важно для таких приложений, где необходима высокая точность: в вопросно-ответных системах и виртуальных ассистентах.

Читать дальше →
Rating0
Comments0

ToTTo: набор данных для управляемой генерации текста из таблицы

Reading time6 min
Views1.2K

За последние несколько лет исследования в области генерации текстов естественного языка (Natural Language Generation, NLG), используемой для таких задач, как суммаризация текста, достигли огромного прогресса. Однако несмотря на то, что удалось достичь достаточно высокого уровня беглости речи, нейросетевые системы могут быть склонны к своего рода «галлюцинациям» (т.е. созданию текста, понятного по смыслу, но не соответствующего содержанию источника). Этот факт может препятствовать использованию этих систем во многих приложениях, требующих высокой точности. Рассмотрим пример из набора данных Wikibio, где базовая нейросетевая модель должна суммаризировать текст из информационной карточки бельгийского футболиста Константа Вандена Стока в Википедии. Видно, что модель неверно заключает, что Констант — американский фигурист.


image3

Читать дальше →
Total votes 1: ↑1 and ↓0+1
Comments0

Построение моделей Трансформера для больших последовательностей с помощью методов разреженного внимания

Reading time8 min
Views3.8K

Модели обработки естественного языка (Natural language processing, NLP) на основе архитектуры Трансформеров, такие как BERT, RoBERTa, T5 или GPT3, успешно применяются в самых различных задачах и являются стандартом современных исследований в области NLP. Гибкость (универсальность) и надёжность Трансформеров способствовали их широкому распространению, что, в свою очередь, позволило легко адаптировать подобные модели для разнообразных задач обработки текстовых последовательностей, как в качестве seq2seq моделей для перевода, суммаризации, генерации текста и т.д., так и как самостоятельного энкодера для анализа тональности, частеречной разметки, машинного чтения и др. Главным изобретением Трансформеров стал механизм внутреннего внимания, который подсчитывает метрику схожести для всех возможных пар токенов входной последовательности независимо (параллельно), что позволяет избежать последовательной зависимости рекуррентных нейронных сетей. Благодаря этому механизму Трансформеры существенно превосходят более ранние модели обработки текстовых последовательностей, такие как LSTM.

Читать дальше →
Total votes 5: ↑5 and ↓0+5
Comments0

Трансферное обучение с Т5

Reading time7 min
Views4.5K

За последние несколько лет трансферное обучение дало толчок новой волне state-of-the-art результатов в обработке естественного языка (NLP). Эффективность трансферного обучения заключается в предварительном обучении модели на большом доступном неразмеченном корпусе текстов для одной из задач самообучения (self-supervised learning): например, языкового моделирования или заполнения пропусков в тексте. Затем модель может быть дообучена на меньших наборах данных и зачастую показывает (значительно) лучшие результаты, чем в случае обучения на одних только размеченных данных. Об успехах трансферного обучения стало известно еще в 2018 году, когда были представлены такие модели, как GPT, ULMFiT, ELMo, BERT, а в 2019 году успешность такого подхода стала еще более очевидна с разработкой новых моделей вроде XLNet, RoBERTa, ALBERT, Reformer и MT-DNN. Скорость, с которой эта сфера развивается, не позволяет, однако, с уверенностью сказать, какие из разработок оказали наибольшее влияние и насколько эффективно их можно комбинировать.

Читать дальше →
Total votes 4: ↑4 and ↓0+4
Comments1

Разбираем XLNet

Reading time10 min
Views6.8K

Введение


XLNet – новейшая и самая крупная модель, появившаяся в активно развивающейся сфере обработки естественного языка (Natural Language Processing, NLP). Статья о XLNet объединяет современные достижения в NLP и инновационный подход к решению задачи языкового моделирования. Обученная на огромном корпусе, модель достигает выдающихся результатов в NLP-задачах бенчмарка GLUE.


XLNet представляет собой авторегрессионную языковую модель, которая выдает на выходе вероятность совместной встречаемости последовательности токенов на основе архитектуры рекуррентного Трансформера. Задачей обучения модели является подсчет вероятности для заданного слова (токена), при условии наличия всех других слов в предложении (а не только слов слева или справа от заданного).


Если вам все понятно в описании выше, то этот пост не для вас. Если же нет, то продолжайте читать о том, как работает XLNet и почему он стал стандартом для многих NLP задач.

Читать дальше →
Total votes 2: ↑1 and ↓1+2
Comments0

Измерение гендерных корреляций в предобученных NLP-моделях

Reading time5 min
Views1.5K

За последние несколько лет были сделаны значительные успехи в области обработки естественного языка (NLP), где такие модели, как BERT, ALBERT, ELECTRA и XLNet достигли поразительной точности (accuracy) в различных задачах. Во время предварительного обучения (pre-training) на основе обширного корпуса текстов (например, Википедии) формируются векторные представления, которые получают путем маскирования слов и попыток их предсказать (т.н. маскированное языковое моделирование). Получившиеся представления кодируют большой объем информации о языке и отношениях между понятиями, например, между хирургом и скальпелем. Далее начинается второй этап обучения – тонкая настройка (fine-tuning) – на котором модель использует заточенные под определенную задачу данные для того, чтобы с помощью общих предобученных представлений научиться выполнять конкретные задачи вроде классификации. Учитывая широкое использования подобных моделей в разных NLP задачах, критически важно понимать, какая информация в них содержится и как любые выученные отношения влияют на результаты модели в ее приложениях, чтобы обеспечить их соответствие Принципам искусственного интеллекта (ИИ).

Читать дальше →
Rating0
Comments0

Переосмысление механизма внимания с Performers

Reading time9 min
Views3.7K

Модели на основе Трансформера достигли выдающихся результатов в самых разных областях знаний, включая разговорный ИИ, обработку естественного языка, изображений и даже музыки. Главной составляющей любой архитектуры Трансформеров является модуль внимания (attention module), который подсчитывает схожесть для всех пар во входной последовательности. Он, однако, плохо масштабируется с увеличением длины входной последовательности, требуя квадратичного увеличения вычислительного времени для получения всех оценок сходства, а также квадратичного увеличения объема задействованной памяти для построения матрицы для хранения этих оценок.

Читать дальше →
Total votes 4: ↑4 and ↓0+4
Comments2

ALBERT — облегченный BERT для самообучения языковым представлениям

Reading time4 min
Views4.5K

С тех пор как в 2018 году был представлен BERT, исследования в области обработки естественного языка охвачены новой парадигмой: использованием больших объемов существующего текста для предварительного обучения параметров модели на основе самообучения (self-supervision), не требующего разметки данных. Таким образом, вместо того, чтобы обучать модель для обработки естественного языка (NLP) с нуля, можно взять предобученную модель, уже имеющую некоторое знание о языке. Однако, для успешного применения этого нового подхода в NLP исследователю необходимо иметь некоторое представление о том, что же именно способствует языковому обучению модели: высота нейронной сети (т.е. количество слоев), ее ширина (размер представлений скрытых слоев), критерий обученности для самообучения или что-то совсем иное?

Читать дальше →
Total votes 5: ↑4 and ↓1+6
Comments0

Reformer — Эффективный Трансформер

Reading time6 min
Views3.6K


Понимание последовательно организованных данных – будь то язык, музыка или видео – трудная задача, особенно в случаях, когда они сильно зависят от контекста, который их окружает. Например, если человек или какой-либо предмет пропадёт из поля зрения на видеозаписи и появится снова через значительный промежуток времени, многие модели забудут, как он выглядел. В сфере обработки языка нейронные сети с долгой краткосрочной памятью (long short-term memory, LSTM) охватывают достаточный контекст для того, чтобы успешно осуществлять последовательный перевод предложение за предложением. В этом случае контекстное окно (т.е. охват данных, которые модель принимает во внимание при переводе) может содержать от десятка до сотни слов. Более новая модель Трансформера не только улучшила качество последовательного перевода, но может быть использована для генерации целых статей Википедии с помощью суммаризации множества документов. Это возможно благодаря тому, что Трансформер увеличил контекстное окно до тысячи слов. Кроме того, столь обширный рассматриваемый контекст позволяет использовать Трансформер для обработки не только текста, но и пикселей или музыкальных нот, на основе которых можно сгенерировать изображения или музыку.

Читать дальше →
Total votes 10: ↑7 and ↓3+9
Comments6
1

Information

Rating
Does not participate
Date of birth
Registered
Activity

Specialization

ML Engineer
Senior
From 500,000 ₽
SQL
Python
Git
Linux
Pytorch
Natural language processing
Machine learning
Neural networks