Сергей Шкарин @Kouki_RUS

ML Engineer

Profile Publications 27Comments 11Bookmarks 12

Kouki_RUS Mar 16 2022 at 16:57

Синтетический набор данных C4_200M для исправления грамматических ошибок

5 min

1.2K

Machine learning*

Translation

Задача исправления грамматических ошибок (Grammatical Error Correction, GEC) заключается в моделировании грамматических и других типов ошибок в текстах для того, чтобы предложить поправки в грамматике и правописании, которые смогут улучшить качество письменного вывода в документах, электронных письмах, сообщениях в блогах и даже в неформальных чатах. За последние 15 лет были достигнуты существенные успехи в задаче GEC, что в значительной степени можно объяснить переосмыслением проблемы как задачи «перевода». Когда этот подход был представлен, например, в Google Docs, он привел к значительному увеличению числа принятых предложений по исправлению грамматики.

Однако одной из самых больших проблем для моделей GEC является недостаток данных. В отличие от других задач обработки естественного языка (Natural Language Processing, NLP), таких как распознавание речи и машинный перевод, для GEC доступно очень мало обучающих данных, даже для таких ресурсоемких языков, как английский. Обычно эта проблема решается созданием синтетических данных с использованием ряда методов, от основанных на эвристике случайных «исправлений» на уровне слов или символов до подходов, основанных на моделях. Однако такие методы имеют тенденцию быть упрощенными и не отражают истинное распределение типов ошибок у реальных пользователей.

Читать дальше →

Kouki_RUS Jan 31 2022 at 15:47

Retrieval Transformer в картинках

6 min

5.8K

Machine learning*

Translation

Резюме: Новые языковые модели могут быть намного меньше GPT-3, но при этом достигать сравнимых результатов благодаря использованию запросов к базе данных или поиску информации в Интернете. Ключевая идея заключается в том, что построение все более и более крупных моделей — не единственный способ повысить качество.

Последние несколько лет ознаменовались появлением больших языковых моделей (Large Language Models, LLM) — моделей машинного обучения, которые способствовали быстрому развитию сферы машинной обработки и генерации естественного языка. Некоторые из основных вех развития области с 2017 года включают в себя:

Читать дальше →

Kouki_RUS Dec 16 2021 at 07:46

GoEmotions — набор данных для детализированной классификации эмоций

7 min

1.6K

Machine learning*

Translation

Эмоции являются ключевым аспектом социальных взаимодействий, который влияет на поведение людей и формирует межличностные отношения. Это особенно характерно для языка: всего несколькими словами мы можем выразить большое количество очень тонких и сложных эмоций. Вот почему на протяжении долгого времени в научном сообществе стоит цель научить машины понимать контекст и эмоции, что, в свою очередь, позволит создавать множество приложений, таких как чат-боты, обладающие эмпатией, модели определения токсичного поведения в интернете и улучшенные системы поддержки клиентов.

В последнее десятилетие сообщество NLP-исследователей сделало доступным несколько наборов данных для классификации эмоций на основе языковых данных. Большая часть из них были созданы вручную и включают в себя тексты определенной предметной области (например, новостные заголовки, субтитры фильмов и даже сказки), однако в основном имеют достаточно скромный размер или сосредоточены всего на 6 базовых эмоциях (гнев, удивление, отвращение, радость, страх и печаль), предложенных в 1992 году. Хотя эти наборы данных позволили начать первые исследования в области классификации эмоций, они также подсветили необходимость создания более объемного набора данных, содержащего более детализированный перечень эмоций, которые можно было бы применить в более широком кругу потенциальных приложений.

Читать дальше →

Kouki_RUS Nov 24 2021 at 14:02

Представляем ScaNN: эффективный поиск схожих векторов

6 min

4.2K

Machine learning*

Translation

Предположим, нам необходимо выполнить поиск в большой коллекции литературных произведений, используя запросы, требующие точного соответствия названия, автора или других легко индексируемых критериев. Такая задача хорошо подходит для реляционной базы данных и такого языка, как SQL. Однако, если мы хотим использовать более абстрактные запросы, такие как «Поэма о гражданской войне», становится невозможным полагаться на наивные метрики сходства вроде количества общих слов между двумя фразами. Например, запрос «научная фантастика» больше связан с «будущим», чем, например, с «наукой о Земле», несмотря на то, что в первом случае у нас нет общих слов, а во втором есть общекоренное слово к одному из слов запроса.

Машинное обучение значительно улучшило способность компьютеров понимать семантику языка и, следовательно, отвечать на эти абстрактные запросы. Современные модели машинного обучения могут преобразовывать входные данные, такие как текст и изображения, в эмбеддинги — многомерные векторы, обученные таким образом, чтобы более похожие входные данные располагались ближе друг к другу в векторном пространстве. Таким образом, для данного запроса мы можем вычислить его эмбеддинг и найти литературные произведения, эмбеддинги которых будут ближе всего к запросу. Так, машинное обучение превратило абстрактную и ранее трудно определяемую задачу в строго математическую. Однако остается проблема вычислений: как быстро найти ближайшие эмбеддинги набора данных для данного эмбеддинга запроса? Набор эмбеддингов часто слишком велик для поиска перебором, а его высокая размерность затрудняет оптимизацию отсечением.

Читать дальше →

Kouki_RUS Oct 7 2021 at 18:47

Использование нейронных сетей для поиска ответов в таблицах

5 min

5.1K

Machine learning*

Translation

Большая часть информации в мире хранится в виде таблиц, которые можно найти в Интернете или в базах данных и документах. В таблицах может находиться всё что угодно, от технических характеристик потребительских товаров до финансовой статистики и данных экономического развития страны, спортивных результатов и многого другого. Для того, чтобы найти ответ, сейчас необходимо вручную просматривать эти таблицы или полагаться на специальную службу, которая дает ответы на конкретные вопросы (например, о спортивных результатах). Однако эта информация была бы намного более доступной и полезной, если бы ее можно было запрашивать на естественном языке.

Например, на следующем рисунке показана таблица с рядом вопросов, которые люди могут задать. Ответ на эти вопросы может быть найден в одной или нескольких ячейках таблицы («У какого рестлера было больше всего побед?» — «Which wrestler had the most number of reigns?»), или может потребоваться объединение нескольких ячеек таблицы («Сколько чемпионов мира имеют только одну победу?» — «*How many world champions are there with only one reign?»).

image6 (1)

Таблица и вопросы с ожидаемыми ответами. Ответы можно выбрать напрямую из таблицы (#1, #4) или вычислить на основе данных таблицы (#2, #3).

Читать дальше →

Kouki_RUS Sep 30 2021 at 18:51

Перекрестные описания — семантическое сходство для изображений и текста

8 min

2.3K

Machine learning*

Translation

За последнее десятилетие удалось добиться значительного прогресса в области автоматического аннотирования изображений — задачи, в которой компьютерный алгоритм создает письменные описания изображений. Значительный прогресс достигнут благодаря использованию современных методов глубокого обучения, разработанных как для задач компьютерного зрения, так и для обработки естественного языка, в сочетании с большими наборами данных, которые объединяют изображения и описания, созданные людьми. Помимо поддержания таких важных практических приложений, как предоставление описаний изображений для людей со слабым зрением, эти наборы данных также позволяют работать над интересными исследовательскими вопросами, касающимися интеграции языковых и визуальных средств в качестве входных данных модели. Например, изучение глубокого представления такого слова, как «автомобиль», означает использование как лингвистического, так и визуального контекстов.

Читать дальше →

Kouki_RUS Sep 15 2021 at 09:37

REALM — интеграция извлеченной информации в модели языковых представлений

6 min

1.4K

Machine learning*

Translation

Последние достижения в области обработки естественного языка (Natural Language Processing, NLP) в значительной степени основаны на успехах предварительного обучения без учителя, с помощью которого можно обучать универсальные языковые модели на большом количестве текстов без ручной разметки или меток. Было показано, что такие предобученные модели, вроде BERT и RoBERTa, запоминают удивительно большое количество общих знаний о мире, например «место рождения Франческо Бартоломео Конти», «разработчик JDK» и «владелец Border TV». Хотя способность кодировать знания особенно важна для определенных задач обработки естественного языка, таких как ответы на вопросы, поиск информации и генерация текста, эти модели запоминают знания неявно, т. е. знания о мире фиксируются абстрактным образом в весах модели, что затрудняет определение, какие знания были сохранены и где именно они хранятся в модели. Кроме того, объем памяти и, следовательно, точность модели ограничены размером нейронной сети. Чтобы получить больше знаний о мире, стандартной практикой является обучение все более крупных сетей, что, однако, может сильно замедлять и удорожать процесс.

Читать дальше →

Kouki_RUS Aug 31 2021 at 10:59

Два новых набора данных для разговорного ИИ

6 min

1.4K

Machine learning*

Translation

Одним из главных вызовов в сфере автоматической обработки естественного языка (Natural Language Processing, NLP) является построение таких разговорных ассистентов, которые могут понимать различные лингвистические явления, приcущие разговорной речи. Например, поскольку люди обычно не продумывают заранее, что они собираются сказать, устная речь часто прерывается, т.е. изобилует т.н. нарушениями беглости речи (disfluencies). Это могут быть как довольно простые нарушения, такие как вставка междометий, повторения, исправления или повторное начало, которые попросту нарушают непрерывность предложения, так и более сложные семантические нарушения беглости, меняющие значение всей фразы. Также для правильного понимания разговора часто необходимо знание темпоральных отношений, т.е. отношений временного следования или предшествования между действиями. Эти особенности естественной речи вызывают трудности у современных разговорных ассистентов, а успехи в улучшении их работы весьма скромны. Отчасти это объясняется отсутствием наборов данных, которые бы содержали столь интересные разговорные и речевые феномены.

Читать дальше →

Kouki_RUS Aug 18 2021 at 11:26

KELM — внедряя графы знаний в корпус для предварительного обучения языковой модели

4 min

2.5K

Machine learning*

Translation

Большие предобученные модели для обработки естественного языка (Natural Language Processing, NLP), такие как BERT, RoBERTa, GPT-3, T5 и REALM, использующие корпусы полученных из Интернета текстов на естественном языке и тонко настроенные под конкретную задачу, добились значительных успехов в различных NLP задачах. Однако текст на естественном языке сам по себе представляет собой достаточно ограниченный набор знаний, а факты могут быть выражены множеством разных слов. Более того, обилие информации, неподкрепленной фактами, а также токсичное содержание текстов может в результате стать причиной наличия нежелательной предвзятости в итоговых моделях.

Альтернативным источником информации являются графы знаний (Knowledge Graphs, KGs), которые состоят из структурированных данных. Графы знаний фактологичны по своей природе, поскольку информация обычно извлекается из более авторитетных источников, и последующая пост-обработка и ручная редактура позволяют гарантировано избавиться от неприемлемого или некорректного содержания. Таким образом, модели, которые могут включить в себя графы знаний, обладают преимуществом, связанным с большей достоверностью и сниженной токсичностью. Однако структурированный формат графов осложняет их интеграцию в существующие корпуса для предварительного обучения языковых моделей.

Читать дальше →

Kouki_RUS Aug 2 2021 at 11:01

Достижения и проблемы генерации развернутых ответов на вопросы открытой предметной области

10 min

1.5K

Machine learning*

Translation

Развернутые ответы на вопросы открытой предметной области (Open-domain Long-form Question Answering, LFQA) — это одна из фундаментальных задач в обработке естественного языка (Natural Language Processing, NLP), которая включает в себя извлечение документов, относящихся к заданному вопросу, и их использование для генерации подробного ответа, доходящего до абзаца в длину. Несмотря на то что в последнее время был достигнут значительный прогресс в области ответов на фактоидные вопросы (QA) открытой предметной области, для которых достаточно короткой фразы или сущности, гораздо меньше было сделано в области ответов на вопросы в развернутой форме. Тем не менее, LFQA является важной задачей, особенно потому, что она предоставляет тестовую площадку для измерения фактологичности генеративных текстовых моделей. Но действительно ли существующие тесты и метрики подходят для дальнейшего развития технологий LFQA?

Читать дальше →

Kouki_RUS Jul 16 2021 at 12:13

FELIX — гибкое редактирование текста с помощью тегов и вставок

5 min

1.1K

Machine learning*

Translation

Seq2seq модели набирают все большую популярность для решения различных задач генерации естественного языка (NLG), начиная от машинного перевода и заканчивая одноязычными задачами генерации текста, такими как суммаризация, объединение предложений, упрощение текста и постредактирование машинного перевода. Однако для многих одноязычных задач эти модели кажутся неоптимальным выбором, поскольку желаемый выходной текст часто представляет собой незначительную переработку входного текста. При выполнении таких задач модели seq2seq работают медленнее, потому что они генерируют вывод по одному слову за раз (т.е. авторегрессионно), и слишком затратны, потому что большинство входных токенов просто копируются в вывод.

Читать дальше →

Kouki_RUS Jun 21 2021 at 13:06

Учимся понимать таблицы на меньшем объеме данных

7 min

2.1K

Machine learning*

Translation

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текста (следствию, консеквенту). Хотя эта проблема часто считается важным тестом на понимание в системах машинного обучения (ML) и была глубоко изучена для простых текстов, гораздо меньше усилий было приложено для применения таких моделей к структурированным данным, таким как веб-сайты, таблицы, базы данных и т. д. Тем не менее, распознавание семантического следования особенно актуально, когда содержимое таблицы необходимо точно суммировать и представить пользователю, и важно для таких приложений, где необходима высокая точность: в вопросно-ответных системах и виртуальных ассистентах.

Читать дальше →

Kouki_RUS Jun 3 2021 at 11:48

ToTTo: набор данных для управляемой генерации текста из таблицы

6 min

1.2K

Machine learning*

Translation

За последние несколько лет исследования в области генерации текстов естественного языка (Natural Language Generation, NLG), используемой для таких задач, как суммаризация текста, достигли огромного прогресса. Однако несмотря на то, что удалось достичь достаточно высокого уровня беглости речи, нейросетевые системы могут быть склонны к своего рода «галлюцинациям» (т.е. созданию текста, понятного по смыслу, но не соответствующего содержанию источника). Этот факт может препятствовать использованию этих систем во многих приложениях, требующих высокой точности. Рассмотрим пример из набора данных Wikibio, где базовая нейросетевая модель должна суммаризировать текст из информационной карточки бельгийского футболиста Константа Вандена Стока в Википедии. Видно, что модель неверно заключает, что Констант — американский фигурист.

Читать дальше →

Kouki_RUS May 21 2021 at 14:33

Построение моделей Трансформера для больших последовательностей с помощью методов разреженного внимания

8 min

3.8K

Machine learning*

Translation

Модели обработки естественного языка (Natural language processing, NLP) на основе архитектуры Трансформеров, такие как BERT, RoBERTa, T5 или GPT3, успешно применяются в самых различных задачах и являются стандартом современных исследований в области NLP. Гибкость (универсальность) и надёжность Трансформеров способствовали их широкому распространению, что, в свою очередь, позволило легко адаптировать подобные модели для разнообразных задач обработки текстовых последовательностей, как в качестве seq2seq моделей для перевода, суммаризации, генерации текста и т.д., так и как самостоятельного энкодера для анализа тональности, частеречной разметки, машинного чтения и др. Главным изобретением Трансформеров стал механизм внутреннего внимания, который подсчитывает метрику схожести для всех возможных пар токенов входной последовательности независимо (параллельно), что позволяет избежать последовательной зависимости рекуррентных нейронных сетей. Благодаря этому механизму Трансформеры существенно превосходят более ранние модели обработки текстовых последовательностей, такие как LSTM.

Читать дальше →

Kouki_RUS Feb 26 2021 at 08:18

Трансферное обучение с Т5

7 min

4.5K

Machine learning*

Translation

За последние несколько лет трансферное обучение дало толчок новой волне state-of-the-art результатов в обработке естественного языка (NLP). Эффективность трансферного обучения заключается в предварительном обучении модели на большом доступном неразмеченном корпусе текстов для одной из задач самообучения (self-supervised learning): например, языкового моделирования или заполнения пропусков в тексте. Затем модель может быть дообучена на меньших наборах данных и зачастую показывает (значительно) лучшие результаты, чем в случае обучения на одних только размеченных данных. Об успехах трансферного обучения стало известно еще в 2018 году, когда были представлены такие модели, как GPT, ULMFiT, ELMo, BERT, а в 2019 году успешность такого подхода стала еще более очевидна с разработкой новых моделей вроде XLNet, RoBERTa, ALBERT, Reformer и MT-DNN. Скорость, с которой эта сфера развивается, не позволяет, однако, с уверенностью сказать, какие из разработок оказали наибольшее влияние и насколько эффективно их можно комбинировать.

Читать дальше →

Kouki_RUS Jan 15 2021 at 17:18

Разбираем XLNet

10 min

6.8K

Machine learning*

Translation

Введение

XLNet – новейшая и самая крупная модель, появившаяся в активно развивающейся сфере обработки естественного языка (Natural Language Processing, NLP). Статья о XLNet объединяет современные достижения в NLP и инновационный подход к решению задачи языкового моделирования. Обученная на огромном корпусе, модель достигает выдающихся результатов в NLP-задачах бенчмарка GLUE.

XLNet представляет собой авторегрессионную языковую модель, которая выдает на выходе вероятность совместной встречаемости последовательности токенов на основе архитектуры рекуррентного Трансформера. Задачей обучения модели является подсчет вероятности для заданного слова (токена), при условии наличия всех других слов в предложении (а не только слов слева или справа от заданного).

Если вам все понятно в описании выше, то этот пост не для вас. Если же нет, то продолжайте читать о том, как работает XLNet и почему он стал стандартом для многих NLP задач.

Читать дальше →

Kouki_RUS Nov 18 2020 at 19:37

Измерение гендерных корреляций в предобученных NLP-моделях

5 min

1.5K

Machine learning*

Translation

За последние несколько лет были сделаны значительные успехи в области обработки естественного языка (NLP), где такие модели, как BERT, ALBERT, ELECTRA и XLNet достигли поразительной точности (accuracy) в различных задачах. Во время предварительного обучения (pre-training) на основе обширного корпуса текстов (например, Википедии) формируются векторные представления, которые получают путем маскирования слов и попыток их предсказать (т.н. маскированное языковое моделирование). Получившиеся представления кодируют большой объем информации о языке и отношениях между понятиями, например, между хирургом и скальпелем. Далее начинается второй этап обучения – тонкая настройка (fine-tuning) – на котором модель использует заточенные под определенную задачу данные для того, чтобы с помощью общих предобученных представлений научиться выполнять конкретные задачи вроде классификации. Учитывая широкое использования подобных моделей в разных NLP задачах, критически важно понимать, какая информация в них содержится и как любые выученные отношения влияют на результаты модели в ее приложениях, чтобы обеспечить их соответствие Принципам искусственного интеллекта (ИИ).

Читать дальше →

Kouki_RUS Nov 3 2020 at 15:00

Переосмысление механизма внимания с Performers

9 min

3.7K

Machine learning*

Translation

Модели на основе Трансформера достигли выдающихся результатов в самых разных областях знаний, включая разговорный ИИ, обработку естественного языка, изображений и даже музыки. Главной составляющей любой архитектуры Трансформеров является модуль внимания (attention module), который подсчитывает схожесть для всех пар во входной последовательности. Он, однако, плохо масштабируется с увеличением длины входной последовательности, требуя квадратичного увеличения вычислительного времени для получения всех оценок сходства, а также квадратичного увеличения объема задействованной памяти для построения матрицы для хранения этих оценок.

Читать дальше →

Kouki_RUS Oct 24 2020 at 10:41

ALBERT — облегченный BERT для самообучения языковым представлениям

4 min

4.5K

Machine learning*

Translation

С тех пор как в 2018 году был представлен BERT, исследования в области обработки естественного языка охвачены новой парадигмой: использованием больших объемов существующего текста для предварительного обучения параметров модели на основе самообучения (self-supervision), не требующего разметки данных. Таким образом, вместо того, чтобы обучать модель для обработки естественного языка (NLP) с нуля, можно взять предобученную модель, уже имеющую некоторое знание о языке. Однако, для успешного применения этого нового подхода в NLP исследователю необходимо иметь некоторое представление о том, что же именно способствует языковому обучению модели: высота нейронной сети (т.е. количество слоев), ее ширина (размер представлений скрытых слоев), критерий обученности для самообучения или что-то совсем иное?

Читать дальше →

Kouki_RUS Oct 8 2020 at 19:22

Reformer — Эффективный Трансформер

6 min

3.6K

Machine learning*

Translation

Понимание последовательно организованных данных – будь то язык, музыка или видео – трудная задача, особенно в случаях, когда они сильно зависят от контекста, который их окружает. Например, если человек или какой-либо предмет пропадёт из поля зрения на видеозаписи и появится снова через значительный промежуток времени, многие модели забудут, как он выглядел. В сфере обработки языка нейронные сети с долгой краткосрочной памятью (long short-term memory, LSTM) охватывают достаточный контекст для того, чтобы успешно осуществлять последовательный перевод предложение за предложением. В этом случае контекстное окно (т.е. охват данных, которые модель принимает во внимание при переводе) может содержать от десятка до сотни слов. Более новая модель Трансформера не только улучшила качество последовательного перевода, но может быть использована для генерации целых статей Википедии с помощью суммаризации множества документов. Это возможно благодаря тому, что Трансформер увеличил контекстное окно до тысячи слов. Кроме того, столь обширный рассматриваемый контекст позволяет использовать Трансформер для обработки не только текста, но и пикселей или музыкальных нот, на основе которых можно сгенерировать изображения или музыку.

Читать дальше →

Синтетический набор данных C4_200M для исправления грамматических ошибок

Retrieval Transformer в картинках

GoEmotions — набор данных для детализированной классификации эмоций

Представляем ScaNN: эффективный поиск схожих векторов

Использование нейронных сетей для поиска ответов в таблицах

Перекрестные описания — семантическое сходство для изображений и текста

REALM — интеграция извлеченной информации в модели языковых представлений

Два новых набора данных для разговорного ИИ

KELM — внедряя графы знаний в корпус для предварительного обучения языковой модели

Достижения и проблемы генерации развернутых ответов на вопросы открытой предметной области

FELIX — гибкое редактирование текста с помощью тегов и вставок

Учимся понимать таблицы на меньшем объеме данных

ToTTo: набор данных для управляемой генерации текста из таблицы

Построение моделей Трансформера для больших последовательностей с помощью методов разреженного внимания

Трансферное обучение с Т5

Разбираем XLNet

Введение

Измерение гендерных корреляций в предобученных NLP-моделях

Переосмысление механизма внимания с Performers

ALBERT — облегченный BERT для самообучения языковым представлениям

Reformer — Эффективный Трансформер

Information

Specialization