Rybolos Apr 21 2022 at 13:48

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

10 min

9.1K

SberDevices corporate blogOpen source*Machine learning*Artificial IntelligenceNatural Language Processing*

+27

Comments 30

dimnsk Apr 21 2022 at 14:16

А есть сравненение в разных задачах NLP с другими вашими моделями ?
Например перефразирование и только перплексию можно использовать для всех задач?

Rybolos Apr 21 2022 at 14:26

Мы сравниваемся обычно с моделями с лучшими результатами по конкретным задачам. Делали замер по tapaco датасету - он как раз на многоязычный перифраз, есть замеры все в статье. https://arxiv.org/pdf/2204.07580.pdf

Дообучение на конкретных языках мы тоже начали делать: пока стартанули с MLSum (суммаризация) как станартной seq2seq задаче. С дообучением все вполне на уровне sota выходит. Хотя sota на большинстве языков не очень высока(

Какие вас больше интересуют применения, задачи?

dimnsk Apr 21 2022 at 15:50

интересует перефразирование на разных языках,
генерация текстов обзоры (few-shot)

---
и еще технический момент
у AWS есть бессерверные инференсы (API) (Бессерверное получение логических выводов), когда можно отправлять запрос и получать ответ от больших моделей не разворачивая у себя, есть такое у вас или планируете ?

doevent Apr 21 2022 at 20:23

А вы опубликуете доученную на саммари модель?

Rybolos Apr 21 2022 at 20:23

Я думаю, что можно, почему нет) Потестим ее тогда на mlsum

dimnsk Nov 10 2022 at 16:41

потестили ?
опубликуете?

Randl Apr 21 2022 at 14:30

Как насчёт потестировать на BIG-Bench -- https://github.com/google/BIG-bench (подробнее о том как провести эвалюацию тут -- https://github.com/google/BIG-bench/blob/main/docs/contributor_instructions.md )?

Rybolos Apr 21 2022 at 14:58

Спасибо! Я с интересом слежу за тем, что у них получится. Это изначально должен был быть коллаборативный бенчмарк бенчмарков, причем достаточно мультимодальный.

При этом нет публичного лидерборда, хотя уже почти год прошел..? (с ICML 2021)

По идее, надо к модели еще добавить мультимодальность следующим шагом и пройти evaluation)

Randl Apr 21 2022 at 15:08

Прогресс немного тормознул, потому что такой бенчмарк это куча работы (больше чем ожидали организаторы), но в целом бекэнд для лидерборда уже есть и можно сабмитить. Для каждой таски можно посмотреть на результаты, прямо в ридми (например, emoji_movie ). Удобного фронтенда пока нет, но думаю к публикации появится.

Randl Apr 21 2022 at 15:28

Более того, набор бенчмарков не заморожен, поэтому туда можно сабмитить новые интересные таски и они будут частью бенчмарка (но не первой статьи)

Rybolos Apr 21 2022 at 15:46

Ух-ты! Мб им хотя бы на paperswithcode это все прогрузить? Там почти фроненд, автоматом на каждую модель и каждую таску

Randl Apr 21 2022 at 19:05

Возможно, пока что работа сфокусирована на подготовке публикации, дебаггинге и подготовке бейзлайнов, думаю фронтенд лидерборда это следующий этап и тогда будут рассматриваться разные варианты. Пока что сабмиты просто собираются в репе (хотя вне бейзлайнов их пока не оч много, поэтому и предложил протестировать вашу модель)

Rybolos Apr 21 2022 at 15:00

Сегодня еще хороший день для мультиязычности, потому что утром вышел новый датасет для задачи NLU на 51 языке https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding - думаю, мы должны попробовать на нем

mechkladenets Apr 21 2022 at 15:42

Круто, посмотрим обязательно модель. Нас конечно интересует диалоговый сеттинг: делаем чатбота, разговаривающего на психологические темы, и там конечно же проявляются все проблемы архитектуры GPT, фактология и противоречивость информации в репликах.

Тестировали ли вы mGPT в тюнинге для чатботов, какой эффект мультиязычность оказывает на русскоязычного чатбота по типу Джой - стоит ли взять mGPT вместо ruGPT3 для русскоязычного бота?
А вот для задачи контролируемой генерации кажется стоит попробовать модель - учим ruGPT3 генерации текстов и там есть успех, но бывает такое, что некоторые ключевые слова заменяются на близкие им (видимо в эмбеддингах), а этого хотелось бы избежать. Тогда вопрос генерации текста с конкретными брендами в нем упросится - они не будут подменяться конкурирующими брендами из этой же категории)

Rybolos Apr 21 2022 at 16:26

По идее для диалогов вполне можно использовать, вот делаю генерацию - работает:

prompt = '''- Hey, what's up?
- Cool, man! 
- '''
text = model.generate(
    prompt, top_p=0.95, top_k=0, seed=1336)
print(text)

Вывод:

- Hey, what's up?
- Cool, man! 
-  Yeah, I come on a vacation 
- Yes, cool. 
- Look, man, I don't have much free time.
- No problem. 
- Well, you can't be taking a vacation without getting out of the house. 
- I would say, work. 
- Cool, don't you think so? 
- Don't you like to work? 
- I don't like it.

Rybolos Apr 21 2022 at 16:30

>>стоит ли взять mGPT вместо ruGPT3 для русскоязычного бота?

Я думаю, для русского языка емкость русской моноязычной модели больше. Но можно зато сделать бота, который будет говорить сразу на многих языках

Alexey2005 Apr 21 2022 at 17:39

Что-то у меня не выходит извлечь из этой модели осмысленный текст. На выходе получается сплошной текстовый мусор

вроде такого

с (вы тво дается, одай онавто, или же, но́(ого, узуть, во, гость, убодъядыйг… явля гость, по суга<|endoftext|>
го, мыльное, осужув. ясно, вид, упор, возбу<|endoftext|>
закыв, гость, чтa, лад, муже, фудья, рубаёт, юлнӧг, соущё, гость, эг, цял, ГОГА, ряде, йых, яг, — это, яг, ся,

ruGPT3large при тех же параметрах генерирует без проблем.

UPD: Разобрался, модель работает только с очень короткими текстами. При длине затравки свыше 512 токенов в выхлоп начинает сыпаться текстовый мусор, процент которого быстро возрастает с ростом затравки. И уже при длине затравки в 800 токенов извлечь из модели хоть что-то осмысленное не удаётся.
Т.е. можно считать, что предельная длина контекста — 512 токенов.

Rybolos Apr 21 2022 at 19:56

Еще, на самом деле, важный вопрос такой: лучше всего работает sampling, но для разных языков параметры top p и top k немного разные.

Для русского я обычно использую

text = model.generate(
    prompt, top_p=0.95, top_k=0, seed=1336)
print(text)

Для остальных языков они тоже ничего, но перебором в среднем хороши бывают вот такие параметры:

min_length=100,
eos_token_id=5, 
pad_token=1,
do_sample=True,
top_k=0,
top_p=0.8,
no_repeat_ngram_size=4

BoberMod Apr 21 2022 at 23:29

13B (ru или m) модель будет эксклюзивно только в SberCloud, без возможности выкачать самому?

Rybolos Apr 22 2022 at 01:07

Пока да, думаем ее еще получше потестить. 13В моноязычная ruGPT-3 тоже в клауде живет. на 1 Tesla V100 влезает только инференс, дообучение - 4 Tesla V100 минимум

Rybolos Apr 22 2022 at 15:00

Пробую зеро-шот перевод, получился красивый черри-пик

snakers4 Apr 25 2022 at 14:12

а именно веб-корпуса языков России

Интересно, недавно нужен был корпус татарского.

А как скачать эти корпуса? Я нигде не нашел ссылки на архив.

Christina29 Apr 28 2022 at 19:27

Коллеги подсказывают, что стоит обращаться напрямую к создателям корпусов: https://ling.hse.ru/about. Конкретно по корпусу татарского там указаны конкретные имена участников проекта: http://web-corpora.net/TatarCorpus/search/?interface_language=ru.

Rybolos Apr 28 2022 at 20:16

Там есть отдельные подкорпуса языков, вот тут на странице есть вкладка "скачать" : http://web-corpora.net/wsgi3/minorlangs/

snakers4 Apr 29 2022 at 12:33

Как интересно ... именно веб-корпуса самых частотных языков РФ недоступны (татарский, башкирский, татарский):

Хорошо работают наши налоги - деньги освоили, нужные корпуса скачать нельзя. То есть ситуация мало изменилась, надо все равно идти на CC и качать и обрабатывать все самому =)