Comments 30
А есть сравненение в разных задачах NLP с другими вашими моделями ?
Например перефразирование и только перплексию можно использовать для всех задач?
Мы сравниваемся обычно с моделями с лучшими результатами по конкретным задачам. Делали замер по tapaco датасету - он как раз на многоязычный перифраз, есть замеры все в статье. https://arxiv.org/pdf/2204.07580.pdf
Дообучение на конкретных языках мы тоже начали делать: пока стартанули с MLSum (суммаризация) как станартной seq2seq задаче. С дообучением все вполне на уровне sota выходит. Хотя sota на большинстве языков не очень высока(
Какие вас больше интересуют применения, задачи?
интересует перефразирование на разных языках,
генерация текстов обзоры (few-shot)
---
и еще технический момент
у AWS есть бессерверные инференсы (API) (Бессерверное получение логических выводов), когда можно отправлять запрос и получать ответ от больших моделей не разворачивая у себя, есть такое у вас или планируете ?
А вы опубликуете доученную на саммари модель?
Как насчёт потестировать на BIG-Bench -- https://github.com/google/BIG-bench (подробнее о том как провести эвалюацию тут -- https://github.com/google/BIG-bench/blob/main/docs/contributor_instructions.md )?
Спасибо! Я с интересом слежу за тем, что у них получится. Это изначально должен был быть коллаборативный бенчмарк бенчмарков, причем достаточно мультимодальный.
При этом нет публичного лидерборда, хотя уже почти год прошел..? (с ICML 2021)
По идее, надо к модели еще добавить мультимодальность следующим шагом и пройти evaluation)
Прогресс немного тормознул, потому что такой бенчмарк это куча работы (больше чем ожидали организаторы), но в целом бекэнд для лидерборда уже есть и можно сабмитить. Для каждой таски можно посмотреть на результаты, прямо в ридми (например, emoji_movie ). Удобного фронтенда пока нет, но думаю к публикации появится.
Более того, набор бенчмарков не заморожен, поэтому туда можно сабмитить новые интересные таски и они будут частью бенчмарка (но не первой статьи)
Ух-ты! Мб им хотя бы на paperswithcode это все прогрузить? Там почти фроненд, автоматом на каждую модель и каждую таску
Возможно, пока что работа сфокусирована на подготовке публикации, дебаггинге и подготовке бейзлайнов, думаю фронтенд лидерборда это следующий этап и тогда будут рассматриваться разные варианты. Пока что сабмиты просто собираются в репе (хотя вне бейзлайнов их пока не оч много, поэтому и предложил протестировать вашу модель)
Сегодня еще хороший день для мультиязычности, потому что утром вышел новый датасет для задачи NLU на 51 языке https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding - думаю, мы должны попробовать на нем
Круто, посмотрим обязательно модель. Нас конечно интересует диалоговый сеттинг: делаем чатбота, разговаривающего на психологические темы, и там конечно же проявляются все проблемы архитектуры GPT, фактология и противоречивость информации в репликах.
Тестировали ли вы mGPT в тюнинге для чатботов, какой эффект мультиязычность оказывает на русскоязычного чатбота по типу Джой - стоит ли взять mGPT вместо ruGPT3 для русскоязычного бота?
А вот для задачи контролируемой генерации кажется стоит попробовать модель - учим ruGPT3 генерации текстов и там есть успех, но бывает такое, что некоторые ключевые слова заменяются на близкие им (видимо в эмбеддингах), а этого хотелось бы избежать. Тогда вопрос генерации текста с конкретными брендами в нем упросится - они не будут подменяться конкурирующими брендами из этой же категории)
По идее для диалогов вполне можно использовать, вот делаю генерацию - работает:
prompt = '''- Hey, what's up?
- Cool, man!
- '''
text = model.generate(
prompt, top_p=0.95, top_k=0, seed=1336)
print(text)
Вывод:
- Hey, what's up?
- Cool, man!
- Yeah, I come on a vacation
- Yes, cool.
- Look, man, I don't have much free time.
- No problem.
- Well, you can't be taking a vacation without getting out of the house.
- I would say, work.
- Cool, don't you think so?
- Don't you like to work?
- I don't like it.
го, мыльное, осужув. ясно, вид, упор, возбу<|endoftext|>
закыв, гость, чтa, лад, муже, фудья, рубаёт, юлнӧг, соущё, гость, эг, цял, ГОГА, ряде, йых, яг, — это, яг, ся,
UPD: Разобрался, модель работает только с очень короткими текстами. При длине затравки свыше 512 токенов в выхлоп начинает сыпаться текстовый мусор, процент которого быстро возрастает с ростом затравки. И уже при длине затравки в 800 токенов извлечь из модели хоть что-то осмысленное не удаётся.
Т.е. можно считать, что предельная длина контекста — 512 токенов.
Еще, на самом деле, важный вопрос такой: лучше всего работает sampling, но для разных языков параметры top p и top k немного разные.
Для русского я обычно использую
text = model.generate(
prompt, top_p=0.95, top_k=0, seed=1336)
print(text)
Для остальных языков они тоже ничего, но перебором в среднем хороши бывают вот такие параметры:
min_length=100,
eos_token_id=5,
pad_token=1,
do_sample=True,
top_k=0,
top_p=0.8,
no_repeat_ngram_size=4
13B (ru или m) модель будет эксклюзивно только в SberCloud, без возможности выкачать самому?
Пробую зеро-шот перевод, получился красивый черри-пик
а именно веб-корпуса языков России
Интересно, недавно нужен был корпус татарского.
А как скачать эти корпуса? Я нигде не нашел ссылки на архив.
Коллеги подсказывают, что стоит обращаться напрямую к создателям корпусов: https://ling.hse.ru/about. Конкретно по корпусу татарского там указаны конкретные имена участников проекта: http://web-corpora.net/TatarCorpus/search/?interface_language=ru.
Там есть отдельные подкорпуса языков, вот тут на странице есть вкладка "скачать" : http://web-corpora.net/wsgi3/minorlangs/
Как интересно ... именно веб-корпуса самых частотных языков РФ недоступны (татарский, башкирский, татарский):
Хорошо работают наши налоги - деньги освоили, нужные корпуса скачать нельзя. То есть ситуация мало изменилась, надо все равно идти на CC и качать и обрабатывать все самому =)
Почему?.. Когда мы брали го назад данные, все было на месте. Сейчас зашла на сайт - их больше всех: http://web-corpora.net/wsgi3/minorlangs/download
в строке "татарский" архив 40мб, башкирский - 96мб.
Не смог попробовать модель локально на Nvidia 2060 6gb просто памяти не хватает ;(
Модель-полиглот: как мы учили GPT-3 на 61 языке мира