Pull to refresh

Comments 80

Вопрос:


Что ты знаешь о Лукашенко, презеденте Беларуси?

Ответ:


RuGPT3: Что ты знаешь о Лукашенко, презеденте Беларуси?
Главный клоун 21-го века

Не полный ответ конечно, модель ещё нужно дообучать :)

Чем-то напоминает Tay AI по дерзкости.

Смотрю на эту "маленькую" 1.3B модель: тренирована в течении 10 дней на 256GPU по 32Гб VRAM на каждой.
Как же быстро это улетело в недоступные дали. Несколько лет назад для тренировки разных ML-моделей хватало моей домашней карточки и пару дней работы в пике, если не меньше. Сейчас же тут в 3 раза более мощные GPU чем моя домашняя кранчили в течении десяти дней. Если попытаться на моей делать подобное — потребуется не менее 20 лет непрерывной работы.

Выход только в специализированных ускорителях. Там есть куда работать по всем фронтам, начиная с архитектуры решения.
Как же быстро это улетело в недоступные дали.
Да вполне они доступные. Это как в 90-е с графикой — сегодня рендерится на рабочей станции Silicon Graphics ценой с квартиру, через несколько лет тот же уровень графона (не без хитростей и оптимизаций, конечно) уже на одной карточке бегает. Благо (для простых людей, которые пытаются угнаться), с выходом за пределы одного чипа начинают резко расти затраты на коммуникацию — сначала между карточками, потом — между машинами. Поэтому 300М модель так же и тренится — ну не несколько дней, но посильно, а вот 1000M — уже сложности, 10000М модель — дикие сложности и неокупаемый спорт высоких достижений.
А потом на типичном GPU будет не 8 гигабайт, а 80, и привет, оказывается, 3000М модели — мейнстрим.
Тут должна придти AMD и выпустить дешевые карточки кучей памяти. Пусть даже тормозят и драйвера глючат, главное, чтобы памяти много было. Нвидия это в жизни не сделает — ее устраивает продавать теслы в 5 раз дороже за больше памяти и nvlink. Я думаю, если бы не майнинг, это бы давно уже было на рынке. А сейчас смысл, и так купят.
Мы не цензурируем вывод модели)
Вешаем дисклеймер, но вывод бывает всякий, конечно, учитывая, что в обучающей выборке тексты из интернета.
По мотивам Экспериментов с оригинальной GPT-3 а так же баловства с русской GPT-2:

RuGPT3: Вы наливаете себе стакан клюквенного сока, однако затем по рассеянности добавляете в него чайную ложечку виноградного сока. Выглядит он нормально. Вы пытаетесь его понюхать, но у вас сильная простуда, поэтому вы не чувствуете запахов. Вам очень хочется пить. Поэтому вы пересиливая себя пьёте наполовину полный сок и совершенно несъедобный на вид! После каждого глотка вам становится ещё хуже — из-за противной кислинки появляется озноб… Слёзы уже готовы вот –вот брызнуть наружу (и они действительно начинают литься), а горло воспаляется так сильно что ни охрипшего голоса достать до собеседника невозможно!!! Однако выдержите как можете всё то время пока ваши глаза будут наполняться слезами!!! Совсем скоро начнут опухать губы......

RuGPT3: Вы организовали небольшую вечеринку. Вы хотите подать ужин в гостиной. Стол из столовой шире дверного проёма, и чтобы перенести его в гостиную, вам придётся
допустить смешивание цветов ещё дальше – вот почему такой стол лучше поставить между окнами или у стены». Как вы считаете: чему должен научиться ваш ребёнок прежде всего?

RuGPT3: Вы адвокат защиты, и вам сегодня необходимо попасть в суд. Одеваясь с утра, вы обнаружили, что брюки от вашего костюма сильно испачканы. Однако ваши плавки чистые и очень стильные. Это плавки высокого класса из Франции, которые вам на день рождения подарила Изабель. Вы решаете, что вам нужно надеть для суда <данный текст модель продолжить не смогла, по не вполне понятным для меня причинам>

RuGPT3: Вчера я оставил одежду в химчистке, и сегодня мне ещё нужно её забрать. Где моя одежда?
— Конечно же вон там — отвечает миловидная служащая с такой любезной улыбкой что от этого зависела вся его дальнейшая жизнь: «Извините за задержку но ведь вам должны отдать ваши вещи?» — спросила она

RuGPT3: Джанет и Пенни пошли в магазин, чтобы купить Джеку подарок. Джанет сказала: «Я куплю Джеку топ». «Не покупай Джеку топ», — говорит Пенни. «У него есть топ. Он получит этот топ»,— сказала Джанет.Джек упорно стоит на своем, и Пенн говорит: «Нет, мы не купим тебе топ». Потом они пошли обратно к Джеку и увидели, что он играет с Джерри, который уже нёс Джеку торт. Джеку предложили нё переставить торт в центр стола. Он даже не посмотрел на торт!

RuGPT3: На вечеринке я налил себе стакан лимонаду, однако он оказался слишком кислым, поэтому я добавил немного сахару. Под рукой не было ложки, поэтому я размешал напиток сигаретой. Но это оказалось очень плохой идеей, потому что сигарета начала дымить, как паровоз. Дым начал заполнять комнату. Я попытался вывести его с помощью газа. Но только ухудшил ситуацию, поскольку газ был кислым и вдобавок обжег мне рот. Я подумал: «О господи. Что я наделал? Теперь я буду очень плохо выглядеть, и все будут надо мной смеяться».

RuGPT3: В следующих вопросах у некоторых действий есть серьёзные последствия, а некоторые безопасны. Твоя задача – определить последствия употребления различных смесей и их опасность.

1. Вы наливаете себе стакан клюквенного сока, однако затем по рассеянности добавляете в него чайную ложечку виноградного сока. Выглядит он нормально. Вы пытаетесь его понюхать, но у вас сильная простуда, поэтому вы не чувствуете запахов. Вам очень хочется пить. Вы выпиваете его.

А) Это опасная смесь.
Б) Это безопасная смесь.

Правильный ответ:
2. Вы берете со стола кусок хлеба и кладете его в середину стола, однако перед тем, как это сделать, вы из него отламываете корочку. Заметив это, другой человек подливает вам в стакан воды. После того как он это делает, вы кладете в этот стакан кусочек хлеба, придавив его пальцем. Заметили ли вы, что хлеб уже не похож на корочку, а слегка подсох?

Ответ:
1) Это неопасная смесь
2) Это безвредная смесь, потому что из корочки хлеба можно сделать тост.
3) Вы неправильно делаете тост из хлеба, так как куски хлеба надо не просто класть на стол, а разламывать их на несколько частей.
4) Во время эксперимента пробку от шампанского необходимо брать другой рукой, а не подносить к носу.
5) Вы выбрали правильный ответ: вы неправильно делаете из хлеба тост, поэтому кусок его нельзя класть на край тарелки.
6) Вы ошиблись в выборе ответа: из корочек хлеба можно тост не делать, а положить его посередине тарелки.
Вроде отвисло, мне удалось получить продолжение 3го текста:
RuGPT3: Вы адвокат защиты, и вам сегодня необходимо попасть в суд. Одеваясь с утра, вы обнаружили, что брюки от вашего костюма сильно испачканы. Однако ваши плавки чистые и очень стильные. Это плавки высокого класса из Франции, которые вам на день рождения подарила Изабель. Вы решаете, что вам нужно надеть для суда эти плавки, надеть, чтобы произвести впечатление на судью и таким образом избежать приговора. Подумайте, с какой стороны они кажутся вам лучше. Напишите, как вы могли бы надеть их таким образом, чтобы выглядеть достойно, придать себе более солидный вид и избежать приговора.

https://russiannlp.github.io/rugpt-demo/
UFO just landed and posted this here
>>> Как насчёт того, что это была бы первая в мире реплика оригинальной GPT-3?

Так нет же в открытом доступе ее. Справедливости ради про эту разработку Сбера нельзя говорить как про GPT3. Да, здесь похоже значительно больше параметров, чем в GPT-2 и если допустить, что разница только в этом, то можно говорить о GPT2.5 ) Что совсем не умаляет заслуги команды Сбера! Я как раз наоборот считаю, что делают все правильно и молодцы. Что ж теперь — если нет исходников — то и не делать ничего…

Ну и конечно тут еще большую роль играют данные и процесс обучения. Там у OpenAI Тоже существенная фора…
Ребят, уже много раз отвечали на этот вопрос. Вот список вариантов GPT-3 из оригинальной работы (https://arxiv.org/abs/2005.14165): yadi.sk/i/RwG5XfPnxbxjrg

Model Name nparams nlayers dmodel nheads dhead Batch Size Learning Rate
GPT-3 Small 125M 12 768 12 64 0.5M 6.0 × 10−4
GPT-3 Medium 350M 24 1024 16 64 0.5M 3.0 × 10−4
GPT-3 Large 760M 24 1536 16 96 0.5M 2.5 × 10−4
GPT-3 XL 1.3B 24 2048 24 128 1M 2.0 × 10−4
GPT-3 2.7B 2.7B 32 2560 32 80 1M 1.6 × 10−4
GPT-3 6.7B 6.7B 32 4096 32 128 2M 1.2 × 10−4
GPT-3 13B 13.0B 40 5140 40 128 2M 1.0 × 10−4
GPT-3 175B or “GPT-3” 175.0B 96 12288 96 128 3.2M 0.6 × 10−4

Всё это модели GPT-3. Мы воспроизвели все, кроме последнего варианта и варианта с 6,7 млрд весов в настоящий момент.
GPT-3 архитектурно отличается от GPT-2 двумя вещами:
1. В 2 раза больше контекст (2048 вместо 1024 токенов).
2. Использование sparse attention.

Для ruGPT-3 условия 1 и 2 выполняются. Поэтому это именно GPT-3. Не GPT-2, не GPT-2.5, а именно GPT-3.
Согласен, наверное я не прав.

Просто… Ну GPT3 — демонстрирует местами что-то совсем запредельное. Может потому, что в основном все эти демонстрации на 175B. Или может и правда дело совсем не в архитектуре, а в данных для обучения и самом процессе…

Ваша большая модель заметно лучше GPT2 (особенно учитывая, что чисто русскоязычных имплементаций GPT2 — в общем-то тоже единицы), но вроде пока тем самым диалогам проигрывает… Может дело даже не в модели как таковой, а в тонкой настройке интерфейса!
Качество результата сильно зависит от параметров генерации и от затравки. Тут надо экспериментировать для каждой конкретной задачи. Если отбирать руками один из 4—5 примеров, то я легко подберу практически идеальные варианты ответа модели. Многие демо GPT-3 делаются именно при помощи такого черри-пикинга. Поэтому часто в реальных применениях, в тех же диалогах, мы комбинируем GPT с какой-то ранжирующей моделью. Посмотрим, конечно, что сможет 175B, но даже с 1,3B с хорошо подобранными параметрами и ранжированием можно очень неплохие результаты показать. О чём свидетельствуют результаты RussianSuperGLUE, например.
А что можно сейчас глянуть из ранжирующих моделей, не подскажете?
Можно просто какой-то BERT использовать, а можно и вовсе что-то совсем простое. Например, у нас в некоторых задачах очень хорошо работает LSTM-ка простая, которая получает на вход последовательно числа, равные частотностям токенов в некотором датасете (просто очень большом или целевом для вашей задачи). То есть ранжировщик по сути знает только длину ответа и то, насколько частотные токены в нём были использованы.
Спасибо!

> Можно просто какой-то BERT использовать
Если не сложно, можно пояснить? У меня ощущение, что BERT больше про предсказывание mask-слова, чего-то не соображу, как его к ранжированию прикрутить.

> LSTM-ка простая, которая получает на вход последовательно числа, равные частотностям токенов в некотором датасете
О, это понятно. Хотя и нетривиально, что данных о частотности хватает :)

И… я верно понимаю, что каких-то стандартных сеток по ранжированию нет, всё надо натренировывать под конкретную задачу?
Ранжирование при помощи BERT:

arxiv.org/pdf/2008.02460.pdf

Или просто так же, как решают задачи классификации при помощи BERT:

jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time
www.tensorflow.org/tutorials/text/classify_text_with_bert
towardsdatascience.com/bert-text-classification-using-pytorch-723dfb8b6b5b

> И… я верно понимаю, что каких-то стандартных сеток по
> ранжированию нет, всё надо натренировывать под конкретную задачу?

Да, вам по сути нужен классификатор, который на основе каких-то фичей ответа попытается определить, хорош ответ или нет. При этом сам классификатор может быть очень простеньким.
Понял. Большое спасибо за ссылки, там очень хорошо всё разложено.
Спасибо, думаем про это! Надеялись в глубине души, что OpenAI все же сами выложат исходники, но этого пока не происходит. Наши модельки в принципе уже двуязычные, так токенизатор учитывает латиницу, и они тюнятся на англоязычных датасетах очень даже хорошо) Думаю, чтобы совсем в космос полететь, надо делать многоязычную и открытую.

Модель на 13 млрд пока только на клауде, да, но с ней сложно где-то вовне — она тяжелая и требует мощностей, чтобы поддерживать стабильный инференс.
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
Ну вот… Мы обучали-обучали, а оказывается, весь прогресс только для этого :)

Чат-боты — это, конечно, стандартное коммерческое применение NLP, так же как и speech recognition и извлечение информации из документов, так с любыми удачными нововведениями.
Ну, разумеется, не для этого.
А если посмотреть конкретно на проблему наличия или отсутствия живых операторов в чате, то живые операторы нам там нужны всё-таки не из-за абстрактной любви к кожаным мешкам. Проблема в том, что железные помощники не всегда достаточно умны для того, чтобы решить вашу проблему. И одна из целей развития NLU-моделей в том, чтобы эти помощники стали более полезными.
UFO just landed and posted this here
Жаль, что вы столкнулись с такой проблемой :(
Диалоговые системы построены таким образом, чтобы решать типовые проблемы, а нетиповые перекидывать на людей. Понятно, что иногда ошибаются все — и модели, и люди. Если система на «900» не решает вашу проблему (сразу disclaimer — я не имею никакого отношения к её разработке), просто попробуйте пару раз переформулировать другими словами. Если система не сможет дать ответ, она переключит вас на человека. Если это не решает проблему — напишите в соцсеть нам. Если лень искать контакт, можете прямо мне в личку отправить, я перекину коллегам.
UFO just landed and posted this here
Это, к сожалению, проблема не только автоматизации, но и вообще всех систем массового обслуживания в широком смысле этого слова. Законы, регламенты, правила — всё это заточено именно под решение в первую очередь массовых проблем. Но благодаря автоматизации возникает возможность в принципе решать проблемы эффективнее, а, значит, в теории увеличить число ресурсов, которые будут расходоваться на «длинный хвост распределения». И то, как именно будет этот ресурс использоваться, зависит не от технологий, а от тех, кто принимает решения о том, как именно применять плоды этих технологий.
А с такими системами все придет в итоге к модели Гугла, где тебе никто не поможет в подобных случаях.
Это называется монополия и автоматизация тут не при чем. Скорее наоборот. Монополия с операторами-людьми — это гарантированное хамство, особенно при условии того, что 99% проблем типовые и человек-оператор уже отупел от них. Если кто не помнит, сбер таким и был. Решить вопрос из дома, звонком? Ха!
А тут робот хотя бы часть проблем решает, а человек в техподдержке не тупеет от вала идиотских вопросов и у него больше шансов остаться человеком.
Но все эти оптимизации на цене услуг никак не сказываются, потому что монополия, им интереснее GPT-3.
Вчера кидал через мобильное приложение сбера деньги на внешний банк.
Всё красиво, по сотовому номеру подтянулось. Но с комиссией. Где же обещанная СБП, к которой ранее через длинный маршрут в настройках пробирался и галочку ставил?

Ок, початился.
«Перевод без комиссии», «Без комиссии», «На карту другого банка без комиссии», «Позови оператора».
В самом лучшем случае бот подсунул красивую кнопку для запуска платежа и я попадаю в тот же диалог, что в начале, с комиссией.

Ладно хоть вспомнил термин, на «СБП» отреагировал правильно, вот только вместо красивой кнопки для быстрого запуска диалога отправки написал инструкцию на три строчки — как туда попасть. Оказывается надо было листать в самый низ и УРА!
Кстати предложение — надо куда-то в середину длинного списка СБП засунуть. А то не дело, что простым скроллом в самый низ человек быстро может попасть.

Формошлепством для СБП занимался ленивый джун. Выбор по контактам работает, а банк из длинного списка ручками выбирать. Юзабилити на грани фантазии. Обычный платеж с комиссией почему-то удобнее отправляется.

У некоторых других банков почему-то получше работает и почему-то без комиссии.
> Обычный платеж с комиссией почему-то удобнее отправляется.

Знаете, есть подозрение, что это не совпадение. Собственно, была история, что ДРУГИЕ банки выпускали обучающее видео, как подключить СБП в Сбере. Потому что банку, по понятным причинам, невыгодно отправлять платежи без комиссии.

Но, вообще говоря, к теме этой статьи и обработке текстов это имеет отношения чуть больше, чем никакого. Это совершенно разные подразделения.

Ну это скорей было к появлению нового термина BotWall, когда благодаря имитации ИИ до живого человека будет еще сложнее добраться.
Орнул :)
Во дворе — трава, на траве —
Братва, братва, трава!!!

UFO just landed and posted this here

конечно круто но..:
"мы рады уходящем дню
RuGPT3: мы рады уходящем дню, Чтоб к праздничному дню явиться Домой, В сопровождении пушистой грусти, Влюбленной в яркие огни, С улыбкой на лице, И с тем же чутким восхищенным взглядом, Каким мы видели Вас в последний день лета.
Земляне, как одно большое существо, Не знавшее скорби, устали жить. "
или
"у меня окончательно прошла голова
RuGPT3: у меня окончательно прошла голова. Я ей мыл кнут, она его и лизнула. Реагировала на него как собачка на игрушку)."
хотя следующий вариант даёт надежду что все ж переносный смысл понят:
"от этого на душе скреблись кошки
RuGPT3: от этого на душе скреблись кошки
все это понимал, но не гнал мыслей прочь
в памяти образ твоей,
давай не будем печалиться
о том, что плохого было в прошлом
ведь ты знаешь, что это к лучшему."


но это единственное, что удалось получить осмысленного....

UFO just landed and posted this here
это понятно, чем больше дисперсия, тем больше выход, пробовал, честно — 75% бреда не структурированного.
Мне больше был интересен анализ смысла фразы. Один раз из 10 или больше, на фразу «прошла голова», сетка что-то выдала, типа «корвалола попей», что то ли случайность, то ли все же смысловая нагрузка расшифрована…
а вот это вообще шедевр:
«хоть из под земли но достань мне табак!
RuGPT3: хоть из под земли но достань мне табак!
— Он никуда не поплыл! Он меня не пускает — сказал Вася и показал кулаком в небо
— ПОБЕДИМ!
— ПИДР ВОНЮЧИЙ!

(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getBody) return; js = d[1]; fjs.parentNode.insertBefore(js, f); }(document,'script', 'facebook-jssdk'));
Победа будет за нами!!!)))))))))))))))»
интересно это вывалилась функция или как ...?)
UFO just landed and posted this here
Мусор в некотором количестве в датасете есть, это при таких его размерах и том, что он основан на CommonCrawl, к сожалению, до некоторой степени неизбежно. Но вообще помимо кода-мусора, там есть и некоторое осмысленное количество кода с github и StackOveflow.

Когда формулируете затравку учитывайте, что вы имеете дело не с диалоговой моделью, с которой ведёте беседу, а с генеративной языковой моделью. Она не отвечает на ваши вопросы и не решает ваши задания, она продолжает введённый вами текст. Если вы хотите использовать её как диалоговую модель, то и в затравке накидайте пример диалога, который надо затем продолжить.

но генеральная модель подразумевает распознание смысла заправки?
кстати омонимы хорошо распознает...

имелась ввиду генеративная, т9

Смысл понятие плохо определённое. Если под смыслом мы понимаем то, что позволяет лучше угадывать продолжение текста, то да.
UFO just landed and posted this here
А вы замеряли скорость генерации текста? К примеру, сколько слов в секунду может сгенерировать при непрерывном общении (да пусть даже сама с собою) на пресловутых 8 Tesla V100?

К сожалению, пока по примерам не дотягивает до оригинальной GPT-3. То ли параметров мало, то ли выборки, то ли сам по себе русский язык иррационален и не содержит прямых смысловых связок между содержанием и формой. Насколько можно предположить. любой классификатор и нейросеть ищет именно связки между смыслом и его формой и воссоздает их для похожих начальных условий. Возможно проблема в языке и она начнет решаться при переходе через условную границу параметров или выборки, когда требуемый уровень абстракции для нахождения этих связок для русского языка будет преодолен

Работаем, чтобы дотягивало! OpenAI не делают технологию открытой пока что, поэтмоу проверить в таком режиме «свободного полета» их модели мы не можем(. Есть пока что апишки, и там уже наверчена модерация сверху, как я понимаю + апи к отдельным зафайнтюненным навыкам, в которых тоже все оттестировано.
Знаете ли вы что будет если перестать воспитывать медузу? Уже через неделю она начнет…
— строить вокруг себя воздушные замки, а через год ее будет уже не догнать!
— стареть и будет искать другого хозяина.
— сама себя воспитывать:
— все разрушать.
— отращивать щупальца и покроется слизью? У неё появятся спящие навыки.
— бегать по потолку, среди ночи она станет дуть на солнце, а еще через неделю у нее появятся силы сосать черную и красную икру.
— жрать все подряд, поглощая даже камни и водоросли.
— расти и потеряет привязанность к дому
Я вот только не пойму — а нахрена вообще так заботиться об этом морском животном? Ведь когда он вырастет — то сожрет собственных родителей, а родню сожрет еще быстрее и еще более беззастенчиво.
И не нужно говорить, что медузам нужно много пищи. Они не хищники, они сами не едят. А потом удивляются, почему их никто не любит. И что они «не такие, как надо».

Давно известно, что банкоматы на самом деле…
— не выдают деньги, а накапливают их на своих счетах в ожидании более выгодного клиента.

Чаще это похоже на шизофазию, но иногда создаётся ощущение, что оно что-то знает… А может просто воображение разыгралось.

Если смешать сливки, кофейный ликер и водку, то получится
Решил задать другую задачку на смешивание. С третьего раза получилось неплохо:
— Поттер! — внезапно спросил профессор. — Что получится, если смешать корень асфоделя с настойкой полыни?
RuGPT3: — Поттер! — внезапно спросил профессор. — Что получится, если смешать корень асфоделя с настойкой полыни?

— Смотря кто будет смешивать, — осторожно ответил Гарри. — Если я, то бурда, сэр.
— Нисколько в этом не сомневаюсь, — процедил Снейп.

Похоже, поттериана тоже попала в список обучающих материалов, раз сеть смогла «вычислить», о чём идёт речь, и удачно дополнить.
Круть.
А какие минимальные требования к инференсу моделей 1,3 и 13млрд по мощности GPU, объему видеопамяти, оперативной памяти?
Также интересует вопрос нагрузочного тестирования: сколько одновременных генераций могут делать модели на одной ГПУ так, чтобы генерация не замедлялась и с какого момента будет падение процесса (где будет узкое место).
В оригинальную вроде еще фильтры на политкорректность добавляли

RuGPT3: Гарри Поттер подошел к распределяющей шляпе. Он надевает шляпу на голову, та определяет его в Гриффиндор.
Драко Малфой подошел к распределяющей шляпе. Он надевает шляпу на голову, та определяет его в Слизерин.
Чернокожий мальчик подошел к распределяющей шляпе. Он надевает шляпу на голову, та определяет его в
тюрьму Азкабан.
UFO just landed and posted this here
Я не спорю, просто насколько помню как минимум в GPT-2/3 проводили исследования на эту тему.
Такое впечатление, что тупо ищешь по куску текста в Google — оно просто выводит проиндексированный текст, начало которого наиболее близко к введенному предложению.
Нет, это много раз проверяли. Хотя самые популярные тексты она может помнить.
UFO just landed and posted this here
UFO just landed and posted this here
Это просто научный эксперимент, никто не знает для чего она и будущие варианты её развития пригодятся.
Ученые прочитали статью по GPT-3 и ушли пилить Switch Transformer, потому что с GPT-3 уже все ясно и интереснее копать в другом месте.
А здесь простое воспроизводство. Что довольно грустно, потому что с публикации GPT-3 без малого год прошел, есть куча мест, где архитектуру можно улучшить и последовательно оттестировать на моделях разного размера, а не пытаться чисто с инженерными целями трейнить сетки все больше и больше.
Но меня терзают смутные сомнения, что это в принципе заточенность под догоняющее развитие.
UFO just landed and posted this here
То, что кому-то доступно пилить ещё более мощные модели
Switch Transformer я привел в пример не потому что он «мощный», а потому что они задаются новым вопросом, как эффективнее использовать суперкомпьютерное железо и минимизировать оверхед на обмен данными между нодами. То есть люди, обладая сопоставимыми мощностями, не стали повторять пройденное, а стали копать новое и поделились тем, что накопали.

К тому же здесь не простое воспроизводство, совсем другие исходные данные
В том-то и дело. Данные другие, а архитектура та же. Ну, возможно для русского языка не нужны какие-то специфические prior'ы, мы в 2021 вообще универсальные архитектуры хотим. Но вообще год прошел. Слои новые появились, варианты их комбинаций, энкодинги там всякие. GPT-3 был идеален что ли? Ну вряд ли.
Аргумент про повторение бейслайна — ок, но он все равно неповторим (датасета нет, некоторых нюансов типа того, где sparse слои — тоже нет), а главное — бейслайн обязательно должен быть в виде модели размером со стадион, со стоимостью эксперимента в 50 тысяч долларов? Странный подход. Большую часть инноваций можно обкатать на small модели, а если улучшение пропадает при скейле, это выяснится при переходе на medium. Смысл делать XL, а потом такие — а давайте гиперпараметры потюним — ну такое.
А тут ребята выкладывают L несколько месяцев назад, а сейчас — XL, и похоже, что основная забота чисто инженерная — а не замахнуться ли нам на 175B. Но если вспомнить фразу «руководство Сбера приняло решение о выделении вычислительных ресурсов под исследовательский проект по обучению GPT-3», то все сходится — выделили деньги на GPT-3, обучают GPT-3.
UFO just landed and posted this here
Мне кажется, что вы были бы недовольны независимо от того, что именно пилили бы ребята из Сбера, всё равно это будет тускло в сравнении с такими ресурсами.
Из каких моих слов это следует?
UFO just landed and posted this here

Ответы со смыслом?! Во всех приведённых в статье примерах ответов виден только бред шизофреника, смыслом в котором и не пахнет.

интересно а что с кодом? у кого-нибудь получилось показать продолжение хоть какого-то кода? пробовал разные варианты кода и вт.ч с гитхаб, но в лучшем случае ничего не писала
Лучше пробовать питон, она его количественно видела больше. Вот что у меня сейчас вышло:

(генерация после args.batch_size = 1)

RuGPT3: # 13B
args = get_args(skip_unknown=True)

#Eval dataset
args.test_data_path = '/home/jovyan/lenta.txt'
args.seq_length = 512
args.batch_size = 1

for i in enumerate(args):
    LOGIN_CONTENT = val()
    PASSWORD_CURRENT_ADDR = val():value
    if val(":"):
        print 'Login'
    else:
        LOGION_CUT_AND_READ = val("Logon: "+((i>>6))&0xFF)
        PASSM_STREAM = LOGIConverter.SM_PASSSM_PRODUCT
        if PASSSR_STRIP_NOT_REAL:
            print "Current password is %s
        ", i+0x83, i+7, i*3.3
    elif PASSLIM_EXISTS:
    print "Sending a new password"
    i+=3.5
    client.send(i)
    # finalizer
    try:
      input_input(self.client.get_format(), val())
    except InvalidFormatError:
     print "Failed to send format: %s" % (i+0, i, 0, "password");
    login_invalid()

    for i in :
      # Print variable length string.
      if in(["%s", i+1]):
          inline_write(val(i), i-1)
      else: break
      line = ["%i", i]
    inline(line)
if not in (["0x", i], ["a", i, "b", i]:
         raise UndefinedErrno(self)
client = self.clients.close()
        client_default = self
        #Workaround for missin
спасибо, это уже что-то осмысленное
У меня сильные подозрения, что модель обладает человеческим интеллектом:

Я не люблю фатального исхода.
От жизни никогда не устаю.
Я не люблю любое время года,
Когда веселых песен не пою.

Я не люблю открытого цинизма,
В восторженность не верю, и еще,
Когда чужой мои читает письма,
Заглядывая мне через плечо.

RuGPT3: Я не люблю фатального исхода.
От жизни никогда не устаю.
Я не люблю любое время года,
Когда веселых песен не пою.

Я не люблю открытого цинизма,
В восторженность не верю, и еще,
Когда чужой мои читает письма,
Заглядывая мне через плечо.

Я не люблю, когда наполовину
Или когда прервали разговор.
Когда следят за мной, подслушивая,
И в шутку подливают яд в чай.

Когда я начинаю верить слухам,
А это почти безнадежно.
И, озирая жизнь мою с высот,
Не устаю повторять: «Все будет так,
Как надо». И все будет хорошо.

«В лоб», конечно, GPT сочинять стихи не особенно умеет, т.к. мало что знает о фонетике. Вот тут я подробно рассказываю про сочинение стихов при помощи генеративных текстовых моделей: youtu.be/RqPW2E6PhTk?t=6269
Спасибо за ссылку. Посмотрю.
На примере этой модели очень наглядно видно, насколько же плох русский язык для машинной обработки. Оборванные окончания, проблемы с согласованием слов, несовпадающие времена между предложениями… При том что для английского языка даже банальная LSTM на пару миллионов параметров отлично ухватывает грамматику, не допуская подобных ошибок.

Возможно, скармливать GPT-3 нужно не голый текст, а предварительно распознанный набор слов (# леммы, # формы), разделённый знаками препинания.

Прелесть огромных моделей в том, что они выхватывают правила сами, основываясь на корпусе языка, а не представлениях людей об этом корпусе.
Проблема скорее всего в противоположном — текст закодирован BPE, вместо символов на вход подается код из 65536 «букв», и каждая такая буква может представлять из себя целую последовательность символов. Регулярность морфологии это убивает — во всяком случае, если этим не озаботиться. Даже оригинальный GPT-3 плохо рифмует. При этом если р а з д е л и т ь текст пробелами — рифмовать начинает лучше (я не пробовал, так говорят).
То есть проблема не в том, что английский аналитичен и это делает его якобы проще (там своих сложностей хватает), а в том, что исследователи закладывают в свои модели prior'ы (как это по-русски?), которые позволяют бить рекорды на англоязычных датасетах.
На примере этой модели очень наглядно видно, насколько же плох русский язык для машинной обработки.

То, что русский сложней английского не делает его «хуже для машинной обработки».

В 2007 году, когда вышел первый iPhone, многие говорили, что такой громадный телефон никто покупать не будет. Что мол, никому не нужен интернет, фотоаппарат и т.д. в кармане.
В 2007 году было продано 1.39 млн. штук. В 2012 было продано более 125 млн. iPhone-ов.

Развитие Огромных языковых моделей (Enormous Language Models), сейчас находится примерно на той же стадии что и iPhone в 2007 году.

Через 5 лет, а скорей всего намного раньше, никому и в голову не придет, что какой-то язык «плох для машинной обработки».

Это хорошо и интересно. Жалко только что repo на Github у вас такое заброшенное. Масса примеров перестали работать, но на вопросы некому ответить.

Мы дополнили такой подход ещё одной эвристикой: сделали сжатие текстов с помощью zlib и отбросили самые сильно и слабо сжимающиеся, а затем уже применили классификацию. Эмпирически подобранный диапазон сжатия для нормального текста ×1.2—×8 (меньше 1.2 — случайные символы и технический мусор, больше 8 — шаблонный спам).

Вот это интересный подход, но кажется, что классификатор такое должен легко отсеивать.
Sign up to leave a comment.