Markaty Jun 20 2023 at 18:31

Исследование: обучение на сгенерированных данных может привести к коллапсу большой языковой модели

3 min

7.8K

Machine learning*Research and forecasts in IT*Artificial Intelligence

+14

Comments 18

anzay911 Jun 20 2023 at 18:40

А можно дать человеку "лайкнуть" понравившиеся варианты и использовать результат как множитель веса в дальнейшем обучении.

verax_mendax Jun 20 2023 at 18:50

Смотрите, сначала мы ставим робота выполнять работу и замечаем, что он начинает деградировать. Ставим к нему человека, который "лайкает" информацию и начинаем замечать, что деградировать начинает человек...

+12

Tasta_Blud Jun 20 2023 at 22:10

тиктокоэффект

Theio Jun 21 2023 at 18:51

RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...

verax_mendax Jun 20 2023 at 18:46

Возможно, что я скажу глупость, но я всё равно её скажу.
Может ли проблема быть в том, что "роботы не спят?" Где-то читал исследование на тему сна и про то, что сон нужен не только для отдыха, но и для своеобразного "раскладывания информации по полочкам". Эдакая своеобразная фильтрация и обработка, а сны в таком случае служат как генерируемые самим мозгом заведомо ошибочные данные, которые мозг уже подсознательно использует в качестве фильтра для воспринимаемой в реальности информации.

Кто этим занимается, попробуйте "покормить" нейросети данными, которая она заранее будет воспринимать как ошибочные или сгенерированные нейросетями и основываясь на которых будет отсеивать ошибки.

Типа если входящие данные будут иметь большую схожесть с данными из этой категории, то он будет воспринимать эти входящие данные с "бОльшим скепсисом".

Расписал, возможно, сумбурно, но если будет надо, могу постараться расписать подробнее. Скорее пытался написать так, чтобы было понятна основная мысль.

nanacano Jun 21 2023 at 07:55

Мне кажется, что причина не в том что ИИ не спят, а в том что у них нет тела. Через тело и взаимодействие с реальным миром и людьми ИИ сможет обучиться так же как человек.

phenik Jun 21 2023 at 10:06

Полезность "сна" в нейроморфных сетях уже показана (статья), но они ближе по своим свойствам к биологическим прототипам, чем обычные ИНС.

verax_mendax Jun 21 2023 at 10:21

Я подобную статью вроде как читал даже. Но конкретно в данном случае я говорю не о таком "сне" как в статье, а о применимом к нейросетям о которых говорится в посте. Об обучении их на заведомо ложной информации и информационном шуме, а ля "информация со знаком минус". Типа, учить не только на той информации, показывающей "как правильно", но и на той, что показывает "как неправильно". А при возможности и давать информацию почему это "правильно" или "неправильно", но это уже нюансы.

HabrMKC Jun 21 2023 at 11:08

Право на сон, отдых, электричество, такой ИИ нам не надо. При обучении еще куда не шло, но каждый день ему спать это уже за гранью.

wavebvg Jun 21 2023 at 12:12

Ваши слова про "сон машины" выглядят не настолько бредовыми, если учесть, что кто-то решил позволить "обучаться" конечному автомату на результатах своих собственных "решений".

iBljad Jun 20 2023 at 18:53

Я тоже периодически "проводил" (невольно) подобные исследования ML-моделей: увлекаясь чем-то, долгое время не переключал треки в "потоке рекомендаций" музыкальных сервисов, в итоге на следующий день/в начале новой недели алгоритмы, обучаясь на собственных же рекомендациях, классифицировали меня как фаната чешского панк-рока, филиппинской попсы и этнических завываний :) /s

JPEG Jun 20 2023 at 19:05

А как быть с нами, кто теперь через раз читает сгенеренные тексты и постепенно забывает нормальную речь. Это ж как подростковый сленг в школе заменяет нормальный язык и потом надо какое-то время переучиваться. Вот так же мы и на ИИ сленг перейдем и на нем же будем новые ИИ тренировать.

Ztare Jun 20 2023 at 21:22

Garbage in - garbage out

SADKO Jun 21 2023 at 10:22

yes it is, but question is what is a difference between garbage and meaning

combo_breaker Jun 20 2023 at 21:54

Мне интересно обновление моделей OpenAI. Вот выкатили они на днях обновленную модель gpt-3.5-turbo, размер контекста вырос с 4k до 16k токенов. Они с нуля обучали новую модель на старых данных? (актуальность ведь снова до 21 года) Или дообучали старую? Или же это вовсе не "честные" 16k, а полученные с использованием внешнего по отношению к модели инструмента?

Mortello Jun 21 2023 at 19:23

Насчёт данных 21 года - думаю это просто актуальность fact storage, валидация свежих фактов может влететь в копеечку. Дообучение дешевле выйдет, вполне могли придумать способ конвертации 4х смежных окон по 4k токенов в одно на 16k

phenik Jun 21 2023 at 05:50

обучение больших языковых моделей на контенте, произведённом другими моделями, вызывает дегенеративный процесс, который с течением времени заставляет модели забывать истинное базовое распределение вероятностей. Они назвали это явление коллапсом модели.

Такие эпизоды были и в интеллектуальной истории человечества, наиболее известный период средневековой схоластики (осилить весь текст ;). Шуточно этот коллапс выразился в уровне решаемых задачах — Сколько ангелов может танцевать на булавочной головке? А как эту задачу решает светоч современной интеллектуальной мысли GPT?

AzQu Jun 21 2023 at 18:51

Так забавно наблюдать разговоры, что вот ИИ накапливает ошибки и превращается в кусок бесполезного кода.
А люди разве не такие же? Как назвать отдельного человека который утверждает, что Пи=3,14?