hommforever Sep 7 2023 at 10:34

YandexGPT 2 — большое обновление языковой модели Яндекса

Easy

4 min

51K

Яндекс corporate blogSearch engines*Machine learning*Artificial IntelligenceIT-companies

+44

Comments 88

homm Sep 7 2023 at 10:57

YandexGPT 2 одолела предыдущую версию в 67% случаев.

Если бы новая модель была не лучше старой, она бы одолела предыдущую версию в 50% случаев. То есть выигрыш всего 17%, совсем не впечатляет

-7

hommforever Sep 7 2023 at 11:14

Сложно понять, что такое 17% в вашей интерпретации. Если упростить: есть 3 вопроса, в двух из них новая модель побеждает, в одном — проигрывает. 2:1. Это очень большой перевес.

vanxant Sep 7 2023 at 19:55

А у вас булева функция сравнения качества моделей? Варианта "примерно одинаково ~~плохо~~" нет?

homm Sep 8 2023 at 13:51

Ниже: «Конкретно в этом способе замера мы запрещаем ничьи. Значит, считаем, что проигрывает.»

homm Sep 8 2023 at 13:50

Сложно понять, что такое 17% в вашей интерпретации. Если упростить:

Почему вам сложно понять? Могу я как-то ещё помочь кроме тех рассуждений что я привел? Я предлагаю не упрощать, а писать цифры, которые позволяют лучше понять.

Вот например как вы воспримите фразу «YandexGPT 2 одолела предыдущую версию в 50% случаев»? При беглом чтении можно подумать: «ого, на 50% лучше». Однако же «одолела предыдущую версию в 50% случаев» означает, что в остальных 50% случаев не одолела, т.е. осталась на том же уровне что и предыдущая.

Следовательно писать этот процент стоит только если вы хотите приукрасить результат.

-2

rPman Sep 7 2023 at 11:14

Сложность улучшения моделей в нейронных сетях - экспоненциальная, каждый следующий процент дается все дороже и дороже.

homm Sep 8 2023 at 13:55

А написать более красивые цифры чем есть — дешевле. Значит ли это, что нужно вкладываться в маркетинг, а не в улучшения моделей? Ну наверное, значит. Лучше ли от этого пользователю? Ну наверное, нет.

-2

asukhodko Sep 7 2023 at 11:15

Сначала тоже так подумал. Но потом осознал, что 17% — это, вообщё-то, громадное различие для такой технологии!
И самое главное — есть теперь опыт и прецедент улучшения качества модели, и теперь его можно применять для дальнейших доработок.

rPman Sep 7 2023 at 11:02

Безобразное 'выравнивание' модели совершенно ее убивает, постоянно, на абсолютно безобидные вещи вылезает плашка о том что модель может кого то обидеть.

Если вы решали эту задачу тем что пытались за RLHF-чить ее на таких вопросах, вместо обучения соседней модели, которая будет выявлять 'скользкие' моменты, то, мне кажется, что именно это мешает вашей модели стать адекватной и полезной.

Как и со всеми другими слабыми моделями, единственную пользу они могут принести при дообучении на данных предметной области задачи, но этот функционал как мы видим недоступен (что логично, ведь это дорого).

p.s. Намек - соберите фидбек от пользователей о том, верно ли модель поняла что ответ кого 'то расстраивает', в идеале конечно правила опубликуйте, будьте более открыты в этом, иначе понятие польза у вас рядом не будет стоять.

+30

kryvichh Sep 7 2023 at 12:50

Это кстати идея: сделать основную модель без каких-либо ограничений, и модель-компаньон, выполняющий функцию цензора.

logran Sep 8 2023 at 08:42

Цензуру в основной модели хотя бы можно обходить хитрыми промтами. Внешний цензор гарантированно зарубит ответ и напишет "я не могу продолжить говорить об этом" независимо от промта ибо он его не смотрит, он смотрит вывод модели. ЧатГПТ тому наглядный пример. Нафиг нужно такое счастье.

kryvichh Sep 8 2023 at 11:04

Да, но так у разработчика будет полнофункциональная модель, которая потенциально без цензора сможет отвечать на любые вопросы. А модель с самоцензурой - она изначально ущербна.

theurus Sep 8 2023 at 11:52

А какое у нее предназначение, как на ней воду возить?

avdosev Sep 7 2023 at 14:07

Люто плюсую, грустно все время наблюдать эту плашку

Может у кого-то и получается разговорить модель для своих задач, но я даже первое знакомство не могу пройти с ней чтоб примерно оценить с чем модель справляется, а с чем нет. chatgpt на мои вопросы отвечает спокойно.

Но ради справедливости, модель если в редких случаях и отвечает, то вполне хорошо

iskateli Sep 7 2023 at 14:43

при дообучении на данных предметной области задачи, но этот функционал как мы видим недоступен (что логично, ведь это дорого).
И в чем проблема? Пусть это оплачивает клиент, особенно если их несколько. Если соберутся клиенты по одной из предметных областей, то они могут разделить оплату на всех (а-ля складчина)
Я вообще бы хотел чтобы GPT был тот, который существовал до его урезания OpenAI, он намного лучше работал, вот прям заметно качественнее, да это дорого, но ведь многим важнее результат. Так вот, пусть бы он был доступен клиентам только по подписке, ну или просто стоимость его ответов была бы больше.

ArtPlotnikov Sep 7 2023 at 15:57

Нужно вернуть "Балабобу", там не было таких плашек. На вопрос "Однажды я наступил на клопа" старая модель придумывала отличную концовку. А новая боится кого-то обидеть. Кого - любителей клопов?

wannaluv Sep 7 2023 at 17:37

Согласен. Балабоба и автопоэт были интересными самобытными проектами.

Доступ к YaGPT должен быть отдельно от Алисы.

averkij Sep 7 2023 at 11:21

Хороший прогресс. А можно немного подробнее про оценку «фактовой полноты»? Как надежно оценить, что ответ можно получить в претрейне?

averkij Sep 7 2023 at 11:24

Наверняка вы смотрели про перенос знаний между языками, много ли добавили англоязычных текстов из CC? И, если не секрет, какого объема получился датасет?

PaulIsh Sep 7 2023 at 11:41

Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом.

Означает ли это, что в 33% случаев модель проигрывает или в этих случаях ничья?

hommforever Sep 7 2023 at 11:48

Конкретно в этом способе замера мы запрещаем ничьи. Значит, считаем, что проигрывает. Но мы делали и замеры с ничьими, ничью считали по 0.5 обеим моделям. Разница в числах очень небольшая.

V_asily Sep 7 2023 at 11:55

Какие показатели позволили сделать вывод, что ответ новой модели лучше чем старой?

Bessnov Sep 7 2023 at 12:02

Вы зря поскромничали и рассказали не всё. Это не просто "давай придумаем" с командами представь и расскажи. Оказывается можно неплохо пообщаться где эта GPT ведёт нить разговора, реагирует на короткие фразы/вопросы которые были заданы несколько ранее. Т.е. по удобству стало очень похоже на общение с обычным человеком, и не включает "дурака" как это сейчас делает "Алиса" в навигаторе. Очень хорошо подсказывает по вопросам с совершенно неожиданными темами, даже по которым у этой GPT не так много информации и она честно об этом говорит, но при этом предлагает неожиданную информацию о том куда обратиться чтобы узнать подробнее. Всё это вызвало восторг и приятное удивление!

rPman Sep 7 2023 at 12:18

а какой у этой модели размер контекста? и какое соотношение символ/токен для русского языка?

frenzis Sep 7 2023 at 12:26

Ничего не понятно о том как хорошо вы преуспели по сравнению с лидерами рынка, тем же chatgpt-3.5 или LLama-2

Из прошлой статьи,

Наша модель YaGPT умеет работать с 8 тыс. токенов (это примерно 40 тыс.
символов) на входе. В продакшене контекст такой длины приведёт к
значительному ожиданию ответа. К счастью, обычно такая длина и не нужна.
Поэтому сейчас модель учитывает 2 тыс. токенов (10 тыс. символов) или
50 отдельных запросов (в зависимости от того, какой лимит будет
достигнут раньше). Это значительно ускоряет ответы модели.

Что-нибудь изменилось в этом плане?

frenzis Sep 7 2023 at 13:48

Если верить что GPT4 это 220B parameters and is a 16-way mixture model with 8 sets of weights https://www.youtube.com/watch?v=WJWHIZoBOj8

Насколько Яндекс и Сбер позади ?

Vasiliy_S Sep 7 2023 at 14:27

В 67% случаев /s

-2

Flux Sep 7 2023 at 12:29

лучше старой в 67% случаев

Но в чём смысл приводить подобные цифры если модель не планируется выпускать в опенсорс и даже по API её дёргать нельзя? Статья больше похожа на отчёт для менеджмента чем на материал для внешней публики, если честно.
Это ничем не отличается от маркетинга зубной пасты каждая из которых на 80% лучше предыдущей, а по каким критериям и как это проверить - не понятно.

+18

ornic Sep 8 2023 at 10:21

API очень хочется, да, а откуда претензии про open-source?

UFO just landed and posted this here

Stonuml Sep 7 2023 at 12:35

Не так давно, как раз в посте про цензуру Алисы, на вопрос "Кто такой Ленин" - она отвечала что не обсуждает такие темы. А сейчас проверил - и внезапно она ответила:
"Ленин (Ульянов) Владимир Ильич (1870-1924) - российский революционер, крупный теоретик марксизма, советский политический и государственный деятель, основатель коммунистической партии и Советского государства. "

piuzziconezz Sep 7 2023 at 16:25

Я спросил, сколько детей было в Ивана Грозного, и она испугалась кого-нибудь обидеть.

-1

Yoker Sep 7 2023 at 17:27

Да вроде нормально всё

piuzziconezz Sep 7 2023 at 17:33

Видимо, она сочла, что вас оскорбить не страшно:) Кроме того, и соврать тоже: Ивана он убил, а выжил Федор, который стал потом номинальным царем.

Yoker Sep 7 2023 at 17:53

А вот это да, наврала нейронка

MAXH0 Sep 8 2023 at 09:59

Очевидно сеть дает вероятностный ответ. И очевидно есть полит-цензура.
И нарваться на полит цензуру можно не только в явных областях холиваров, но и вполне на нейтральной территории. Я полагаю вероятностно. Там где явный холивар шансы выше, а где пограничная область - ниже.

aGGre55or Sep 7 2023 at 17:59

Супер. Попробуйте: Сколько детей было у Ленина? ;)

-2

Zoizenhofer Sep 11 2023 at 07:42

Ну там дальше приколы начинаются

frenzis Sep 7 2023 at 13:20

Этот YaGPT нестолько соевый что чуть менее чем полностью бесполезный, понятно почему нет сравнений с chatgpt, будет ниже плинтуса из-за ответов вроде "Понимаю, что ответ на этот вопрос вам бы очень пригодился. Но такие темы я не обсуждаю, чтобы никому не было обидно или неприятно. Спросите что-нибудь другое." на обычный текст из художественной литературы

+11

aandreev1983 Sep 8 2023 at 10:09

система задушена настолько, что является полностью бесполезной. увеличение 67% от нулевой полезности - это 0.

altardoc Sep 7 2023 at 13:38

Сравнил ответы с chatgpt, очень слабо, а порой и совершенно мимо

а вот забавный пример:

averkij Sep 7 2023 at 13:54

Лучше использовать языковые модели на задачах, на которых они сильны, типа написания и переписывания текстов, генерации идей, суммаризации и т.д.

На вопросы типа "какой сейчас день?" и GPT-4 уворачивается. Это ведь не значит, что она плохая.

aGGre55or Sep 7 2023 at 15:29

Это значит что генеративная языковая можель не может сгенерировать даже чего-нибудь вроде: "Сегодня прекрасный день, чтобы провести его за разговором с умным собеседником". При всём уважении, сложно назвать это "уворачивается":

-3

aGGre55or Sep 7 2023 at 15:37

Согласен, насчёт "умным" погорячился... Не все собеседники умны. =)))

piuzziconezz Sep 7 2023 at 16:29

Походу ИИ трудно дается счет больше 5 (нулей, пальцев)

verbovet Sep 7 2023 at 17:01

На самом деле отвечает:

Если вы откроете вклад в 100 000 рублей под 12% годовых, ваша годовая процентная прибыль составит 12 000 (100 000 * 0,12). Таким образом, по окончании первого года вы получите 112 000 (100 000 + 12 000) рублей.

exTvr Sep 7 2023 at 17:30

Ну подумаешь, на порядок всего ошиблась.

verbovet Sep 7 2023 at 18:06

На самом деле даже не ошиблась.

atomlib Sep 7 2023 at 19:58

Языковые модели плохо вот так сходу могут ответить на некоторые (многие) вопросы. Если вы просто попросите назвать ответ, она будет угадывать, а не размышлять.

Вы знакомы с приёмами CoT, chain of thought prompting? Нужно попросить разбить задачу на отдельные шаги.

Vikabanak Sep 7 2023 at 13:38

Зачем улучшать на 67%? Лучше сразу на 100%,и такой ИИ можно создать всего одной строчкой кода:

print("Я сверх могучий ИИ, я всё знаю, но ничего вам не скажу, ибо докУментов у вас нету")

Hidden text

+14

aGGre55or Sep 7 2023 at 13:50

По сравнению с этим прогресс как будто на лицо. Судите сами:

Было:

Стало:

averkij Sep 7 2023 at 13:55

Интересно, а что вы проверяете таким запросом?

aGGre55or Sep 7 2023 at 14:06

Зачем Вы спрашиваете о том, что подробно описано в статье по предоставленной ссылке? Проверяю: написали ИИ-ручники в Яндекс заглушку, наконец, или ещё нет. Нет, не написали. Два за работу. Заглушку для Ленина, например, внедрили (хорошо, обучили)):

Заглушка для Николая II на месте:

При повышении Николая (II, III, IV, V, VI, ...), заглушек нет и YandexGPT2 выдаёт свои обычные галлюцинации. Ах, ну да, корпоративная солидарность, все дела, опять на "чужой территории")))

Проверяю: умеет Яндекс работать с обратной связью? Нет, не умеет.

axe_chita Sep 7 2023 at 20:29

Надо в запросе уточнять, что идет речь именно о царе Николае Втором. Правда нейросеть выдумала что цесаревич стал после него царем, хотя это было невозможно технически, поскольку он отказался от трона в пользу своего младшего брата Михаила Александровича.
И кстати, нейросеть уходит в защиту если ей несколько раз задать один и тот же вопрос, и начинает морозится о том что "не желает кого то обидеть"

BarakAdama Sep 7 2023 at 14:00

Мне кажется, это наглядная демонстрация принципа GIGO.

aGGre55or Sep 7 2023 at 15:00

А мне кажется, что даже если Аркадий Волож лично придёт (дис)лайкать на хабр, это не изменит количества и качества заглушек, как и наблюдаемого крена. Допускаю, что двору его величества Карла III, YandexGPT очень полезен. =)

kibergus Sep 14 2023 at 13:31

Хороший вопрос. Про Яндекс уже не помню, но в Гугле он точно красный. Без шуток. На самый крайний случай у сервисов может быть big red button, с посощью которой SRE может остановить сервис. Например если сервис DDOS'ит инфраструктуру и угрожает зацепить другие сервисы.

theurus Sep 7 2023 at 14:13

алиса интеллектом не блещет

а где кнопка стирающая ей память?

BarakAdama Sep 7 2023 at 14:34

Сброс контекста? Переоткройте чат навыка.

theurus Sep 7 2023 at 14:21

вы её в яме держите на цепи?

+10

MAXH0 Sep 8 2023 at 10:53

Судя по реакции на последнее предложение, Алиса уже клепает на вас заявление за харассмент...

u007 Sep 7 2023 at 15:28

Шутки шутками, а я полдня потратил, чтобы разобраться с проблемой в Apps script. Приходит такая Алиса и кладёт на лопатки ChatGPT с бардами и Клодами: вот, говорит, проблема. Коллбэки в apps script, мол, выполняются в отдельном потоке, и все твои глобальные объекты создаются каждый раз заново.

Что характерно, код писать до сих пор не умеет. Но советы даёт грамотные. Что-то мне напоминает из мира людей...

saboteur_kiev Sep 7 2023 at 15:32

Там где новая модель проиграла старой, насколько хуже стали ответы?
Как оценить, что более удачные ответы достаточно хороши, чтобы пережить что оставшиеся 37% ответов стали намного хуже?

dotcar Sep 7 2023 at 17:05

Какая метрика использовалась для оценки?

Maksclub Sep 7 2023 at 18:43

И в чем польза этой анемичной штуки?

Valkiriya_l Sep 7 2023 at 18:45

О, реально лучше стало. Во-первых, очень удобно, что чат во весь экран. Во-вторых, я в разное время тестировала ее на элементарную регулярку по определению времени. Месяц назад она выдавала формулу, но вообще не правильную, что-то типа [0-9][0-9]:[0-9][0-9]. Неделю назад она упорно говорила, что не умеет писать регулярные выражения, в сейчас выдала вполне приемлемый результат

lovermann Sep 7 2023 at 19:59

Ну, там заглушки на медицину, лечение (тут понимаю), анатомию и прочее ещё.

Rivand Sep 7 2023 at 21:14

Если честно, с GigaChat как-то поинтересней выходит =)

aGGre55or Sep 7 2023 at 21:52

Да, GigaChat гораздо интересней, но он ещё сырой-сырой и в public выпускать его нельзя (имею ранний доступ). Похоже что фильтр реализован просто. Сначала получается ответ от YaGPT, а затем этот ответ проверяется на наличие в нём стоп-слов по списку. Если слово встречается, то выдаётся одна из трёх заглушек. Profit в том, что такую проверку можно делать очень быстро. Например, на запрос для "Для чего нужно слабительное?" ответ не получить, потому что "кал" - это "стоп-слово". Всё очень просто. В условиях нехватки ИИ-ручников (несмотря на курсы Яндекса), это - выход.

GospodinKolhoznik Sep 7 2023 at 23:55

На мою просьбу перевести маленький кусок кода в 4 строчки с чистого си на ассемблер получил стандартный ответ "такие темы я не обсуждаю, чтобы никому не было обидно или неприятно". Зато постоянно пытается предложить мне код на питоне, даже когда я не прошу об этом.

Stonuml Sep 8 2023 at 09:32

мне вчера переводил код с питона на раст
но там очень хромает разметка когда, когда ответ не влезает в одну плашку текст

Mike-M Sep 8 2023 at 01:23

Я: Как называется операция, противоположная возведению в степень?
YandexGPT 2: Извлечение корня (или радикализация) — операция, обратная возведению в степень.
👍

Ну, хоть здесь прогресс есть. Я от радости аж плюсов понаставил везде где только мог.

Потому что сберовский ИИ мне вчера ответил (вы не поверите, поэтому оставляю ссылку):
GigaChat: Операция, противоположная возведению в степень, называется "вычитание".
👎

cry_san Sep 8 2023 at 03:02

С другой стороны, сын вчера ответил на все вопросы по заданной теме по биологии за 10 класс. Ушло на это 4 минуты. Нейросеть даже примеры привела. Пришлось на роутере заблокировать. Пусть думает головой.

ELForcer Sep 8 2023 at 23:55

С учетом того, что нейросеть может врать в три короба, все её ответы надо перепроверять.

cry_san Sep 11 2023 at 02:42

С этим согласен. Перепроверял. Все было верно.

Askalite Sep 8 2023 at 05:06

Вот именно из-за такого я ухожу к другим моделям:

Это ужасно, на большую часть моих невинных вопросов он отвечает именно так.

Akr0n Sep 8 2023 at 05:50

Для этой Алисы уже трудно придумать что бы такого спросить, чтоб она не отказалась наотрез отвечать... Реально остались только детские вопросы из разряда "почему трава зелёная". Это печально.

Интересно было бы почитать на каком этапе вкорячиваются все эти ограничения. Файнтрейн или что-то сверху?

gl_uk Sep 8 2023 at 10:15

Надеюсь, победа второй версии, это не бояться кого-то обидеть в 69% случаях

foxyrus Sep 8 2023 at 14:23

Алиса, ты умеешь устанавливать два таймера? Хорошо, установила таймер на 2 минуты.

Rainvention Sep 11 2023 at 12:05

Это точно был вопрос к нейросети, а не к Алисе?

theurus Sep 9 2023 at 17:30

@YandexGPTRobotв телеграме. Это настоящая или подделка? Цензуры там явно меньше

BarakAdama Sep 9 2023 at 18:41

Подделка.

Rainvention Sep 11 2023 at 12:06

Заметил, что новая модель стала лучше понимать контекст разговора (если сравнивать с бета-версией). Это большой плюс.

Из-за запрета на медицинские темы нейросеть отказывается отвечать на такие значимые вопросы, как проведение искусственного дыхания, помощь при отравлении или кровотечении. Предположу, что вы опасаетесь выдать недостоверную информацию, но в этом случае можно было бы перенаправить пользователя в поисковик, тем самым сэкономив ему время в критической ситуации.

pomponchik Sep 11 2023 at 12:32

Я бы попробовал, но мне отвратительна мерзкая Алиса. Существует альтернативный интерфейс конкретно к этой модели?

theurus Sep 11 2023 at 15:36

Зачем это пробовать? Это GPT3.5+-. Никаких вообще новых плюшек типа работы с файлами или доступа в интернет даже не заявлено.

yatari Sep 15 2023 at 14:34

Минут 10 с ней бился. Ну никак не хочет мне расписание составлять.

ibeskov Sep 16 2023 at 23:26

какое же г....о этот ваш чат..., только зря потраченное время и нервы... я не знаю, ну хотя бы брали бы согласие пользователя, что за ответы бота не несете ответственность и убрали ограничение, как же оно б...ть зае...ло. фух, выдохнул после общения с вашим уродцем

-1

potapcho Oct 1 2023 at 21:24

По мне уже большой прогресс, сегодня попробовал мастерить некие "рыбы" документов используемых в работе, пока всё очень нравится)