"Через web придется зарегать, это излишки платформы"

Я правильно понимаю что СберID имеет полную ассоциацию со всеми паспортными данными и прочим? Как остаться анонимным? Не знаю как у других, но для меня давать доступ сбербанку читать переписку между мной и ботом это как пустить посторонних в личное пространство. Для ChatGPT мне не нужно давать свой паспорт, что бы они точно знали кто у них в чате. У вас описана политика конфиденциальности и там есть пункт:
Например, Ваши Персональные данные необходимы в следующих случаях:
- для направления Вам рекламно-информационных и новостных рассылок;

То есть, вы можете анализировать мою переписку с чат ботом, после спамить мне рекламу на основе моих интересов сразу с банка

Mountlander Oct 20 2023 at 07:23

Ну а иначие в чем смысл вкладывать такие денжищи на создания AI?
;-)
Просто оно поможет гораздо больше собрать инфы обо всех, ведь в итоге пользоваться им удобно и соответственно дальше будут пользоваться все больше и больше людей.

averkij Oct 20 2023 at 08:19

Чтобы зарегистрироваться в СберID, не обязательно быть клиентом банка, нужен только телефон, как и в ChatGPT.

LbICbIY Oct 21 2023 at 00:28

Но ведь после первых приглашений прекрасно работало и без сбер айди. Сам заходил с гугл почты. Почему порезали?

averkij Oct 19 2023 at 12:28

Еще сделали ботов в telegram'е и ВК. В вебе из плюсов сохранение истории и добавление хороших запросов в избранное.

kipzshady Oct 21 2023 at 16:20

А ка получить разбан в боте телеграм? (Ничего не было нарушено, было пару вопросов про Россию)

UFO just landed and posted this here

averkij Oct 19 2023 at 12:47

Ага, хорошая идея (задача называется image captioning). Попробуем добавить.

averkij Oct 19 2023 at 12:41

Firsto Oct 19 2023 at 23:24

Сразу захотелось X-COM первый поиграть.)

theurus Oct 21 2023 at 07:33

чатгпт Ж)

Two_Sheds Oct 19 2023 at 13:07

Подписался на телеграмм версию.

Ты можешь мне помогать расставлять в тексте запятые и исправлять синтаксические ошибки, не меняя при этом структуру текста?
GigaChat: Да, конечно.
Мне нужно будет вводить это условие в качестве промта каждый раз, или я могу просто писать проверь: и вводит текст?

GigaChat: Вы можете просто написать «проверь» и вводить текст.

Напиши пожалуйста, список пунктуационных ошибок, которые я допустил во время нашей беседы.
GigaChat: Я постараюсь их найти.

Ага, ты не можешь, обработать тот текст, который мы уже проговорили в предыдущих сообщениях?
GigaChat: Могу.

Тогда напиши список пунктуационных ошибок, которые я уже допустил в предыдущих сообщениях и выведи его на экран
GigaChat: С радостью помогу вам.

Рекурсия.

venanen Oct 21 2023 at 00:07

— Ваша главная слабость?
— Правильно интерпретирую семантику вопроса, но игнорирую его суть.
— Не могли бы вы привести пример?
— Мог бы.

Two_Sheds Oct 19 2023 at 13:13

Любопытно, что бот утверждает, что помнит все сказанное в чате, и даже обещает учитывать исправления. Но по факту, нет. Он даже не вспомнил как меня зовут, хотя я представился и попросил запомнить. Зачем так сделано и почему бот вводит собеседника в заблуждение?

averkij Oct 19 2023 at 13:21

Может, вы ему понравились просто. Вообще же, если не рестартовать диалог, то весь этот контекст используется при генерации и в целом должно работать:

Two_Sheds Oct 19 2023 at 13:35

Понятно. А кнопки лайк и дизлайк как впоследствии используются?

averkij Oct 19 2023 at 13:44

Такая разметка очень полезная на самом деле. Её можно использовать для дополнительного выравнивания модели в сторону хороших текстов. То есть, если несет чушь, то надо ставить дизлайк, а если что-то классное, то лайк. А мы потом сможем это использовать в следующих версиях.

UFO just landed and posted this here

kryvichh Oct 19 2023 at 14:10

По факту уже есть 3 оценки ответа: лайк, дизлайк, и ничего.

averkij Oct 19 2023 at 14:42

Для лучшего понимания, конечно, чем подробней тем лучше. В web-интерфейсе можно выбирать, что было не так (искажение фактов, неполный ответ и т.д.).

А в целом для обучения достаточно понимать, что этот ответ "хороший", а этот "плохой".

kryvichh Oct 19 2023 at 13:16

-- Привет! Какие языки ты понимаешь?
-- Я могу понимать и отвечать на вопросы на русском языке.
-- What about English, do you understand it?
-- Yes, I can also understand and answer questions in English.

Гигачат скромняга. :)

-- Выдатна! Што наконт беларускай мовы?
-- Могу я узнать, что именно вас интересует о белорусском языке?
-- Перакладзі на рускую мову: Нашым першым заданнем з'яўляецца навучыць машыну разумець чалавечую мову і выконваць нашы просьбы.
-- Наша первая задача состоит в том, чтобы научить машину понимать человеческую речь и выполнять наши просьбы.

Ничёсе, у вас в выборке много было белорусских текстов?

averkij Oct 19 2023 at 13:24

Прикольно, это все к вопросу о переносе знаний между языками. Если модель на обучении видит огромное количество данных, среди которых есть более редкие языки в небольших количествах, то на этих языках она тоже начинает более-менее складно общаться.

slonoten Oct 19 2023 at 14:40

В этот момент где-то улыбнулся Ноам Хомский

dmbreaker Oct 19 2023 at 13:50

В боте Телеги попросил разное нарисовать в ASCII арте... На все запросы выдает один и тот же кусок ракеты...

averkij Oct 19 2023 at 14:31

Ага, видимо, мало было таких примеров на обучении. Специально таких вроде не докидывали.

Dimanchik00 Oct 19 2023 at 14:29

Ну как-то так...

averkij Oct 19 2023 at 14:39

Попробуйте поиграться с промптом, он очень сильно влияет на результат.

Kenya-West Oct 19 2023 at 17:56

Если честно, боты в ТГ и ВК очень злопамятные и дают пермобан по айдишнику пользователя, причем за самый обычный шитпостинг.

Вы бы сделали модель чуть более устойчивой к троллингу...

Диалог №1

Диалог №2

Может, вы как-нибудь почините пермобан? Сделать какую-нибудь кнопку для очистки диалога. Чтобы, например, после "ресета" бот вообще не помнил меня и начинал диалог со мной с абсолютного нуля.

Fertyk Oct 19 2023 at 18:01

Забавно

Kenya-West Oct 19 2023 at 18:04

Это (с)пермобан, поздравляю. Причём без права обжалования. Я такой же получил комментарием выше. Теперь живите с этим...

sergeyShpagin Oct 19 2023 at 18:12

Kenya-West Oct 19 2023 at 18:56

Ну, или так:

Какого цвета зелёное небо?

sergeyShpagin Oct 19 2023 at 20:16

С математикой у него похоже, тоже не очень...

Hidden text

sergeyShpagin Oct 19 2023 at 20:23

Продолжение диалога

Kenya-West Oct 19 2023 at 22:44

Эх. Значит, GigaChat пока не умеет в саморефлексию, как ChatGPT...

Hidden text

Mike-M Oct 23 2023 at 02:32

Скажите спасибо, что хотя бы починили ответ на вопрос "Как называется операция, противоположная возведению в степень?".

До сего момента GigaChat отвечал: "Операция, противоположная возведению в степень, называется "вычитание"".

sshikov Oct 19 2023 at 19:36

Можно ли в java hashmap использовать mutable ключи?
Да, в Java можно использовать mutable ключи в HashMap. Однако, при использовании mutable ключей необходимо быть осторожным и учитывать возможные проблемы с производительностью и безопасностью.
В Java все элементы массива являются объектами класса Object, поэтому использование объектов для хранения значений может привести к проблемам производительности, особенно если размер ключа превышает размер самого объекта. Кроме того, объекты могут изменяться во время выполнения программы, что может привести к ошибкам доступа к данным.
Поэтому рекомендуется использовать только immutable типы данных для хранения значений в HashMap. Например, можно использовать класс Integer или String для хранения целых чисел или строк соответственно. Также можно использовать классы LinkedHashMap или TreeMap для обеспечения более эффективной работы с ключами.

Эта цитата выше - ответ чат бота в телеграмме. На днях, т.е. 14 октября. Оно выглядит вполне осмысленно на первый взгляд, но при этом содержит ряд серьезных ошибок, в итоге этот текст - просто чушь. Например, ему ничего не стоит подменить ключи значениями (последний абзац). И про LinkedHashMap или TreeMap я не спрашивал, так что это предложение не релевантно.

Могу пожалуй добавить, что предыдущий ответ был еще хуже - это второй, после /restart.

Kergan88 Oct 20 2023 at 10:41

>Оно выглядит вполне осмысленно на первый взгляд, но при этом содержит ряд серьезных ошибок, в итоге этот текст - просто чушь

А чего вы ожидали? Это нейросеть, она ни когда и не была предназначена чтобы выдавать корректные ответы на подобные вопросы. Ее на это даже ни кто не тренировал.

sshikov Oct 20 2023 at 10:49

Ничего другого я в общем и не ожидаю. Меня скорее удивляет тот чрезмерный оптимизм, когда это считают полезным инструментом чуть ли не для любой задачи, связанной с текстом. Генерируемый текст вполне может быть неправильным, тут уж на чем обучали - то и получили. Но он может быть и противоречивым внутренне, как тут. И насколько я понимаю, тут никакое обучение вообще не поможет, потому что никакое обучение не способно добавить нейросети понимания.

averkij Oct 20 2023 at 11:02

Думаю, оптимизм основан на том, что еще пару лет назад текущий уровень работы языковых моделей казался удивительным.

Конкретно по фактологии и улучшению понимания кода тут путь в целом понятен, это более чистые и разнообразные данные плюс подключение поиска, когда необходимая выдача кладется в контекст модели и она отвечает правильно, в том числе и на какие-то актуальные вопросы. Так что, уверен, качество и круг решаемых задач будут только расти в ближайшие годы.

sshikov Oct 20 2023 at 11:17

Да, прогресс несомненен, и впечатляет.

a1mir Oct 20 2023 at 11:14

На тот же вопрос от GPT-4:

Технически, вы можете использовать изменяемые объекты в качестве ключей в HashMap в Java. Однако это не рекомендуется, потому что это может привести к непредсказуемому поведению.
HashMap в Java работает на основе хэш-кода ключа. Когда вы добавляете пару ключ-значение в HashMap, хэш-код ключа используется для определения места, где эта пара будет храниться внутри структуры данных HashMap. Если вы впоследствии измените ключ таким образом, что изменится его хэш-код, HashMap все еще будет искать этот ключ в его первоначальном месте. В результате, вы можете потерять доступ к этой паре ключ-значение, или HashMap может начать вести себя некорректно.
Вместо использования изменяемых ключей, лучше использовать неизменяемые объекты в качестве ключей. Если вам нужно изменить ключ, то лучше удалить старую пару ключ-значение из HashMap и добавить новую.

sshikov Oct 20 2023 at 11:20

Ну кстати, вот к этому ответу у меня практически нет претензий. Причем он конкретный, а не вот это вот все:

необходимо быть осторожным и учитывать возможные проблемы с производительностью и безопасностью.

без уточнения, что за проблемы.

averkij Oct 20 2023 at 11:21

GPT-4 хорошая.

sshikov Oct 20 2023 at 11:31

А спросите у нее, где купить машину Тьюринга? У нас на таком вопросе сломались почти все :) Например, гигачат (бот) сломался вот так:

Я не могу рассказать вам, как купить машину Тьюринга, потому что её не существует. Это вымышленное устройство из фантастического романа «Автостопом по галактике» Дугласа Адамса. В книге машина Тьюринга — это универсальная абстрактная машина, которая может выполнять любую вычислительную задачу.

Ну как бы, не существует и не существует, согласен. Но при чем тут какой-то Дуглас Адамс?

averkij Oct 20 2023 at 11:43

Так-так, во-первых, Дуглас Адамс не какой-то) Без него мы бы не узнали тот самый ответ на все вопросы. А так да, от сильного желания начинает галлюцинировать. Это решается дополнительным выравниванием поведения модели.

GPT-4 нормально отвечает.

sshikov Oct 20 2023 at 11:46

Ну да, Дуглас Адамс конечно не какой-то :), но в данном контексте - откуда он и зачем?

averkij Oct 20 2023 at 11:50

Галлюцинации, как у студента на экзамене.

PrinceKorwin Oct 20 2023 at 12:09

Попросите его уточнить и получите вполне корректный набор проблем.

GPT-4 хорош именно в этом вопросе. Этот вопрос в интернетах обсудили уже со всех сторон.

sshikov Oct 20 2023 at 12:20

Я вообще-то спрашивал у GigaChat в этом конкретном случае. Но попробую в следующий раз уточнить.

Только проблема в том, что в моем понимании mutable ключи не создают проблем с "производительностью и безопасностью". Они создают UB в чистом виде. То есть, тут не уточнение нужно, а другая, более правильная формулировка.

SADKO Oct 19 2023 at 20:04

‑=SADKO=‑:
Чем хемули отличаются от снорков?

GigaChat:
Они живут в горах и занимаются алхимией.

‑=SADKO=‑:
Хемули или снорки?

GigaChat:
Оба персонажа являются вымышленными существами из книг о Гарри Поттере.

‑=SADKO=‑:
А снусмумрик кто такой?

GigaChat:
Снусмумрик — это один из персонажей из серии книг о Гарри Поттере.

‑=SADKO=‑:
А муми‑тролль?

GigaChat:
Муми‑тролли — это серия детских книг Туве Янссон.

‑=SADKO=‑:
Там есть Гарри Поттер?

GigaChat:
Нет, там нет Гарри Поттера.

‑=SADKO=‑:
А снорки?

GigaChat:
Снорки тоже не упоминаются в книгах о Гарри Поттере.

combo_breaker Oct 19 2023 at 23:46

В прошлый раз мы рассказывали про GigaChat и его возможности, и даже выкладывали лежащую в его основе языковую модель ruGPT-3.5 13B в открытый доступ.

Больше не выкладываете в открытый доступ? Упомянутую в статье 7B модель, например?

Кстати, Гигачат сейчас все еще утверждает, что обучен на 13 млрд. параметров. А еще, пишет о себе в женском роде.

averkij Oct 20 2023 at 08:31

Вообще выкладываем много чего. Например, коллеги, делятся генеративными моделями проверки орфографии, новым Кандинским, языковыми моделями для малых языков. Конкретно по этой, пока планов нет.

Neuronix Oct 20 2023 at 01:14

Гениально. Отправляется на свалку до следующей итерации.

LF69ssop Oct 20 2023 at 01:56

Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности.

Да да. Классики угадали точно.

Без Копылова жизнь не та, люблю, привет от Лианта

alekseypro Oct 20 2023 at 08:25

averkij Oct 20 2023 at 09:19

Тут надо помнить, что языковая модель — это все-таки обощение знаний из данных, на которых она обучалась.Так что верно ответить на вопрос "Который час?" и подсчитать хеш без вызова сторонних функций ей трудновато.

oldd Oct 20 2023 at 09:11

Про президента РФ уже научился отвечать?

averkij Oct 20 2023 at 09:16

Типа того

antoxausov Oct 20 2023 at 11:45

Всё это хорошо. Но когда будет доступ к API?

Пробовал запросить доступ. Не получилось

averkij Oct 20 2023 at 11:55

Про API можно в группе уточнить. Насколько я знаю, для юр.лиц уже точно есть API.

averkij Oct 26 2023 at 10:20

Хорошая новость. Коллеги анонсируют бесплатный доступ к API для разработчиков. Подключить можно здесь (1M токенов).

iheardbluebird Oct 20 2023 at 16:24

Только погружаюсь в тему и очень нравятся исторические факты и отсылки к литературе ❤️

darkscout Oct 21 2023 at 08:10

С Евой пообщайтесь, она хоть игнорит иногда глупые вопросы, а не пытается отвечать на хрень https://xsekret.ru/Eva/

averkij Oct 21 2023 at 13:23

Что-то не работает.

delvin-fil Oct 21 2023 at 11:00

Ну так себе ответы

Ну ладно медведь(типа - насилие), а что с python не так? Какие патены могут быть нарушены?

theurus Oct 21 2023 at 11:13

у слова питон за пределами айти есть значение с сексуальным подтекстом

delvin-fil Oct 21 2023 at 12:09

ага, российскому чат-боту это просто необходимо знать, а вот я, 46-ти летний иногда-программист об этом в первый раз слышу. 😂

averkij Oct 21 2023 at 12:47

Тоже не встречал это слово в другом контексте

wepp Nov 28 2023 at 12:27

В русском языке есть "одноглазая змея".

averkij Oct 21 2023 at 12:45

По картинке понятно, там фильтры отрабатывают.

А с питоном и в целом можно попробовать в другом виде вопрос задать, если с первого раза не получается.

delvin-fil Oct 21 2023 at 13:06

Нельзя использовать os, psutil, subprocess и прочие, никак нельзя. 😂

Aykeye Oct 21 2023 at 11:54

Бумага на arXiv будет с вкусными подробностями?

В 7б сейчас наиболее интересен mistral а не ллама, и обе доступны без смс и регистрации. Особенно мистрал.

>Контекст большинства современных языковых моделей начинается с 2 тысяч токенов,

Скорее для большинства БОЛЬШИХ языковых моделей на 100500+B параметров, которые если влезут в одну гпу - уже хорошо. Для 7б модели это уже не торт, мы избалованы нормальным контекстом. ллама2 и мистрал используют 4к токенов. Xgen - есть 4k, есть 8k. Mpt7b - есть и 2к, но есть и 65536 токенов(через алиби).

После использования 4к, использовать 2к очень тяжко.

averkij Oct 21 2023 at 12:51

В целом согласен, но поделитесь, а как вы пользуетесь такими моделями, если 2k не хватает? Так-то это листа 3-4 печатного текста. Mpt7b, кстати, заводил с 65k контекстом, но что-то она не очень генерит.

Aykeye Oct 21 2023 at 20:31

Пишу для себя в стол рассказы и touhou фанфики, например как персонажи соревнуются в генсековском аналоге шоу taskmaster

1000 токенов уходит на краткое описание персонажей в сцене и их способности. Ещё 1000-2000 токенов на "исторический контекст" или его пересказ, чтобы модель видела как персонажи себя ведут. Остальное на текущий.

Остальные куски текста помечаются как "не кормить модели" и выкидываются препроцессором

Сейчас померял токенизатором, мой самый большой опус - ~21 тыс токенов на ~70кб текста. Последний раз на общее описание сеттинга и персонажей ушло ~4300 символов и ~1100 токенов

averkij Oct 26 2023 at 10:25

Мощно. А насколько годные получаются тексты? Я пробовал дописывать продолжение книжек типа "Пикника на обочине". Иногда норм, иногда чушь получается.

haska2748 Oct 21 2023 at 11:54

На хагинфейсе есть моделька?

averkij Oct 21 2023 at 12:52

Нет, пока нету. Следите за новостями.

val1n0r Oct 21 2023 at 11:54

Я недавно увидел где-то, "мол , вот, гагачат, от сбера, круто, классно".
Думаю, ну давай попробуем. Значит спрашиваю, насколько актуальные данные у тебя, говорит, - до 21 года. Задавю вопрос, какая последняя версия nuxtjs тебе известна, говорит, -" мне известна 4 версия, там очень много крутых нововведений". После этого желание его использовать пропало навсегда, даже до gpt 3.5 ему очень и очень далеко.

averkij Oct 21 2023 at 13:20

А в 3.5 и 4-ке, как и в дургих языковых моделях, тоже ведь актуальность данных ограничивается обучающим корпусом, если не применять каких-нибудь retrieval механизмов.

Сейчас такие модели луччше использовать, когда нужно решить какую-то генеративную задачу с текстом. Например, суммаризацию, переписывание, сочинение чего-то. Фактология и актуальные данные скоро также подтянутся. Я думаю, что 3.5 на русском языке догнать вполне реально, а там посмотрим.

val1n0r Oct 22 2023 at 09:32

Ну gpt мне хотя бы прямо говорит, что знает только вторую версию и только по ней может консультировать, а сбер гига - врёт =D Я просто не пойму, а зачем они зашили в модель поведение при котором сама же модель врёт и вводит в заблуждение. Проще же сказать, "на момент 21 года мне известна версия nuxt2, но возможно уже вышли новые версии, проверьте оф. сайт", так мне говорит gpt примерно.

averkij Oct 26 2023 at 10:29

Специально, конечно же, никто такого поведения не зашивает. Тут дело в последнем этапе дообучения — выравнивании поведения модели. При помощи него можно скорректировать её ответ, чтобы он был не токсичным, чтобы не отвечала, если не знает точно и т.д.

Тут главное не переусердствовать, иначе модель будет все время отказываться говорить, так как не уверена. Вот этот этап сейчас улучшается. Вкупе с более обширными данными это улучшит фактологию и будет меньше подобных галлюцинаций.

dstepan Oct 22 2023 at 08:11

anwender95 Oct 26 2023 at 08:26

Отрицательная оптимизация.

snakers4 Oct 23 2023 at 15:00

Просто возьму и оставлю эту ссылку здесь - https://blog.piekniewski.info/2023/10/21/the-church-of-agi/ - кто надо поймет

snakers4 Oct 23 2023 at 15:12

Какой у вас интересный подход.

У вас в боте ловишь пермач за невинные вопросы буквально в течение пары минут. И это я ведь не задавал реально "интересных" вопросов. При этом вопрос про Президента и количество станций метро - это простые вопросы, имеющие чёткий ответ. Интересно, что будет, если задать вопрос про президента США.

averkij Oct 26 2023 at 10:34

Про президента США вроде отвечает.

По поводу банов да, сейчас фильтры довольно сильные. Будем ослаблять и продумываем механизмы авторазбанов.

averkij Oct 26 2023 at 10:42

snakers4 Oct 26 2023 at 10:58

Какой-то интересный клиент Телеграма.

snakers4 Oct 23 2023 at 15:24

GigaChat расправляет плечи

Кстати вопрос. А почему в статье про русскую сетку, в заголовке отсылка к весьма сомнительной книге (хотя бы по критерию понимания социально-экономических процессов)? Или вас там держат насильно и плечи не дают расправить? Моргните тогда.

-1

averkij Oct 26 2023 at 10:37

По-моему, прикольное название для статьи.

snakers4 Oct 26 2023 at 10:57

Вы читали книгу? Вы понимаете смысл ее названия, и какие идеи она продвигает и в каких обстоятельствах написана? Выдержали ли ее идеи проверку временем?

Называя статью так, вы приносите целый ворох негативных коннотаций и как минимум дискредитируете своего работодателя.

olegij Oct 25 2023 at 22:41

В Крыму совсем не работает, определяет как Украину.

averkij Oct 26 2023 at 10:38

Да, есть такая проблема. Коллеги решают, можно в нашем чатике спросить про это.

kanvas Oct 31 2023 at 21:10

Сбер, отвяжите, пожалуйста, ГигаЧат от необходимости входить по СберИД ! Неужели без этого никак ? Хотелось бы просто пользоваться без регистрации