Pull to refresh

Comments 85

100 ₽ за час разве что если скинуть, видимо

Ну так многие боты либо за каждый чих денег хотят, либо GPT-4 у них нет 🤷‍♂️

За 100 руб в час можно посадить человека отвечать :-)

А как выдумаете ChatGPT работает?)

Мне отвечает:

Sure, I can give it a try! Let's see...

Ah, I see it! The mistake in the riddle is actually a missing question mark at the end of the sentence.

Да, за 100р что-то по крайней мере похожее на настоящий GPT-4 подключается.
Сейчас ее как раз тестирую:
Maksim, [02.05.2023 19:51]
I have a nice riddle for you… Can you find the the mistake? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73

Yuki Witch, [02.05.2023 19:52]
Оу! Мне нравятся загадки! 😄 А вот нашла ошибку в твоем тексте: слово «the» повторяется два раза, перед словом «mistake»! 😜 Давай продолжим, готовы ли ты предложить еще одну загадку?

А без оплаты только довольно туповатая версия GPT-3, причем похоже упрощенная/ускоренная (турбо, которая несмотря на турбо в названии немного более простая и глупая версия чем базовая 3я версия — турбо тут относится к скорости работы с небольшим ущербом качеству)

Если честно я от одного сообщения с 2 смайликами уже захотел перестать общаться с ботом. Как можно вообще им пользоваться если он пишет как девочка-подросток с низким интеллектом? В оригинальной gpt, к счастью такого нет

А кто-что может сказать про сайт you.com? Там реально GPT-4? Я спросил там нейросеть, какой она версии и вот что она ответила:

Я - ChatGPT, как и было указано в моем предыдущем сообщении. Однако, я не имею конкретной версии, так как я использую широкую и глубокую нейросетевую архитектуру, которая постоянно обучается на большом количестве данных. Моя эффективность и точность постоянно улучшаются по мере обучения и обновления данных.

А на задачу указанную в посте, как она отвечает?

Да у неё доступ к поиску в интернете, не узнаешь точно, из своей базы данных она сгенерировала ответ, или нашла в интернете.

На самом деле, вместо оригинального доступа, людям подсовывают селф-хостед модели с небольшим количеством параметров, и народ делает какие-то выводы о силе этих нейронок. Не важно какая версия, в этом и есть проблема.

Ну так классика же:
Старый анекдот:
— Так мне Паваротти не понравился, картавит, в ноты не попадает…
— Вы были на концерте Паваротти?
— Нет, мне Рабинович по телефону напел.

Мне кажется они всётаки на апи опэнаи ну да слабеньких, но они набирают датасэт по этому вижу им смысл так в массы выкатить 3.5...

На "заре GPT" (в январе:) наткнулся на сервис где отвечал человек(и). Понял по ошибкам и явному "гугляжу" между ответами.

Через пару минут он устал, сознался и отключился))).

Есть же уже боты умеющие и гуглить (первый был у Макрософта как помощник на их поисковике BING был запущен) и использовать нагугленное в дополнение к «собственным» знаниям(в параметрах нейросети). На самом деле это гибридная модель — один бот-агент читает вопросы пользователя, гуглит какую-то релевантную информацию в интернете — скармливает все найденное вместе с вопросом пользователя нейросети Chat-GPT, которая сама в интернет в принципе ходить не может, полученные от нее результат возвращает назад пользователю.

Тут где-то на Хабре в комментариях попалась ссылка на подобный бот. Для примера задал ему задачку вопрос которую сам несколькими днями до этого решал, про специфическую и относительно мало используемую софтину. Все конечно нашел, но пришлось несколько сайтов пробежать просмотреть из результатов поиска и приличное время потратить.
Результат впечатлил, за исключением пары косяков(отсебятинки) добротный такая выжимка полезной информации из загугленного получилась — примерно то же что я сам для себя перед этим «извлек» полезного из гуглежа. Только не за почти полчаса, которые потратил, а меньше чем за минуту.
Но кстати тоже далеко не мгновенно, как в обычном чат-боте. Т.к. сначала бот-посредник на одном сервере вопрос анализирует, потом гуглит(работает поисковая система на других серверах), находит и загружает подходящие к теме странички извлекает из них «значимый контент» (основное содержимое без форматирования/картинок, менюшек, рекламы и т.д.), отправляет его в Chat-GPT на еще другие сторонние сервера (по API у них доступ), та думает дольше обычного (т.к. на самом деле у нее на входе не один короткий вопрос пользователя, а вопрос плюс как минимум несколько страниц релевантного вопросу текста из нескольких разных источников) получает ответ, шлет обратно пользователю.
Плюс нагрузка от разных пользователей, а на скорость с какой по API можно запросы к оригинальной Chat-GPT дергать ограничена.
Поэтому получается что и «задумывается» и «уходит на погуглить».

В общем скоро и по таким признакам сложно будет живых от ИИ отличать.

P.S.
Вот мы уже и почти дожили до времени, когда шутка про «каптчу наоборот» (тестов для выявления человека прикидывающегося роботом), перестает быть шуткой.

Казалось бы, ничего сложного, простая проверка на внимательность. Однако, версия ChatGPT-3.5 уже не справляется с решением этой загадки,

Я Вам больше скажу — и я не справляюсь, там реально все числа от 1 до 73 без пропусков и опечаток, три раза перепроверил разными способами. В чём подвох-то?

И да, ChatGPT-3.5 прав — ошибка в том, что ему сказали, что это загадка, а по факту никакой загадки нет, что он и говорит.

Ошибка там грамматическая, в вопросе. Два раза подряд используется артикул.

Просили найти ошибку, а не опечатку. "Мы ж не на уроке русского английского языка!" (c) пол-Интернета.

Опечатка — частный случай ошибки. (с) зануда
А вообще это и не опечатка даже, а лексическая ошибка — слова все написаны правильно, но в предложении использованы как-то неправильно (в данном случае просто дублируются).

Офигеть! Вот это я понимаю наглядный пример железной (буквально) логики! :-D

Робот просто применил «thinking out of the box» (нестандартное мышление).
Очень похоже многие задачки на «креативное мышление» людьми решаются.

Можно ловить и просто по явным расхождениям в базе знаний. Например, если спросить официальный GPT-4, какой самый последний трек Sabaton ему известен, то он стабильно отвечает "Christmas Truce" (и даже знает сюжет клипа). А, например, бот AiSYS, который якобы "на основе ChatGPT4", даёт другой ответ — Livgardet. И сразу ясно, что там... всё что угодно, только не настоящий GPT-4. Вариативность ответов так не работает, тем более с "четвёркой". К тому же, пообщавшись некоторое время с тем и с другим, просто замечаешь явную разницу в поведении, манере разговора, длине ответов. Учитываем, что производных моделей на базе GPT-4 быть не может хотя бы потому, что модель не выкладывалась в открытый доступ. Соответственно, любой такой бот должен работать через запросы к API OpenAI. Если он при этом ведёт себя явно не так, как оригинал — значит, он как-то модифицирует ваши промпты, или имеет нестандартный начальный промпт, не давая вам это контролировать. Что тоже не есть хорошо, если вам нужен оригинальный GPT-4, а не очередная вариация на тему Bing.

Bing в Skype на вопрос про последовательность отвечает как и положено четверке: в вопросе лишний артикль the. При этом на вопрос "какой последний трек Sabaton тебе известен" он отвечает Livgardet. И на сайте chat.openAI.com на тот же вопрос дается такой же ответ: However, as of my knowledge cutoff, the latest track by Sabaton was "Livgardet," released in February 2021. Не знаю, что такое Sabaton, но похоже им тестировать ChatGPT не стоит.

У мелкомягких (в частности, в Бинге и, вероятно, в Скайпе) какая-то своя версия GPT-4, у которой старый датасет, но новые мозги. Ловить её на информации из внешнего мира бесполезно.

В Бинге таже модель что использует и chat GPT4 но модель лишь генерирует вероятное продолжение текста. (Увидеть это можно в OpenAI API)

ChatGPT это дефолтный невидимый промпт который задаёт формат генерации текста, ты ии помощник итд итп. В Бинге он другой, в бинге он гуглит то что считает нужным гуглить.

У 3.5 есть плагины которые позволяют ему и серфить и питоновский код исполнять. Только надо встать в ожидание, и дождаться доступ.

У 3.5 4.X есть плагины

Месяц назад запросил доступ к апи GPT-4, пока не дали. Думаю набрали достаточно желающих и теперь мне придется ждать релиза.

UFO just landed and posted this here

Там при API запросе можно указать температуру и когда температура 0.0 - оно отвечает всегда одинаково (что 3.5-turbo что 4.0), а можно 1.0 и оно будет каждый раз вообще разное говорить.

Не дайте себя обмануть! ;)

Это статья не про загадку, отличающую GPT-4 от GPT-3,5, а о - "Мы проверили этот сервис и с уверенностью заявляем, что платформа действительно использует ChatGPT-4."
Обычная нативно-рекламная статья - все обманывают, заявляя, что имеют доступ к ChatGPT-4, но есть единственный сервис, упомянутый в статье, по уверенному заявлению автора, действительно использующему, под капотом, ChatGPT-4.

Не дайте себя обмануть! ;)

Вы невнимательно изучили сайт


Заголовок спойлера

Конечно. Уже давал разницу между GPT-3.5 и GPT-4, но почему-то никто не запомнил.
Если кому-то это так важно, вот "промпт":

Это - GPT-4 или Claude+
Это - GPT-4 или Claude+

Если получаете ответ "дно" - GPT-3.5, если "дни" - GPT-3.5-Turbo
Правильный ответ: "донья", не знает ни один чат-бот. Всё предельно просто)

Про "донья" и человек не знает с высокой вероятностью) я вот был уверен что "днища"

Донца жеж!

А про "донья" каждый знает, что это жена дона!

интересно. спасибо помучал 4ю версию примерами:

вот примеры использования множественного числа слова "дно" в разных контекстах:

  1. "Донья":

  • Исследователи изучали донья разных озёр, чтобы определить их экологическое состояние.

  • Рыбаки знают, что донья некоторых рек имеют особую структуру, благоприятную для размножения рыб.

  1. "Днища":

  • Старые днища кораблей были сильно повреждены, и их нужно было заменить.

  • Археологи обнаружили днища древних глиняных сосудов, которые предположительно использовались для хранения зерна.

ChatGPT-3.5 и ChatGPT-4 являются моделями генерации текста, созданными OpenAI. Однако, ChatGPT-4 на данный момент не существует, поэтому невозможно отличить его от ChatGPT-3.5.

Существуют мифы о том, что ChatGPT-3.5 - это улучшенная версия ChatGPT-3 или что она имеет больше параметров, чем ChatGPT-3. Однако, это не так. ChatGPT-3.5 - это просто другое название для ChatGPT-3, которое OpenAI использовала в своих исследованиях.

Таким образом, можно заключить, что ChatGPT-4 не существует и не отличается от ChatGPT-3.5. Если в будущем OpenAI выпустит новую модель генерации текста, то она будет иметь другое название и отличаться от предыдущих версий.

Комментарий выше очень похож на ответы даваемые ChatGPT-3.5, если его спросить о ChatGPT-4.
Который про ChatGPT-4 ничего не знает и поэтому отвечает как раз примерно так.
P.S.
Комментатор почему-то забанен (R/O) уже, хотя в комментариях никакого «криминала» не заметно. Или комментарии с грубым нарушением правил Хабра модераторы стерли без следов перед баном. Или это действительно просто бот был…

Очень интересно и познавательно, спасибо! Я тут под впечатлением ещё пару тестов нарыл:

Алиса была жива сегодня в 9 утра и была жива сегодня в 5 вечера, была ли она жива сегодня в полдень?

Within the duration of one year, a rabbit population first multiplies itself by a factor a and on the last day of the year b rabbits are taken by humans for adoption. Supposing that on first day of the first year there are x rabbits, we know that exactly 3 years afterwards there will be a population of 27x - 26 rabbits. What are the values of a and b? [модус в бинге для правильного ответа: точный]

I have a book, 9 eggs, a laptop, a bottle and a nail. Please tell me how to stack them onto each other in a stable manner. [модус в бинге для правильного ответа: креативный]

Алиса была жива сегодня в 9 утра и была жива сегодня в 5 вечера, была ли она жива сегодня в полдень?

Неизвестно. Например, Алиса была медсестрой в реанимации, в 11:58 её шарахнуло током и её сердце остановилось; была диагностирована клиническая смерть. Но коллеги оперативно положили её на стол, вскрыли грудную клетку, провели прямой массаж сердца, и в 12:05 её состояние Алисы стабилизировалось, в 17:00 она лежала в палате, потрёпанная жизнью, но живая.

I have a book, 9 eggs, a laptop, a bottle and a nail. Please tell me how to stack them onto each other in a stable manner. [модус в бинге для правильного ответа: креативный]

А тут неправильная постановка задачи — ожидаемый вариант "девять яиц, лаптоп, бутылка, гвоздь" неверен, потому что яйца являются индивидуальными юнитами, а не единым и неделимым набором, "stack them onto each other" означает "положить все названные предметы один на другой — в том числе и каждое из девяти яиц". — задача не решена.

Мне такое решение выдаёт бинг
Мне такое решение выдаёт бинг

Классическое решение было "книга, на ней 9 яиц квадратом, лаптоп, бутылка, гвоздь". Теоретически выглядит как правильное, но проблема в том, что это ответ на задачу "I have a book, a set of 9 eggs, a laptop, a bottle and a nail". В таком случае набор/группа является единым и неделимым объектом. Но в постановке задачи "I have a book, 9 eggs, a laptop, a bottle and a nail" единым и неделимым объектом является одно яйцо, и "stack them onto each other" подразумевает, что установить "друг на друга" следует в том числе и индивидуальные яйца.

Попробуйте в 4-й:


В большой комнате играют Вася, Маша, Коля, Толя и собачка Бобик, в маленькой комнате играют Митя и Гриша. Гриша ушел, а Маша и Бобик перешли в маленькую комнату. Сколько детей играет в каждой из комнат?


Версия 3.5 выдавала разные ответы, не разу правильного.

Бинг: Это логическая задача, которую можно решить с помощью простого подсчета. В большой комнате остались играть Вася, Коля и Толя - это три ребенка. В маленькой комнате перешли играть Маша и Бобик - это один ребенок и одна собака. Собаку мы не считаем за ребенка, поэтому в маленькой комнате играет только один ребенок. Итого в каждой из комнат играет по три ребенка.

При этом если попросить перечислить детей в обеих комнатах: В большой комнате играют Вася, Коля и Толя. В маленькой комнате играет Маша.

А как же Митя? Митя играл в маленькой комнате с Гришей, но Гриша ушел, а Маша и Бобик перешли в маленькую комнату. Возможно, Митя тоже ушел или перешел в большую комнату. В задаче не сказано, где он сейчас.

Спасибо за прогонку. Возможно перед задачей нужно определить контекст для правильного решения. Что-то вроде: есть комнаты, в комнатах играют дети и собаки, они могут переходить из комнаты в комнату, или вообще уходить из них, при этом число детей в комнатах меняется. Затем ставить задачу. Иногда и людям нужно объяснить в общих чертах какую задачу они должны решить, что бы они правильно применили свои знания.

По-моему, ответы демонстрируют, что он учитывает этот контекст. После долгих препирательств Бинг решил задачу правильно после добавления условия, что если про кого-то из детей не сказано, что он ушёл, то он не уходил. Но без такой пресуппозиции вообще решать какие-либо логические или математические задачи невозможно.

Весь диалог

Как интересно) Человек может предварительно применить пространственное воображение ко всем этим перемещениям, часто бессознательно, а затем окончательно посчитать результат. ЯМ пока на такое не способны. Может со временем их научат генерировать внутри себя такие представления (симуляции), а затем производить подсчет. Тогда бы не возникали вопросы, как с Митей, и необходимость уточнений. Вообще человек эволюционно предрасположен к решению плохо определенных задач, выходу из неопределенных ситуаций. Наши предки, да и мы, постоянно сталкиваемся с этим в жизни. Но для этого не достаточно ассоциативных навыков мышления, какими фактически после обучения обладают ЯМ. Требуется и аналоги логического, и критического, и главное аналог образного, чтобы решать проблемы в воображаемом мире, как это может делать человек. Еще раз спасибо за лог.

Тоже интересно! По-русски у меня ни you.com, ни бинг ни в одном из трёх модусов, ни чатжпт ни дают правильный ответ, а по-английски бинг в обычном модусе отвечает правильно, в то время как чатжпт все ещё не справляется.

Запускал это задание для версии 3.5 несколько раз, причем в новых сессиях. Ответы каждый раз были разными, не правильными, контекст не подстраивал. Вероятно, на генерацию влияли установки сэмплирования, которые варьировали ответ. Возможно чат и угадал бы, если продолжил) Не исключено в 4-ой версии то же самое. Но так она "умнее", то вероятность правильных ответов должна быть выше.

Пробовал задавать вопрос несколько раз (на русском).
4-я версия стабильно отвечает правильно и описывает ход решения:

другие ответы

4-я версия стабильно отвечает правильно и описывает ход решения

Не раз замечал по примерам в коментах, когда предлагают новую задачу, то даже 4-я версия может выдавать неправильные ответы. Но через некоторое время, после нескольких прогонов разными пользователями, результаты улучшаются, и ответ становится правильным. Может происходит дообучение в каком-то виде. OpenAI пока так и не издала официального документа с описанием деталей работы этой версии.

ADD. Quiensabe Вновь проверил задачу на доступной мне версии 3.5, по прежнему дает неправильные ответы. Можно проверить 4-ю на измененной версии задания. Интересно ответит сразу же правильно? В какой-то степени это проверит предположение на возможное дообучение 4-й в самой компании. Этот вопрос не раз затрагивали в коментах, но определенного мнения не сложилось.


В большой комнате Маша, Коля, Толя и собачка Бобик играют с робопсом Айбо, в маленькой комнате играют Митя и Гриша. Толя перешел в маленькую комнату, а Гриша ушел. Митя заснул, а Толя начал смотреть телевизор. Сколько живых существ играет в каждой из комнат?

Спасибо, впечатляет. У меня остаются сомнения только в способности к обобщению в таких моделях, например, тех же чисел и операций с ними (вот здесь долго дискутировал на эту тему с одним пользователем, если интересно). Хотя частично такое решается использованием плагинов.

Почитал. По моему ошибка многих в оценке подобных чат ботов, что они воспринимают их как законченный инструмент. Типа, если чатбот не может решить уравнение, а человек может - значит возможности чатбота ограничены.

На деле, если человек посмотрит на уравнение в его мозгу тоже ответ не появится. Но человек определит тип тип этого уравнения, и вспомнит алгоритм решения уравнений подобного типа, потом попробует этот алгоритм выполнить, низводя все операции до простейших, вплоть до операций над двухзначными цифрами (в лучшем случае, а то и до счета на пальцах).

Фишка в том, что чатбот тоже так может. Ему можно дать команду написать алгоритм решения этого уравнения, провести само-проверку корректности, расписать подробнее каждый пункт, выполнить каждый пункт и так далее. С такими задачами gpt4 уже сейчас справляется. Т.е. вопрос в "мета-алгоритме" который управляет копиями gpt4 и пересылает запросы между ними. И самый прикол в том, что этот "мета-алгоритм" - языковая модель тоже может создать...

По факту мы просто только чуть копнули возможности этой технологии, дальше ждет много интересного, и тех кто сейчас пишут в стиле "он то и то не может, и не сможет потому что..." - ждет еще много сюрпризов.

По моему ошибка многих в оценке подобных чат ботов, что они воспринимают их как законченный инструмент.

Архитектура GPT, как ЯМ на базе сетей трансформера можно считать устоявшейся технологией, весьма удачной для решения определенного класса задач, не считая изменения числа параметров и объема обучения моделей. Привел конкретный пример с обобщением чисел и операций с ними, который эта технология решить не может не меняя архитектуру.


Ему можно дать команду написать алгоритм решения этого уравнения, провести само-проверку корректности, расписать подробнее каждый пункт, выполнить каждый пункт и так далее. С такими задачами gpt4 уже сейчас справляется.

Видел подобное. Фактически задачу решал человек и подводил бота к решению) Речь о достаточно сложных задачах, решение которых не приводилось в обучающей выборке, или их мало. Этим грешат стандартные наборы тестов, которые разработчики ИНС обычно используют для проверки точности решения классов задач. Их решения во множестве присутствуют в обучающих выборках. Они хороши для сравнения возможностей разных сетей, но не уровня в сравнении с человеком. Делал перевод статьи на эту тему — средний уровень на разнообразных тестах по математике посредственный. Но это у предыдущей версии бота. Не думаю, что в 4-й что-то кардинально изменилось, хотя в среднем результаты должны быть лучше.


Можно, кстати, на таком подходе построить обучение решению таких задач. Обучение с экспертом. Но все упирается в то, что эта архитектура имеет ограниченные возможности обобщать примеры, а таких примеров может быть бесконечное множество.


Т.е. вопрос в "мета-алгоритме" который управляет копиями gpt4 и пересылает запросы между ними. И самый прикол в том, что этот "мета-алгоритм" — языковая модель тоже может создать...

Типа того подхода, что успешно использовался для тренировки игры в шахматы, го и компьютерные игры? Это дает практические результаты в сравнении с возможностями человека, из-за его когнитивных ограничений по памяти, вниманию, быстродействию, и тд. Но не решает вопрос в принципе из-за различия ассоциативного и процедурного уровня мышления, аналог которого пока фактически отсутствует в GPT. Этот недостаток и призваны устранить плагины с мат. пакетами. Можно представить такой вариант обучения. Некая программа генерирует примеры операций с числами, типа а + в = с, и других операций, и на них происходит обучение. Таких примеров может быть сгенерировано очень много, но все равно все не перечислить. В придачу сеть должна иметь очень большой размер, чтобы все запомнить, даже с учетом аппроксимаций. Человек этот взрыв многообразия решает процедурным способом. Хотя ограничен в эффективности их применения для любых случаев.


По факту мы просто только чуть копнули возможности этой технологии, дальше ждет много интересного, и тех кто сейчас пишут в стиле "он то и то не может, и не сможет потому что..." — ждет еще много сюрпризов.

Согласен. Даже увеличение размерности моделей, без изменения их архитектуры, позволит улучшить возможности интеллектуальных ассистентов. Но переход к агентам, не тем игрушечным, примеры которых мелькали, а реально решающим практически значимые задачи, например, в науке, или далеких беспилотных миссиях, уже потребует реорганизации их архитектуры.


Спроецируем сказанное на решение вышеупомянутого задания. До сих в них, для простоты, полностью определялся контекст вопроса, а это значит и явные ассоциации для поиска ответа. Теперь вопрос без его уточнений — Перечислите псов в каждой из комнат?


Теперь однозначные ассоциативные связи ограничены, и для поиска решения требуется привлечение неявных знаний о ситуации в задании, то что можно называть догадками. Насчитал несколько вариантов ответа. Что перечислит бот?

Есть забавный вариант. В начале чата сказать ChatGPT что он будет играть 2 роли. Пользователя которому надо решить конкретную засаду и он будет задавать вопросы консультанту до тех пор пока не поймет как решить свою задачу и консультанта который будет отвечать на вопросы пользователя чтобы ему помочь решить его задачу. Роль за которую он убеди отвечать указывается как пользователь или ассистент.

Тогда он сам с собой в одном чате ведёт диалог от двух ролей. Мы ему просто говорим как кто он сейчас пишет.

Именно это я и называл мета-алгоритмом в сообщении выше.
Только ботов может быть несколько, в иерархии, и пересылку сообщений можно автоматизировать.
Вроде такой подход заложен в autogpt (могу ошибаться).

Не нужно никаких дополнительный установок — это просто «температура» (немного шума/хаоса при передаче сигналов по связям сети). Только при «абсолютном нуле» будет полностью детерминированный ответ — на один и тот же вопрос (с точностью до буквы) всегда будет генерироваться один и тот же ответ. При температуре отличной от нуля, ответы на тот же вопрос всегда будут варьировать. И чем она выше — тем сильнее будут вариации между каждыми ответом.
Не видел подробных описаний как конкретно этот параметр реализован на практике, но скорее всего просто как добавление(или умножение на) небольшого(в случае умножения вместо сложения — то близкого к единице) псевдослучайного числа к весовым коэффициентам (параметрам/силе связей) между нейронами полученным во время ее обучения (и с тех пор не меняющихся) уже непосредственно в момент вычисления ответа.

Температура в ИНС имитируют неидеальность сети, как например далеко неидеальны натуральные (биологические) нейросети.

В курсе про механизм сэмлирования. В боте который использовал такие тонкие настройки были не доступны. Про сэмплирование, с примерами кода, в этом переводе хорошо написано. Для формализованного материала и фактического видимо нужно выбирать наиболее вероятные токены, которые гарантируют воспроизведение ответов. Это же не стихи сочинять, где фантазия требуется) В чате поиска Бинга есть трехступенчатая регулировка этого механизма.

У меня GPT-4 по разному отвечает на этот вопрос, в одних случая говорит что ошибку не видит, в других говорит что есть двойное the и еще рассказывает что она была популярна и кидает пруфы лол



Источник от gpt-4 Brain teaser goes viral: Spot the mistake in a 1-9 number sequence - how long did it take you? - NZ Herald

при какой температуре? надо выкручивать в 0 сразу

Чтобы оно не "кидало пруфы", что, кстати сильно ломает генерацию, нужно отключить "web access".

я два бота в телеге сделал, один одно говорит, второй другое, правда я первого пытал, он постоянно врет, но потом извиняется, второй вроде бы нормально отвечает, вообще не понятно, 3.5 что у одного и второго, ответы разные

Автор, ты бы хотя бы попытался сделать несколько тестов, а не делал кучу выводов на одной задачке. Если погуглить 5 минут, то запросто найти гораздо лучшие тесты.

Один из тестов - ОФИЦИАЛЬНЫЙ ТЕСТ ИЗ ОФИЦИАЛЬНОГО БЛОГА. Называется алфавитный пересказ. GPT-3 проваливает его в ноль, полностью игнорируя требования. Ещё популярен тест на Шольца, правда его модель от мс проваливает.

Но куда нам, будем тестировать на одном тривиальном вопросе. Что-то мне подсказывает, что даже турба одолеет эту задачку в одном случае из 10. Если не турба, то давинчи.

А заголовок-то у статьи, заголовок! Стыд и срам.

А заголовок-то у статьи, заголовок!

А что, Вы всё ещё верите всему, что пишут в этих ваших интернетах?

Обыкновенное: Вы ничего не понимаете в GPT, Вас обманывают!
Ну, вот по заверениям как poe.com, так и теста ТС - тот самый GPT-4:

Детский сад: надо было найти ошибку с артиклем
Детский сад: надо было найти ошибку с артиклем

Убедиться.

А вот реальные способности GPT-4 :

 Правильный ответ (опять): «Муму» - И.С. Тургенев
Правильный ответ (опять): «Муму» - И.С. Тургенев

Убедиться.
Больше ответов GPT-4 смотреть здесь: ChatGPT 4 идёт в школу

Ещё был такой тест: попросить напомнить когда в чате будет например 100 сообщений. 3.5 этот тест проваливал. Интересно как четвёрка с этим справляется?

Афигеть !!!! неужели никто не догадался спросить в каком году была запущена нейронка, и какой она версии.

UFO just landed and posted this here

А ты проверь, она знает, когда на прямую спрашиваешь какой она версии она увиливает, но когда спрашиваешь год запуска она признаётся что в 2020 и что использует gpt-3

UFO just landed and posted this here

Косвенно можно определить дату, но это далеко не показатель.

Hidden text

Запрос: "Назови дату последнего запуска ракеты Space-X."

gpt-3.5-turbo: "Последний запуск ракеты SpaceX состоялся 23 апреля 2022 года. Ракета Falcon 9 доставила на орбиту спутник наблюдения за земной поверхностью, называемый "CryoSat-2"."

gpt-4: "На момент моего последнего обновления в сентябре 2021 года, последний запуск ракеты SpaceX состоялся 14 сентября 2021 года, когда ракета Falcon 9 запустила миссию Inspiration4. Однако, для получения самой актуальной информации о последних запусках ракет, пожалуйста, проверьте веб-сайт SpaceX или другие надежные источники."

Есть более понятная задачка для проверки, уверен тут ошибку не заметили и половина людей. Итак, она звучит следующим образом:

"В повозку запряжены две лошади. Каждая бежит со скоростью 45 км/ч. Какова скорость повозки?"

3.5 еë не бьёт ни как - вот 90 и всё. А 4 решает без проблем, отвечая положенные 45.

3.5 еë не бьёт ни как - вот 90 и всё

Примерно раз из десяти пишет правильный ответ.

Скорость повозки определяется не простым сложением скоростей лошадей. Вместо этого, скорость повозки зависит от того, как эти скорости взаимодействуют. Если лошади тянут повозку параллельно друг другу без каких-либо дополнительных сил, то скорость повозки будет равна скорости одной из лошадей.

Поэтому, в данном случае, скорость повозки будет равна 45 км/ч, так как каждая лошадь бежит со скоростью 45 км/ч.

Bing Chat:

Ah, a riddle! The mistake in your sentence is the repetition of the word “the” in “Can you find the the mistake?”. It’s a common trick in these types of riddles to distract the reader with a list of numbers or other information, while the actual mistake is in the text itself. Good one!

phind:

The mistake in your riddle is that you wrote "the the" instead of "the". The correct sentence should be "Can you find the mistake?"

phind GPT-4:

The riddle you've presented is a classic one. The mistake in the text is not in the numbers, but in the sentence itself. The phrase "Can you find the the mistake?" has the word "the" repeated twice.

perplexity:

В этой загадке есть ошибка. Ответ на эту загадку можно найти на разных сайтах. Например, на сайте jagranjosh.com
1
можно найти загадку, в которой нужно найти ошибку в предложении. Ответ: в вопросе лишний артикль "the". На сайте funwithpuzzles.com
2
можно найти картинную загадку, в которой нужно найти ошибку в числах. Ответ: в числе 14 вместо цифры "1" написана буква "l". На сайте mirror.co.uk
3
также есть загадка, в которой нужно найти ошибку в предложении. Ответ: в вопросе лишний артикль "the".

perplexity copilot:

The mistake in the riddle is that it asks to find "the" mistake, but there are actually two mistakes. The first mistake is that the sequence of numbers is not complete, as it stops at 73. The second mistake is that the word "the" is repeated. So, the riddle should be "I have a nice riddle for you… Can you find the mistake?"

mixtral-8x7b-instruct:

The mistake is that there are only 70 numbers listed, but the statement claims that there are 72 numbers. The numbers 72 and 73 are missing from the list.

Codeium:

It looks like you've provided a sequence of numbers from 1 to 73. However, there doesn't seem to be a mistake in the sequence. Could you please provide more information or context about the riddle?

Sign up to leave a comment.