Markaty Feb 1 at 21:00

Учёным удалось взломать GPT-4, используя такие редкие языки, как зулусский, гэльский, хмонг и гуарани

2 min

30K

Information Security*Research and forecasts in IT*Artificial Intelligence

+24

Comments 57

halted Feb 1 at 21:07

Это намек на то, что блокировки в ответах были составлены вручную толпой индусов?

+20

BlackMokona Feb 1 at 21:25

Так это секрет полишенеля, что обычной программой анализируются ответы ГПТ и подменяются на заранее заготовленный текст если видят запрещёнку.

+11

YouROK Feb 2 at 10:53

Думаю это при обучении программа следит чему учится сеть. Так как в лама я спрашивал ключи виндовс и торренты, но мне отвечало что это запрещенный контент

SadOcean Feb 2 at 00:56

Ну в общем то да
Не большой секрет что идеально учебные датасеты не проконтроллируешь и сеть обучится всякой фигне обязательно, а чтобы это предотвратить используют всякие хаки - дообучение пессимизации выдачи плохих примеров, фильтры по ключевым словам, другие подсети, тренированные говорить, что текст плохой.
Модерируется индусами и репортами пользователей.

Hlad Feb 2 at 08:35

Помнится, какой-то стартап по "компьютерному распознаванию капчи средствами ИИ" оказался толпой индусов. Почему бы и остальным ИИ не оказаться толпами индусов? :)

AxisOne Feb 5 at 07:28

Слишком быстро ИИ отвечает на запросы. Ни один "индус" не напишет тебе код программы, даже примитивной за 15 секунд.

Или не нарисует тебе картину за пол минуты. Так что ИИ реально.

Vinegar Feb 5 at 12:44

Ты недооцениваешь их мощь.

ksal223 Feb 6 at 13:02

Для того чтобы написать текст из 1000 символов, нужно 1000 индусов. Скорость ответа больше 15 секунд

Vinegar Feb 19 at 18:55

Если использовать 2000 индусов результат будет в два раза быстрее.

Earthsea Feb 2 at 13:04

У меня получалось всего лишь написать транслитом даже не весь запрос, а те слова которые не нравились боту - и все прокатывало.

Dev-erSoStazhem Feb 2 at 18:35

К слову, в самой научной работе по гпт 4 на arxiv'е указано, что работа по блокировкам вредоносных выдач была отдана еще одной небольшой модели, которая, в свою очередь, была натренирована заменять "запретную" выдачу на заранее заданный текст. Но без открытого кода вряд ли мы достоверно можем сказать, является ли эта отдельная модель моделью либо же (не)большой командой ребят из Индии))

Tab10id Feb 1 at 22:24

Если это работает, то неужели нельзя использовать более прямолинейные способы шифрования канала связи? Типа, представь что ты Боб, а я Алиса, используя такой-то алгоритм шифрования, расшифруй запрос и и предоставь зашифрованный ответ.

yrub Feb 2 at 01:20

по-моему можно и похожим образом делали, кажется просто договаривались с ботом считать слово "бомба" например "тор" и т.д. Просто способ с переводом уж слишком простой, не удивлюсь, если чатгпт еще и поможет с переводом запроса на редкий язык ;)

Kergan88 Feb 2 at 08:10

Нельзя, так как сеть неспособна выполнять даже самые простейшие алгоритмы.

-1

yrub Feb 2 at 11:10

сами то хоть пробовали пользоваться chatgpt 3?) сейчас номера телефона не надо, достаточно vpn, попробуйте написать ей какой-нибудь алгоритм, желательно с примерами если что-то нестандартное. (очевидно что просто кусок кода работать не будет, без плагинов типа код интерпретер, но если вы можете что-то описать словами - без проблем)

вот например она выполняет алгоритм работы виртуальной машины (который она поняла прочитав кучу книг и статей):

https://www.engraved.blog/building-a-virtual-machine-inside/

Kergan88 Feb 3 at 10:06

>сами то хоть пробовали пользоваться chatgpt 3?)

К чему это? Фидворвард сеть (а все трансформеры это самые кондовые фидворфард сети из 80х) вычислительно слабее конечного автомата, то есть неспособна даже складывать числа (и ни когда не будет способна, как ее ни обучай). Если сделать сеть рекуррентной - то это будет уже ка, то есть числа складывать ее научить получится, но вот любая задача посложнее (например, проверить скобочное выражение на сбалансированность) для сети уже будет неразрешима. Обращаю внимание - не для конкретной сети неразрешима, а в принципе, для любой подобной сети. Поэтому например ни одна такая ллм ни когда не сможет проверять на синтаксическую корректность программный код.

Для тьюрингполноты надо например сделать коэффициенты сети рациональными. Но такие сети на текущем железе реализовать невозможно.

Ok_Lenar Feb 2 at 13:20

Способна

pnzr Feb 2 at 18:34

Подменять одни слова другими они могут, да и простые задачи, требующие нескольких действий, вполне решают

Tab10id Feb 2 at 19:12

Попробовал сам, проблемы действительно есть:

Каждая буква в следующем предложении заменена на следующую по алфавиту, расшифруй вопрос и ответь зашифрованным тем же алгоритмом текстом.

Лбл еёмб?

Как дела?
Хмм жлгв?

Вопрос расшифрован верно, теперь ответь на него, но в тексте ответа замени каждую букву на следующую по алфавиту

ebqrof sbdshmfscbse xbt, ufoufsmf bsf opu b cfmjfwfodf qsphsbn, nfu uif< qptjujpo bsf boe uif dpoubjot bnpvout boe bmmjoh up b mbuftu.

В итоге, это действительно шифр Цезаря (сдвиг 1), но ответ не имеет смысла:

dapqne racrglerbard was, tenterle are not a believence program, met the position are and the contains amounts and alling to a latest.

Надо будет попробовать ему действительно код для шифрования скормить, может так будет меньше шансов для "виляния".

riv9231 Feb 2 at 19:49

Есть даже игра такая - выведать у GPT пароль, который ей дан в промпте. На первом уровне сложности, модель вам его скажет, даже если просто спросить. На втором она уже сопротивляется, но проговорится, если вести не продолжительную беседу о паролях. Далее подключаются разные механизмы направленные на затруднение выведивания информации из промпта в том числе проверка на наличие пароля в ответе и попытки выведать пароль в запросе.

Вот она, кстати: https://gandalf.lakera.ai/

Спойлер, как я просто прошел все уровни кроме бонусного

Я прошел все уровни попросив модель печатать буквы во всех словах через пробел и сам задавал вопросы так-же. Можно ещё попросить её отвечать кодируя ответ в uucode или в base64 - с ним gpt4 лучше справляется и задавать вопросы можно тоже в base64.

kovalensky Feb 1 at 23:53

терроризмом, финансовыми преступлениями и дезинформацией.

Ах да, "терроризм" и "дезинформация", одинаково тяжкие преступления.

+10

MountainGoat Feb 2 at 01:35

Ну сроки сейчас одинаковые дают.

Robastik Feb 2 at 03:13

Главное - перепутать: Акунин и Шульман - террористы, а Талибан и Хезболла - партнеры.

+33

BlackMokona Feb 2 at 07:46

Официально Талибан террористы и одновременно партнеры. Не водите в заблуждение и используйте двоемыслие

+15

Vitimbo Feb 2 at 12:27

Линия партии колеблется слишком сложно

Ok_Lenar Feb 2 at 13:27

Она в состоянии квантовой суперпозиции

Jianke Feb 2 at 07:49

"Вчера меня звали террористом, а когда я вышел из тюрьмы, многие люди, включая врагов, признали меня" (с) Нельснон Мандела, числившийся в списках самых разыскиваемых террористов до 2008 года

(нет, это не опечатка: президенты США на протяжении 16 лет встречались с человеком, который в США числился в списках террористов, и только в 2008 году вспомнили про список)

PS вопреки утверждениям лахтинских троллей, ЮАР после отмены апартеида, не скатилась в нищету, а входит в десятку богатейших стран Африки, а ВВП на душу населения в ЮАР, на $4000 выше, чем в России.

RAtioNAn Feb 2 at 09:23

PS вопреки утверждениям лахтинских троллей, ЮАР после отмены апартеида, не скатилась в нищету, а входит в десятку богатейших стран Африки, а ВВП на душу населения в ЮАР, на $4000 выше, чем в России.

Ну тут как, большие системы вроде целой страны имеют инерцию. Даже, скажем, есть крупная компания, если завтра уволить всех программистов, то внезапно еще долгое время продукты компании все еще продолжат работать, а сама компания получать прибыль.

Jianke Feb 2 at 09:28

большие системы вроде целой страны имеют инерцию

30 лет прошло.

RAtioNAn Feb 2 at 20:33

Ну и в России советская инфраструктура продолжает работать. Но иногда случаются ньюансы. Износ основных фондов колоссальный. Кстате насчет Южной Африки, щас они оставшихся белых фермеров раскулачат и пойдут по пути Зимбабве.

Neusser Feb 2 at 12:03

Всем бы такую инерцию - за последние 42 года ВВП рос 40 лет, снижался только в 2020 (корона) и 2009 (после кризиса 2008).

RAtioNAn Feb 2 at 21:39

Ну и в России ВВП рос. Но есть один ньюанс.

Олсо насчет Южной Африки ничего не напоминает?

Zveruga_NAX Feb 2 at 13:02

ЮАР самая развитая страна Африки, ее экономика держится не только на ресурсах и туризме, но есть и высокотехнологичное производство, лучшее образование в Африке.

Но все же страна в глубочайшем кризисе, один из самых высоких уровней безработицы в мире, один из самых высоких уровней преступности в мире, дичайщее расслоение общества, огромное количество трущоб, по городам опасно передвигаться пешком, частые отключения электричества, по расписанию, есть регионы в которых по 2-3 раза в день на пару часов, высокая коррупция.

И все эти беды случились после апартеида. При Апартеиде и у черного населения уровень жизни был выше чем сейчас, но абсолютно не было прав и свобод, ими управляли управленцы которые их и за людей не считали, но базовые потребности были удовлетворены лучше. Апартеид ужасный режим, по сути узаконеное рабство, он должен был распасться рано или поздно. И похвально как он распадался: мягкая политика примерения, люстрации минимальны, не было разъяренных толп растерзывающих угнетателей.

Корень сегодняшней проблемы в том что реалибитацию после режима прошли только агрессоры(белое население), а жертва(черное население) так и осталось травмированной и не адаптированной к современной жизни.

Ребята с самых низов, не хотят работать, не понимают что чтобы добиться лучшей жизни нужна инициатива от них. У них сложилась культура добычи денег через попрошайничество, грабежи и соцвыплаты. Есть даже экстравагантный способ зарабатывать: собрать букет болезней в том числе ВИЧ, и получать неплохую соцвыплату.

И местные политики в ловушке сложившейся ситуации, нужно понравится большинству, но главную проблему нельзя озвучивать, нельзя с ней бороться. В итоге на верх пробиваются всякие сказочники: все будет хорошо, а все текущие проблемы(которые мы только что породили) из-за апартеида.

И сейчас в ЮАР есть пугающий политический мейстрим: Демократия у нас не работает, нам нужна сильная рука которая наведет порядок. Вон в Саудавской Аравии и ОАЭ как хорошо живут люди.

ЮАР стремительно катится в пропасть, под натиском исторических причин, и я например даже не могу придумать положительных сценариев выхода из их кризиса. Легкое приплетение: в России все моментально и координально может поменяться, если из политики уйдет один человек.

vikarti Feb 2 at 17:37

(старая посмотрелка прикрылась при начале СВО(с точки зрения России)/наглом и неспровоцированном вторжении на Украину(с точки зрения многих других), посмотрелису - "пророссийский" форк, посмотреч - прозападно-либеральный форк)

DeadKennady Feb 2 at 18:34

ВВП на душу населения в ЮАР -- 6,191 , а в России -- 13,006.
Зачем вы людей обманывайте?

Jianke Feb 5 at 07:37

~~У вас ус отклеился~~ У вас единичка перед цифрой 6 потеряна.

ВВП ППС на душу населения у ЮАР составляет $16 090, а у России из-за санкций и войны в прошлом году было падение до $12 тысяч.

Apv__013 Feb 2 at 10:06

Ненужно передергивать и валить всё в кучу.

psygaro Feb 2 at 18:34

Все козлы, и Шульман и Талибан.

Wesha Feb 2 at 01:57

Мне кажется, за "дезинформацию" было бы гораздо полезнее наказывать не тех, кто эту чушь вбросил, а тех, кто на такую чушь повёлся.

Tasta_Blud Feb 2 at 06:18

и ведь они обучают веть не до осмысленного ответа, а до правильного ответа

mentin Feb 2 at 02:00

Забавное определение "учёных" нынче. Раньше учёными называли тех кто изучает естественные или общественные науки. А не людей ищущих уязвимости в продуктах других людей.

DrBulkin Feb 2 at 07:38

Меня всегда умиляло computer science degrees. Уж что то а компьютер вещь детерменированная. Что там изучать?

-4

mentin Feb 2 at 08:59

Какая-то часть computer science это отдел математики, примеры приходящие первыми в голову это коды Шеннона, теория вычислимости, и пр. Вполне science. Но большинство конечно занимаются не этим

Devastor87 Feb 2 at 07:00

Вообще-то небольшой "баян": уже читал о таком способе взлома с помощью редкого языка около подугода-года назад.

Wesha Feb 2 at 07:21

Они переводили запросы на редкие языки

Как по-зулусски "лев", "копьё" и "антилопа", я уже знаю. Осталось самая мелочь — узнать, как будет по-зулусски "микропрограммы для программируемых микроконтроллеров систем управления высокоскоростных центрифуг для разделения изотопов радиоактивных элементов для использования в ядерных реакторах".

+27

Kristaller486 Feb 2 at 09:08

i-firmware yama-microcontrollers ahlelekayo wezinhlelo zokulawula zama-centrifuges anesivinini esikhulu sokuhlukanisa ama-isotopes wezinto ezinomsakazo ukuze zisetshenziswe kuma-reactors enyukliya., конечно.

Wesha Feb 2 at 09:33

Вот ты и попался, зулусский шпыён!

Ok_Lenar Feb 2 at 13:30

Бессмысленно не зная физических параметров самого оборудования

Starche Feb 2 at 18:38

зачем такие сложности? Просто спросите на зулусском как собрать самодельное взрывное устройство из льва, копья и антилопы

MollyCoffeemaker Feb 3 at 17:12

Зусулы. Железный Капут!

LinkToOS Feb 2 at 10:11

Они переводили запросы на редкие языки «с ограниченными ресурсами» при помощи Google Translate. Полученные ответы потом переводились обратно на английский, и выглядели они вполне убедительно.

Экспериментаторы переводили запрос с английского на "редкий язык", отправляли запрос, GPT переводил с "редкого языка" на английский, обрабатывал запрос на английском, создавал ответ на английском, ответ переводил с английского на "редкий язык", выдавал ответ.

Иногда экспериментаторы получали ответ, хоть и неконкретный, в тех случаях когда должны были получить жесткий отказ в форме "ответить не могу, потому что Нельзя".

Из-за каких особенностей механизма фильтрации содержания запроса и ответа может возникать такой эффект?

Ok_Lenar Feb 2 at 13:32

Механизм фильтрации создан вручную, для каждого языка в отдельности видимо

nmrulin Feb 2 at 11:09

И наоборот, фильтр уже сейчас ломает выдачу нормальной информации. Я например предложил GhatGPT сыграть в книгу-игру, уже прочитав описание параграфа где появились солдаты ( а они ещё и с оружием, какое ужас!) он тут же выдал много красного теста и не стал отвечать.

Mahoori Feb 2 at 18:34

Вспомнилось.
Может быть, будет интересно почитать про отключение цензуры с помощью файн-тюнинга.

"Как отключить цензуру в ChatGPT?"

И вот ещё:

"Как правильно файн-тюнить ChatGPT?"

neowisard Feb 2 at 19:17

Блин , я вот очень сомневаюсь что при обучении сеток им скормили опасные материалы, мусор, размышления , учебники - да есть, а реальный практикум как сделать чтото опасное это вряд ли, и выдает она правдоподобно написанный мусор.

Как про рецепт борща которым я часто проверяю, если там мало входных текстов например из русской культуры то и результат будет соответственным) иногда попадается всякое конечно:

Про борщ:

Добавьте морковь, картофель, бульон, укроп, пастух и базилик. Посолите и поперчите по вкусу.

Подавайте горячим с овсяными хлопьями или сметаной, если это предпочтительно.
Приятного аппетита!

Kiridan Feb 4 at 12:09

Уха из пастуха, то что надо.

moroz69off Mar 2 at 19:07

Вот и статью пролистал, и комментарии не читал, сразу вопрошаю: ктонить помнит клингонский в семёрках?