Squirrelfm Apr 18 at 08:30

LLMOps: не разрешают использовать ChatGPT. Что можно сделать?

Easy

3 min

9.4K

Raft corporate blogMachine learning*Artificial Intelligence

Review

+40

Comments 31

ainu Apr 18 at 08:38

Я бы добавил в список command r (а остальные из списка убрал). Ну, и кроме квантизации есть такие штуки, как LM Studio и GGUF, позволяющие держать модель в оперативке, а не видеопамяти. А 96 гигов оперативки несравненно дешевле, чем 96 гигов видеопамяти.

UPD: на картинке рейтинга в посте command r присутствует, и находится выше всех открытых, и даже выше, чем два ChatGPT 4

Squirrelfm Apr 18 at 09:52

да, как то забыл про самое очевидное

314159abc Apr 18 at 11:06

Меня в Гугле забанили, поэтому не подскажете, сколько памяти нужно для запуска command-r? До какого размера придется квантовать и насколько это станет хуже mixtral 8x7b? 16GB хватит?

StarKap Apr 18 at 12:29

https://huggingface.co/CohereForAI/c4ai-command-r-plus +- 210Gb вам понадобится, чтобы запустить полную версию(3xA100). На 2-ух A100, квантованную на 8-bit запускали, есть не большой буст по метрикам в сравнении с mixtral 8x7b, но просадка по времени ответа в 1,5-2 раза.

ainu Apr 18 at 15:06

На полной версии gguf без квантования (вернее 16 bit, вроде как не квантованная) у меня запустилось на 12 гигабайт видео + 96 обычной ОЗУ, лагало но работало, всё сожралось в пол.
На квантованной влезло в 46 гигабайт:

ainu Apr 18 at 15:21

По поводу сравнения с mixtral, я запускал, ещё раз, 16бит и Q8_0, и обе работают на голову выше по качеству, чем mixtral/mistral, просто несравненно лучше.
16 гигабайт не хватит, возможно какие то сильно квантованные может и влезут, но надо понимать, что такого рода чудес не бывает, как бы сила модели в количестве и точности связей.

ainu Apr 18 at 15:29

Вот так выглядело с F16 версией. Примерно 4-6 секунд на один токен уходило.

dubrovinru Apr 18 at 11:12

Плюсую

Antra Apr 18 at 19:39

В оперативке, конечно, лучше, чем на диске. От безвыходноси сойдет. Но, ьоюсь, для продуктива слишком медленно будет.

Когда играл с LM Studio жутко тупило на gpu_offload 10 (часть в обычной памяти, часть в видео). При установке в MAX видеопамять стала занята практически полностью (загрузка от этой 13B модели выросла с 10ГБ почти до 20ГБ), а скорость выросла раз в 5.

Так что для себя я предпочту квантизацию, но все в видеопамять запихнуть. Иначе и качество не радует.

lizergil Apr 18 at 08:56

Чем бы дитя не тешилось, лишь бы не плакало.

MountainGoat Apr 18 at 09:09

БРЕД, чушь и неправда всё сверху донизу. Всё это делается не так, с другими названиями и гораздо меньшими требованиями. Не могу даже написать, что именно неправильно, а то придётся процитировать 100% текста.

MountainGoat Apr 18 at 10:18

Блин, пол-часа искал статью на русском, чтобы приложить ссылку - ничего не нашёл, кроме своих заметок.

Поэтому вот Roadmap.

Требования: видеокарта Nvidia c памятью от 12Гб ИЛИ аналогичная видеокарта AMD + Linux (есть ROCm - имитация CUDA на AMD) ИЛИ очень жирный процессор.

Софт: разделяется на AI-движок, где живёт матан, и интерфейс пользователя. Причём они могут быть на разных компах. Протокол де-факто стандартизировался на "косить под OpenAI". Движок: KoboldCPP или LMStudio, первый даёт доступ к важным настройкам через командную строку и имеет функциональный интерфейс пользователя, второй позволяет много кликать мышью с умным видом. Под капотом одно и то же. Интерфейс: У KoboldCPP свой неплохой. Для VSCode расширение Continue. Есть ещё SillyTaven но он не для программирования.

Модель: mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf Все буквы важны, ± одна буква - уже будет существующее не то.

Если обычно в мелочах кроется дьявол, то здесь чертей будет на целый акт из Diablo. Потому что всё развивается каждый день и каких-то стандартов ещё особо не устоялось.

Мои настройки под Mixtral под 24Гб VRAM : `--model .\filename.gguf --usecublas --gpulayers 23 --contextsize 16384` Gpulayers надо подбирать от размера VRAM, но обычно работает размер VRAM в Гб - 1

StarKap Apr 18 at 12:21

вопрос к производительности такого функционала, автор написал для всех возрастов и всех кошельков, а вы предлагаете квантованную модель от которой ответа будете ждать в n раз дольше, да и с качеством Бог знает что будет, в сравнении с фулл моделькой развёрнутой на 2-ух А100 ИЛИ квантованной до 8bit и развёрнутой на одной А100
Если ваше субъективное мнение, что это БРЕД, расскажите как бы в проде это работало, чтобы и на запросы отвечало быстро и по качеству не проседало до gpt-2?
Пока вижу, что для развлечения удалось запустить на домашней машинке mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf и сказать, что для любой задачи это панацея...

MountainGoat Apr 18 at 13:33

A100 нынче почём? 1 200 000 рублей?

для всех возрастов и всех кошельков

Арендовать за 1200 рублей в час? 1200*8*22(рабочих дня) = 211000 в месяц?

Или запускать только "когда нужен" - как на практике будет выглядеть этот процесс, особенно учитывая, что такой инстанс будет минут 15 в себя приходить? Программистам оставлять заявки в бухгалтерии в пятницу на получение подсказки от ИИ на следующей неделе?

По тестам, квантизация до 4 бит - на 10-15% хуже оригинала. Например. По личным ощущениям, квантизация до 2 бит и то сочиняет код не хуже M$ Coplilot которым я сейчас пользуюсь потому, что он умеет гуглить, и видяха у меня одна.

А ещё, я не могу придумать пример стуации, когда ChatGPT использовать нельзя, а SberGPT можно. Частная компания может и ChatGPT найти как оплатить, а в компании, где есть хоть немного ДСП, и на инстанс на Selectel код нельзя заливать будет.

Вот поэтому и БРЕД. Бред - слушать музыку в 32бит, смотреть фото в TIFF и использовать 16битные LLM. Эти форматы для разработчиков, а не пользователей.

janvarev Apr 18 at 13:50

Насчет 1200 р/час - конечно, смешно загнули в статье. Можно найти под за рублей 50 в час на 24 Гб VRAM, и туда нормально поставить квантованную модель.

Насчет настроек - спасибо, прочитал, все толково, у меня стоит похоже. Еще отмечу, что в принципе можно взять какую-нибудь 7B модель и засунуть её в VRAM 8GB (q5 точно) - т.е. на картах недорогого уровня.

А, еще - для koboldcpp обязательно рекомендую ставить CLBlast, который процессит ввод на GPU. Потому что иногда процессинг входа на CPU может занимать несколько десятков секунд и быть по длительности сравнимым с собственно генерацией.

я не могу придумать пример стуации, когда ChatGPT использовать нельзя, а SberGPT

Я могу - нужны юридические ГАРАНТИИ, что данные не просачиваются за пределы страны. Для крупных фирм, в общем.

MountainGoat Apr 18 at 14:46

Никогда не видел таких юридических требований. Либо пофиг, либо чтобы информация не выходила за пределы территории компании. Видел, как люди обсуждали сертифицированные ФСБ VPS и решили, что ну его нафиг, формально ими всё равно нельзя пользоваться. И у них не гостайна, а просто ДСП.

MountainGoat Apr 18 at 14:25

Стоп! Я попутал с Invoke. KoboldCPP на видяхах AMD и Intel работает на винде и без проблем, только медленнее.

BelerafonL Apr 18 at 09:10

Было бы неплохо увидеть конкретные рецепты (или ссылки на них) - откуда скачать, в каком облаке что купить, как загрузить, как запустить, как сделать автокомплит кода на основе этой штуки в VScode или подобное.

MountainGoat Apr 18 at 09:31

Обнаглею и укажу свои заметки: раз, два

Ещё есть LMStudio, типа всё делает за вас: качает модель, подбирает конфиг. Но он мне не нравится тем, что все важные настройки разбросаны чёрти где, поэтому он у пользователя часто работает в неоптимальном виде.

janvarev Apr 18 at 09:50

Утащил себе :)

kroketmonster Apr 18 at 13:47

Я бы еще мог посоветовать Faraday.dev, это наверное самая простая софтина для работы с локальными моделями, но она больше для чатботов-персонажей.

DimaIgrotech Apr 18 at 10:00

Спасибо, полезно. Как раз актуальный вопрос.

Araki_Satoshi Apr 18 at 10:54

Если нужно локально и лично для себя, то выбираешь самую крупную по параметрам GGUF модель, которая влезет в видеопамять при оффлоадинге всех слоев, вплоть до Q3_K_M, и пользуешься запуская её как API через llama.cpp server или koboldcpp, подключаясь через любой фронтенд.

janvarev Apr 18 at 13:50

Еще: для koboldcpp обязательно рекомендую ставить CLBlast, который процессит ввод на GPU. Потому что иногда процессинг входа на CPU может занимать несколько десятков секунд и быть по длительности сравнимым с собственно генерацией.

ainu Apr 18 at 15:19

То же самое делает ML studio, можно даже указать, какой процент видеопамяти мы готовы дать.

Araki_Satoshi Apr 19 at 06:15

Всё так, поэтому мы и оффлоадим все слои в видеопамять. В таком случае препроцессинг токенов вместе с CLBlast / cuBLAS будет в разы быстрее чем если бы это был только CLBlast / cuBLAS + лишь часть или вообще ноль слоев в оффлоаде, делая кванты моделей вполне юзабельными по скорости на домашних ПК. С 7B ещё не так заметно, а вот на 13B уже ощутимо. На 34B+ - уже критично.

MountainGoat Apr 18 at 14:31

Всё, как всегда, сложно: для формата GGUF, если все слои загружены на VRAM, то туда же должен быть загружен и контекст, а контекст 16к сам весит 9Гб. Если последние 3 слоя не загружать в VRAM, то процентов 90 контекста так же остаётся в RAM, и можно иметь большой контекст или модель побольше взять.

Maxim_Q Apr 18 at 16:48

На оффициальном сайте https://www.anthropic.com/ сказано что они сейчас не подключают новых пользователей, этот вариант не подойдет если у вас нет старого аккаунта.

moonroach Apr 18 at 19:38

Ну так я так понимаю, что чтобы что-то конкретное узнать, надо на вебинар идти, тут по факту ниче особо не описано. Непонятно что делать

dimnsk Apr 19 at 20:11

>> Для этого потребуются видеокарты уровня NVidia A100,

вот прям только она ?

Ollama с картой на 16GB за 1K$ не пойдет нет ?

PS llama3 вчера

nastassia_k May 1 at 07:34

а с промптами есть какие-то особенности у этих моделек? в Anthropic можно задать системный промпт как в ChatGPT?