SmallDonkey Mar 16 2023 at 12:28

LLaMA (Large Language Model Meta AI)

Medium

1 min

81K

Machine learning*Artificial Intelligence

Tutorial

+36

Comments 66

namee Mar 16 2023 at 12:55

А какая практическая польза может быть, кроме как поиграться? Есть ли там интерфейсы, которые позволяют по триттерам например дёргать за API какой-то или что ещё? К полу-умному дому там подключить или ещё какому сервису.

-4

oleg-svs Mar 16 2023 at 13:00

При распаковке модели ошибка CRC.

SmallDonkey Mar 16 2023 at 13:02

zip архив вы имеете в виду?

oleg-svs Mar 16 2023 at 13:07

Да, zip архив видимо битый, пробовал перекачивать.

SmallDonkey Mar 16 2023 at 13:30

https://drive.google.com/file/d/1hXNMajATjZU0L_u4e2NKpbhakmilP_9G/view?usp=share_link

AstaRoth Apr 5 2023 at 16:15

Сейчас вы не можете просматривать и скачивать этот фай

SmallDonkey Apr 5 2023 at 16:23

ссылка рабочая, я проверил

AstaRoth Apr 5 2023 at 16:51

В последнее время этот файл слишком часто просматривался или скачивался. Повторите попытку позже. Если файл очень большой или доступен большому числу пользователей, возможен отказ в доступе к нему в течение ближайших суток. Если через 24 часа ситуация не изменится, обратитесь к администратору домена.

SmallDonkey Apr 5 2023 at 17:17

а я не знаю что делать с этим ограничением от гугла, у меня нет больше места на диске что бы перезалить

SmallDonkey Apr 5 2023 at 17:21

можно поискать здесь https://github.com/ggerganov/llama.cpp

SmallDonkey Mar 16 2023 at 13:08

и точно , щас перезалью

avshkol Mar 16 2023 at 13:03

Интересно, есть ли тесты, насколько такое ужатие повлияло на качество ответов модели?

SmallDonkey Mar 16 2023 at 13:14

Нет, товарищи пишут что пока не знают как повлияла квантинизация

NeoCode Mar 16 2023 at 13:15

О, вот это тема, наконец-то полезный слив! :)) А зачем ужали? 13 гигов не выглядят каким-то запредельным размером по сравнению с 4. Ради производительности?

То что все эти триллионы параметров работают на CPU это вообще шикарно и весьма обнадеживает - значит простые юзеры не будут зависеть от ограничений, накладываемых на языковые нейросети корпорациями (а в скором времени и государствами, совершенно не сомневаюсь в этом). Надеюсь, силами сообщества и обучение удастся осилить, либген с сайхабом туда загнать, и будет персональный научный ИИ.

UFO just landed and posted this here

innightwolfsleep Mar 18 2023 at 15:18

Сам успел уже пару дней поиграться и с 8биной и с4битной, использовал код от oobabooga/text-generation-webui

4 битная требует намного меньше памяти, так что целиком запускается на памяти моей 3060. Но качество ответов страдает (очень заметно при попытке стабильно получать качественные ответы)
8 битную запустил в режиме шаринга с CPU и скорость намного ниже но... но качество хорошее. Случайные вопросы о том как приготовить какой нибудь кордон блю или как копировать файл в линуксе находят ответ сразу а не провоцируют сеть на несвязанный текст.

FreeNickname Apr 5 2023 at 12:54

Там слили несколько моделей. 13 Гб – это 7 миллиардов параметров (7B). А там есть на 65 миллиардов (65B). Она в несжатом виде 130 Гб. 65B не запускал (не на чем), но у 30B vs 7B качество вывода ощутимо отличается.

BorisG Apr 5 2023 at 15:18

Извиняюсь за вопрос, можете кинуть ссылки на большие версии?

FreeNickname Apr 5 2023 at 16:44

Увы, не располагаю :( Можете погуглить magnet-ссылки (возможно, тут в треде где-то есть). Раньше был репозиторий llama-dl, но его прикрыли, похоже. Кстати, может быть есть форки. Я только рекомендую также найти хэши оригинальных моделей, а то кто-нибудь мог их модифицировать. Теоретически, насколько я знаю, существует вектор атаки на исполнение произвольного кода через модификацию модели torch (без понятия, как это работает, за что купил – за то продаю).

UPD: ниже в треде есть ссылки на Google Drive, но не знаю, рабочие ли.

Vergasilidze Mar 16 2023 at 13:30

Ссыль на архив модели не работает.

SmallDonkey Mar 16 2023 at 13:30

перезалил https://drive.google.com/file/d/1hXNMajATjZU0L_u4e2NKpbhakmilP_9G/view?usp=share_link

shark14 Mar 16 2023 at 13:30

А на русскоязычные промпты конкретно эта модель что бы ответила?

SmallDonkey Mar 16 2023 at 13:36

Русский через консоль не прокатывает, ответ таков

??? ????????? ????: ??????????? ????????? ????? ????? ????? ????? ????????? ???? ???? ??????? ??????? ?????? ????? ??????? ???? ??????? ???? ????? ??????

hiimluck3r Mar 16 2023 at 13:55

Проблема случаем не в отсутствии setlocale?

SmallDonkey Mar 16 2023 at 13:58

Надо смотреть исходники, или спрашивать здесь https://github.com/ggerganov/llama.cpp, я не знаю

FreeNickname Apr 5 2023 at 12:57

На macOS работает.

Порой выходит забавно))

take Mar 16 2023 at 13:51

https://github.com/shawwn/llama-dl

This repository contains a high-speed download of LLaMA, Facebook's 65B parameter model that was recently made available via torrent

SmallDonkey Mar 16 2023 at 13:56

219 ГБ

NeoCode Mar 16 2023 at 21:28

Это все вместе. А так 7B=12Gb, 13B=24Gb, 30B=60Gb, 65B=121Gb.

OwlCloud Mar 16 2023 at 16:02

Что-то в консоли не выводится никакой текст, программа выполняется, но не выводит ответ.

main: prompt: 'Hello'
main: number of tokens in prompt = 2
1 -> ''
10994 -> 'Hello'

sampling parameters: temp = 0.800000, top_k = 40, top_p = 0.950000, repeat_last_n = 64, repeat_penalty = 1.000000

SmallDonkey Mar 16 2023 at 16:03

Какой параметр у вас -t , сколько потоков поставили?

SmallDonkey Mar 16 2023 at 16:07

На минималках попробуйте model_7b.bin" -t 2 -n 64 --repeat_penalty 1.0 -p "What is the largest country in Europe?:"

Hmyakro Apr 6 2023 at 15:22

Тоже не работает. Не нашли решения?
И это пробовал: llama.exe -m "C:/llama/model_7b.bin" -t 2 -n 64 --repeat_penalty 1.0 -p "What is the largest country in Europe?:"

CodeName33 Mar 16 2023 at 20:54

Было также на одном компе со старым процессором Xeon, если запускать экзешник под виндой или пытаться под виндой его собрать и запустить. Если же собрать и запустить его из под WSL 1 (Ubuntu) - все заработало на той же винде. На другом компе с райзеном все заработало сразу без этих танцев. Памяти на обоих компах одинаково.

blackibe Mar 16 2023 at 18:48

Пока модель выдает только что-то похожее на бредогенератор, малосвязные предложения

SmallDonkey Mar 16 2023 at 18:52

Это не чат бот ChatGPT, хотите готовый ChatGPT качайте 219 ГБ и тренируйте на своих данных.

Вполне нормально выдаёт

Stephen King is

Stephen King is one of my favourite authors. I've read most of his books and have enjoyed every single one. If you've not read any of his books before I would recommend starting with either The Stand or The Green Mile. These two books in particular are his best novels.
The Green Mile is set in the 1930's in a prison in the Deep South of America

Who is Joe Biden and what is he known for?

Joe Biiden is known as a successful and skilled politician. He is a well known name in the real estate sector. He is also a businessman who has invested in several sectors such as real estate, construction and development. He has been involved in several successful business ventures since he started his career.

What is the largest lake in the world?

The largest lake in the world is the Caspian Sea, which is a sea in the Caucasus region. It is the largest lake in the world with an area of 1,191,000 sq. km. It is also the world's largest lake, located in Russia and Iran.

И почитайте https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md

LurkHub Mar 21 2023 at 05:18

а не подскажите как запустить эти 219 гигов? У меня например ggml-alpaca-13b-q4.bin модель выглядит так , Вот так я на Винде запускаю .\Release\chat.exe -m ggml-alpaca-13b-q4.bin. А там куда разных файлов .. Или данную модель ggml-alpaca-13b-q4.bin можно обучить как то?

SmallDonkey Mar 16 2023 at 19:02

Наверно не стоит ожидать что сюда с неба упадет готовый ИИ похожий на ChatGPT, который можно было бы запустить на домашнем компьютере, учитывая что корпорации типа Google и Microsoft вкладывают миллиарды вечнозелёных в это дело, и тренируются такие сети на суперкомпьютерах.

blackibe Mar 16 2023 at 19:12

Ну ты и КЭП)

В любом случае, пока очень плохо объективно.

bugman Mar 20 2023 at 19:12

Я так же думал, но вот оно случилось - https://habr.com/ru/news/t/723638/

UFO just landed and posted this here

SmallDonkey Mar 16 2023 at 23:07

trained on one trillion tokens - тренированная на триллионе токенов, ошибка переводчика

Mixed F16 / F32 precision 12.5 Гб оригинальный .pth файл на диске у меня

NeoCode Mar 16 2023 at 23:33

Всё получилось, для домашнего ПК результат замечательный. Конечно, на урезанной модели гораздо лучше видна ее вероятностная природа. Надеюсь что в ближайшее время энтузиасты определят, какое нужно железо для моделей 13B, 30B и 65B.

А главное что это реально воодушевляет - вот она нейросеть, умеющая отвечать на вопросы, и не в каком-то там мегадатацентре, а у себя дома.

Кстати Debug версия программы под отладчиком работает просто дико медленно, наверное минут 10 писала ответ на вопрос. Для русского языка там все непросто: нужно сконвертировать текстовый ввод из win1251 в utf8, а текстовый вывод из utf8 в cp866. Я это сделал, и оно заработало и по русски тоже. Но ответ конечно бредовый, видимо на долю русского языка при обучении попало совсем немного. И токенизация интересная (хотя может для синтетических языков так и должно быть?).

Hidden text

main: prompt: 'Какая самая большая страна в Европе?:'
main: number of tokens in prompt = 14
     1 -> ''
 17831 -> 'Ка'
 22972 -> 'кая'
 24640 -> ' сам'
 29910 -> 'а'
 29970 -> 'я'
  9935 -> ' боль'
 15766 -> 'шая'
  8440 -> ' стра'
   477 -> 'на'
   490 -> ' в'
 15824 -> ' Евро'
  2100 -> 'пе'
 25825 -> '?:'

sampling parameters: temp = 0.800000, top_k = 40, top_p = 0.950000, repeat_last_n = 64, repeat_penalty = 1.000000


Какая самая большая страна в Европе?: Из социологических исследований этнических религий
Серия: Серия научных работ по археологии
Автор: Ольга Марек
Название: Какая саммица большая страна в Европе: Из социологи

main: mem per token = 14368644 bytes
main:     load time =  4236.86 ms
main:   sample time =  8939.64 ms
main:  predict time = 443507.78 ms / 5759.84 ms per token
main:    total time = 479235.28 ms

Balling Mar 16 2023 at 23:37

Токен итак по слогам. Для 65B нужно 8xA100.

UFO just landed and posted this here

kryvichh Mar 17 2023 at 02:15

Я запускал вот этот LLaMA-чат, на компьютере с 64 Gb памяти.

Самая маленькая LLaMA 7B запускалась и работала бодро, во время инференса отъедала 14 Gb оперативки, скорость инференса -- 1.6 сек./токен.

Модель LLaMA 13B при подготовке отъедала до 60 Gb оперативки в пике, при инференсе кушает 25 Gb, cкорость работы -- 3.1 сек./токен.

Модель LLaMA 30B при подготовке (мерджинг, converting checkpoints to arrow format) в пике отъедала 147 Gb ОП. Время первой загрузки сети с подготовкой -- 77 минут. Во время инференса занимает 71 Gb ОП, скорость работы -- 8 сек./токен.

Модель LLaMA 65B не пытался запускать, мощности компьютера явно не хватит.

Я задавал вопросы только на русском языке. Ответы получал по-русски и по-английски. LLaMA 7B бодро отвечала связным текстом, без грамматических ошибок, но часто несла околесицу. На практике бесполезна, только для тестирования работы компьютера с LLaMA и настройки ПО.

Модель LLaMA 13B отвечала осмысленнее, но надо больше тестов чтобы к ней привыкнуть и понять, насколько она полезна. С моделью LLaMA 30B диалог шёл ещё лучше, если бы не скорость ответов.

Как вывод: ясно, что у Meta в обучающей выборке было достаточно много русских текстов. 13B и сама писала: "I know English, French, Russian, Italian, Chinese, Spanish, Japanese and Korean." А 30B самоуверенно заявила: "Могу помочь вам с любыми 500 языками на планете Земля!" Спрашивал и про знание белорусского, но тут полный провал, отвечала бредовым текстом из беспорядочно составленных кусков слов, типа: "Моя байлоўная моўлі мае старага-беларуская мова. Кажайце я не збіру быць унагодна тэбям.". Видно, какие-то белорусские тексты или фрагменты прокрались в обучающую выборку, но их было явно недостаточно чтобы обучить чему-то полезному.

Для себя останавливаюсь на LLaMA 13B, попробую извлечь из неё какую-то пользу.

+11

SmallDonkey Mar 17 2023 at 04:09

красаучик

SmallDonkey Mar 17 2023 at 04:15

Я заметил такую фишку, если ставить параметр --t больше чем количество ядер процессора начинает дико тупить, скорость 1 токен в 2 минуты...

kpmy Mar 17 2023 at 18:20

Автору спасибо, очень доступно получилось.

Кстати, если кому надо сэкономить сутки времени, вот 65B модель сконвертированная для в 4 бита для llama.cpp magnet:?xt=urn:btih:4AAF30E317463E4626CEBAC2E7381748B25D9348

SmallDonkey Mar 17 2023 at 18:30

а скока там веса в ней в ГБ?

kpmy Mar 17 2023 at 19:01

38Гб получилось. RAM займёт столько же.

kpmy Apr 1 2023 at 12:06

30 марта ребята поменяли формат файла модели. Актуальная раздача обновлена magnet:?xt=urn:btih:AD0086338011A490C20DDDCA18FC3E500CD96BBD

dimnsk Mar 17 2023 at 19:26

Не слили, а выложили на торренты.

mm3 Mar 17 2023 at 23:53

на huggingface уже широкий выбор https://huggingface.co/decapoda-research для загрузки через transformers квантизованых через https://github.com/qwopqwop200/GPTQ-for-LLaMa и большое количество разных проектов на гитхабе например https://github.com/markasoftware/llama-cpu и https://github.com/juncongmoo/pyllama

mm3 Mar 18 2023 at 12:13

дальнейшие поиски вывели меня ещё на два очень интересных проекта универсальных интерфейсов для больших текстовых моделей https://github.com/cocktailpeanut/dalai и https://github.com/oobabooga/text-generation-webui с поддержкой большого разнообразия моделей и способов их запуска на локальной машине

berng Mar 19 2023 at 06:58

Квантизовал до 4х бит под Linux. Русский UTF8 вроде понимает, но отвечает как пьяный сапожник - невпопад, заикаясь и повторяясь. Что на русском, что на английском. Учитывая, что википедия занимает меньше, чем эта модель, полезность весьма сомнительна. Но, как чатик поиграться - да, забавно

artist60 Mar 22 2023 at 21:31

Не понимаю где качать ggml модели ? Обязательна ли квантезация в 4 бит если я возьму модели от сюда https://huggingface.co/decapoda-research/llama-7b-hf/tree/main ? Так же в виндовой версии не вижу convert-pth-to-ggml.py, там только 3 .exe файла.

BorisG Apr 5 2023 at 15:26

Кто нибудь пробовал заставлять модель генерировать код? Я попробовал ощущения неоднозначные, интересно как большие себя поведут по кодогенерации.

aleksanderL Apr 5 2023 at 18:57

Интересно, её реально дообучить на своих данных?

mossystump Apr 6 2023 at 15:23

Один раз ответила про страны европы, теперь ничего не говорит - только системное сообщение что программу не возможно запустить на моем ПК и нужно обращаться к разработчику приложения. Подскажите как это обходить?