Pull to refresh

Comments 18

Спасибо за статью, как раз то, что хотел почитать, но руки не доходили.

Я правильно понимаю, что можно дообучить таким образом ту же LLaMA на какой-нибудь большой доке и она начнёт ориентироваться в предмете? Или дать очень большой текст (условную войну и мир) и дальше сделать сокращённый пересказ и уточнить детали, пропущенные в нём? Если да, то буду рад разбору задач в будущем, ну или просто ссылкам по теме.

В принципе, да, но мне кажется что в этом нет особого смысла. После выхода клауди 2-100к и гпт-4 32 к, нейронка может за раз скушац ~75к слов, а это примерно в 3 раза меньше чем число слов ВО ВСЕХ произведениях пушкина, так что эту статью можно просто подать внутри промта.

К тому же текстовой модели, работающей в формате диалога тоже хорошо бы подавать данные в таком формате. То есть Инструкция, вопрос - правильный ответ. Так что эту длинную статью придется приобразовать в набор таких вопросов

В этом есть прямой смысл, дообучение на локальных данных пользователя. Примерно так это и делается в localGPT или privateGPT

Открытые модели, кушашие столько токенов за раз подтянутся за проприетарщиной, и скоро вы сможете делать то же самое локально!

Эти сетки умеют по-русски?

Есть два ключевых момента:
* В сети есть ембединги для русских слов - необязательно
* Сеть обучалась на текстах на русском - обязательно

При этом наличие хороших эмбедингов не является прям на 100% необходимым. Если их не будет, модель будет кодировать слова "посимвольно" (или 1-2 буквы) и все равно что то поймет

Например GPT-3 плохо кодирует русские слова, но в принципе может на нем.
Claude-2 можно тут (бесплатно, без VPN). В принципе она может говорить на русском, хотя разрабы в нее это не закладывали.

Только cladue-100k не умеет нормально в русский язык, да и токенайзер там скорее всего не уложит русские слова в 1-2 токена.

Да. Oobabooga даёт тренировать лору из гуя.
Готовые лоры можно найти на том же huggingface. Если повезёт, в описании буду т даже указаны параметры тренировки. Для большинства хороших лор есть смерженные с основной моделью
Llama.cpp наверное тоже умеет уже.
Для тренировки "руками" (из питона а не гуя) используется например библиотека peft. Во всяком случае ее использовали до появления qlora. Сейчас может на qlora перешли.

Ха ха, так же подумал. А тут оказывается дрова лежат.

Заодно передаю привет мобильной версии Хабра без ката.

Я когда сам пытался разобраться тож постоянно натыкался на статьи про это

А как дообучать квантованую int4 llama-подобную модель ? Т.к. кажется способ через llama-gptq и monkeypatch больше не работает, ошибка которую я не смог победить - нет модуля autograd-int4 ;) а fp16 в 24g не влазят. (Да я пробовал ставить llama-gptq с версии из мануала, это помогло пройти предыдущего босса)

Проблема именно в квантовании или в LoRA?

в том, что 4bit модель с настройками, которые должны подходить для использования и создания lora, загрузить не получается :) А для запуска не квантованной модели нет железа.

Для обучения в 4bit нужно использовать QLoRA

Про квантизацию написаны неправильные вещи.

  1. Основная причина использовать int8 - это экономия GPU RAM. С точки зрения финального качества fp16 лучше int8.

  2. LLM.int8/QLoRA - это mixed precision методы, у них нет никаких плюсов с точки зрения скорости работы модели.

  3. QLoRA - это int4, а не int8.

Sign up to leave a comment.

Articles