freQuensy23 Jul 12 2023 at 15:00

Кто же такая это ваша LoRA

Medium

5 min

38K

Mathematics*Machine learning*

Review

+35

Comments 18

bfDeveloper Jul 12 2023 at 15:56

Спасибо за статью, как раз то, что хотел почитать, но руки не доходили.

Я правильно понимаю, что можно дообучить таким образом ту же LLaMA на какой-нибудь большой доке и она начнёт ориентироваться в предмете? Или дать очень большой текст (условную войну и мир) и дальше сделать сокращённый пересказ и уточнить детали, пропущенные в нём? Если да, то буду рад разбору задач в будущем, ну или просто ссылкам по теме.

freQuensy23 Jul 12 2023 at 16:12

В принципе, да, но мне кажется что в этом нет особого смысла. После выхода клауди 2-100к и гпт-4 32 к, нейронка может за раз скушац ~75к слов, а это примерно в 3 раза меньше чем число слов ВО ВСЕХ произведениях пушкина, так что эту статью можно просто подать внутри промта.

К тому же текстовой модели, работающей в формате диалога тоже хорошо бы подавать данные в таком формате. То есть Инструкция, вопрос - правильный ответ. Так что эту длинную статью придется приобразовать в набор таких вопросов

freQuensy23 Jul 12 2023 at 16:13

Преобразовать*

nbkgroup Jul 12 2023 at 23:11

В этом есть прямой смысл, дообучение на локальных данных пользователя. Примерно так это и делается в localGPT или privateGPT

freQuensy23 Jul 13 2023 at 03:42

Открытые модели, кушашие столько токенов за раз подтянутся за проприетарщиной, и скоро вы сможете делать то же самое локально!

dilukhin Jul 30 2023 at 13:04

Эти сетки умеют по-русски?

freQuensy23 Jul 30 2023 at 14:28

Есть два ключевых момента:
* В сети есть ембединги для русских слов - необязательно
* Сеть обучалась на текстах на русском - обязательно

При этом наличие хороших эмбедингов не является прям на 100% необходимым. Если их не будет, модель будет кодировать слова "посимвольно" (или 1-2 буквы) и все равно что то поймет

Например GPT-3 плохо кодирует русские слова, но в принципе может на нем.
Claude-2 можно тут (бесплатно, без VPN). В принципе она может говорить на русском, хотя разрабы в нее это не закладывали.

artishevcom Aug 16 2023 at 14:20

я пользуюсь claude2 на сайте https://claude.ai/chats

очень хорошо, лучше GPT4

Kristaller486 Jul 24 2023 at 20:06

Только cladue-100k не умеет нормально в русский язык, да и токенайзер там скорее всего не уложит русские слова в 1-2 токена.

Guul Jul 30 2023 at 20:50

Да. Oobabooga даёт тренировать лору из гуя.
Готовые лоры можно найти на том же huggingface. Если повезёт, в описании буду т даже указаны параметры тренировки. Для большинства хороших лор есть смерженные с основной моделью
Llama.cpp наверное тоже умеет уже.
Для тренировки "руками" (из питона а не гуя) используется например библиотека peft. Во всяком случае ее использовали до появления qlora. Сейчас может на qlora перешли.

NutsUnderline Jul 13 2023 at 08:58

а я то подумал что это "LoRa (Long Range) — запатентованная, проприетарная технология модуляции маломощной сети передачи данных со скоростью 0,3-50 кб/с и дальностью от 1 до 15 км." ;)

U-Janus Jul 13 2023 at 09:27

Ха ха, так же подумал. А тут оказывается дрова лежат.

Заодно передаю привет мобильной версии Хабра без ката.

freQuensy23 Jul 17 2023 at 18:31

Я когда сам пытался разобраться тож постоянно натыкался на статьи про это

Opaspap Jul 13 2023 at 10:50

А как дообучать квантованую int4 llama-подобную модель ? Т.к. кажется способ через llama-gptq и monkeypatch больше не работает, ошибка которую я не смог победить - нет модуля autograd-int4 ;) а fp16 в 24g не влазят. (Да я пробовал ставить llama-gptq с версии из мануала, это помогло пройти предыдущего босса)

freQuensy23 Jul 15 2023 at 21:18

Проблема именно в квантовании или в LoRA?

Opaspap Jul 16 2023 at 06:30

в том, что 4bit модель с настройками, которые должны подходить для использования и создания lora, загрузить не получается :) А для запуска не квантованной модели нет железа.

Kristaller486 Jul 24 2023 at 20:12

Для обучения в 4bit нужно использовать QLoRA

Takagi Jul 13 2023 at 11:25

Про квантизацию написаны неправильные вещи.

Основная причина использовать int8 - это экономия GPU RAM. С точки зрения финального качества fp16 лучше int8.
LLM.int8/QLoRA - это mixed precision методы, у них нет никаких плюсов с точки зрения скорости работы модели.
QLoRA - это int4, а не int8.

Show the best of all time