volinski Sep 15 2023 at 11:46

Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций

8 min

6.9K

VK corporate blogBig Data*Machine learning*Artificial Intelligence

+21

Comments 5

Moog_Prodigy Sep 15 2023 at 14:42

К "советам" я бы добавил еще один:

Не душите модель цензурой, иначе ее никто не будет использовать.

Примеры у всех перед глазами.

vagon333 Sep 15 2023 at 19:18

Оффтоп: а в каком инструменте такую наглядную инфографику нарисовали?
Хочу спереть, для своих описаний процессов. :)

boombick Oct 3 2023 at 19:47

это PowerPoint

Ilya999Ilya Sep 18 2023 at 08:01

Александр, спасибо, очень интересная статья. А можете, пожалуйста, поделиться мыслями:

Почему вы за основу взяли именно Pythia-12B и какие еще были кандидаты?
Какой датасет вы использовали для дообучения? Или поделитесь хотя бы параметрами и принципами создания этого датасета - хочется понять, что нужно для дообучения модели, чтобы были похожие результаты.

volinski Sep 18 2023 at 16:42

Pythia-12B взял по нескольким причинам:
- полностью Open source с возможностью коммерческого использования;
- оптимальное число параметров с учетом доступных на тот момент ресурсов для обучения;
- поддержка из коробки данной модели в различных библиотеках как при fine tunning, так и при serving;
Смотрел еще множество разных моделей. Все сейчас не вспомню.
Они не подходили, либо по модели лицензирования, либо по числу параметров, уровню поддержки в популярных библиотеках.

Относительно датасета. Это датасет в формате Вопрос/Ответ.
Собран был частично из датасетов Dolly и Alpaca на русском языке, далее дополнен по модели Alpaca по требуемым темам и задачам.