murat_apishev May 4 2023 at 15:11

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

Hard

59 min

19K

Just AI corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

Review

+28

Comments 15

vagon333 May 4 2023 at 17:12

Ориентироваться в потоке статей, моделей и подходов стало непросто даже вовлечённым специалистам.

Невовлеченным еще сложнее.
Благодарю за объемный анализ.

… надо бы а) внимательнее изучить те работы, что я пропустил или проглядел мельком; б) лучше структурировать всю информацию о моделях и разных практических техниках, которая у меня накопилась за последние годы.

Масса информации, но по прочтении статьи ощущение незаконченности — нет суммирующих выводов.
Сложно понять, как использовать эту информацию. Начинающим самим сделать выводы не по силам.
Может было бы полезно добавить тренды, обратить внимание на модели с максимальным потенциалом?

murat_apishev May 4 2023 at 19:14

Спасибо за обратную связь. Вы правы, в ближайшее время сформулирую и добавлю выводы.

Yuriks111 May 5 2023 at 06:05

Спасибо, вот еще в копилку. Да, основной вывод что "моделей много и будет больше"

Было бы интересно разобраться как сравнивать и выбирать модели для разных целей. Когда нужны трансформеры, когда другие NN или вообще не NN.

Тут есть много пользовательских бенчмарков, но в них еще сложнее разобраться чем в самих моделях)

murat_apishev May 6 2023 at 13:36

Эта таблица от того же автора, что и каталог по моей первой ссылке) С полноценными сравнениями есть сложности, в т.ч. и в статьях. При выборе подхода я обычно отталкиваюсь от задачи, простые дискриминативные кейсы (обычно всякие классификации) с большим объекмом данных можно с высоким качеством решать с помощью линейных моделей или простых CNN. Некоторые задачи разметки и NER могут эффективно решаться с помощью регулярок и правил на грамматиках. Но в остальных случаях я бы скорее решал не "трансформер или не трансформер", а "какой именно трансформер" с т.з. решаемых задач, размеров и поддержки языков. Тут при выборе можно опираться на лидерборды разных бенчмарков, например https://huggingface.co/spaces/mteb/leaderboard

Yuriks111 May 6 2023 at 15:24

Да, спасибо. Был бы интересен именно такой анализ от типа задачи -> подход к выбору модели

AlexKimen May 4 2023 at 19:52

Спасибо большое. Видно, что проделана огромная работа.

firstleon May 4 2023 at 21:15

Отличный обзор. Стараюсь отслеживать эту тему, но узнал о многих моделях из вашей статьи.
Но как же вы пропустили vicuna? По моим "ощущениям" сильно лучше чем alpaca.
А раз у вас получается хорошо излагать знания в текстовом виде - есть такие проекты как "llama.cpp", "Auto-GPT". Возможно сможете рассказать о них и их скрещивании большой аудитории.

murat_apishev May 6 2023 at 13:28

Я могу навскидку назвать ещё десяток интересных моделей, которые можно было бы упомянуть, но времени на всех не хватает. Тем не менее, vicuna действительно хороша, добавил немного информации из её блог-поста. По поводу других тем - спасибо, подумаю.

QtRoS May 9 2023 at 18:14

Кажется, это новая реальность прогресса в сфере языковых моделей, которая отлично проиллюстрирована на картинке под спойлем

Смотреть

Где-то там ещё есть Koala, например. Каждый день что-то новое появляется!

phenik May 5 2023 at 07:56

Не увидел есть ли в ссылках.

TRANSFORMER MODELS: AN INTRODUCTION AND CATALOG

murat_apishev May 6 2023 at 13:29

Есть, это тот же каталог, что и в первой моей ссылке, но выложенный в виде статьи на arxiv

agray May 5 2023 at 18:11

Не ИИ, а просто нейросети, ИИ пока ещё не создано, к сожалению.

Yuriks111 May 8 2023 at 06:52

Помогите разобраться пож. На https://huggingface.co/models 192тыс опенсорс моделей (+30тыс чекпоинтов), все вариации трансформеров. У вас и др. уважаемых источников их ~100. Это разница в определении?

murat_apishev May 8 2023 at 13:47

Одни и те же типы моделей могут обучаться разными организациями, на разных данных, языках, в разных размерах и версиях. В transformers типы моделей указаны в доке, например https://huggingface.co/docs/transformers/model_doc/roberta (см. слева столбец с разными классами моделей).

fedorro May 23 2023 at 15:38

Статья хорошая, но со спойлерами перебор - я устал по ним жать чтобы открыть.