bartov-e Dec 19 2023 at 21:34

'Attention is all you need' простым языком

Easy

6 min

8.8K

Natural Language Processing*

Tutorial

Translation

Comments 8

Kreastr Dec 20 2023 at 06:26

Ожидал увидеть в статье описание того как получают Q, K и V ( кроме общих слов про бэкпроп, который есть в любом методе обучения) и архитектуре, и почему такой метод расчета оказался так важен для производительности системы в сравнении с другими архитектурами.

bartov-e Dec 20 2023 at 12:24

Спасибо, покопаюсь в этом направлении, мне туда тоже интересно идти. Для меня пока и эта инфа была новой, поэтому решил поделиться, вдруг кому-то еще такие объяснения как-то помогут разобраться.

Tihron Dec 20 2023 at 12:24

Таких статей много.Но ни одна не рассказывает об получении Q, K и V. Эта статья не уникальна, не оригинальна, просто повторение ранее выложенной в Сеть информации

bartov-e Dec 20 2023 at 12:26

Спасибо за критику, учту. Однако оговорюсь, что я именно поэтому метки и поставил: уровень - "легкий", тип публикации - "Туториал". Туториалов лучше иметь побольше разных, никогда не знаешь, кому какое объяснение лучше зайдет. Мне лично зашло это.

Про то, как вычислять Q, K и V - мне тоже интересно, буду копать в этом направлении, если найду что-то интересное, закину.

Aykeye Dec 20 2023 at 14:55

Из туториалов мне больше всего нравится Illustrated Transformer.
https://jalammar.github.io/illustrated-transformer/
Она очень подробно объясняет саму суть, и математика там по шагам расписана с числами и иллюстрациями, показывающие размерность данных.

bartov-e Dec 20 2023 at 15:38

Спасибо. Положил в бэклог. Если кто-то из практикантов-переводчиков заинтересуется, сделаем перевод - вывесим здесь.
Практикантов мне присылают регулярно, так что очень даже может получиться (правда, переводчики математику не жалуют :))).

DandyDan Dec 20 2023 at 15:57

Советую посмотреть код nanoGPT — он реально миниатюрный, и из него в целом можно понять, откуда берутся матрицы.

Так же советую серию видео From Zero to Hero от того же автора.

bartov-e Dec 20 2023 at 15:58

Спасибо, гляну.

Show the best of all time