Pull to refresh

Comments 8

Ожидал увидеть в статье описание того как получают Q, K и V ( кроме общих слов про бэкпроп, который есть в любом методе обучения) и архитектуре, и почему такой метод расчета оказался так важен для производительности системы в сравнении с другими архитектурами.

Спасибо, покопаюсь в этом направлении, мне туда тоже интересно идти. Для меня пока и эта инфа была новой, поэтому решил поделиться, вдруг кому-то еще такие объяснения как-то помогут разобраться.

Таких статей много.Но ни одна не рассказывает об получении Q, K и V. Эта статья не уникальна, не оригинальна, просто повторение ранее выложенной в Сеть информации

Спасибо за критику, учту. Однако оговорюсь, что я именно поэтому метки и поставил: уровень - "легкий", тип публикации - "Туториал". Туториалов лучше иметь побольше разных, никогда не знаешь, кому какое объяснение лучше зайдет. Мне лично зашло это.

Про то, как вычислять Q, K и V - мне тоже интересно, буду копать в этом направлении, если найду что-то интересное, закину.

Из туториалов мне больше всего нравится Illustrated Transformer.
https://jalammar.github.io/illustrated-transformer/
Она очень подробно объясняет саму суть, и математика там по шагам расписана с числами и иллюстрациями, показывающие размерность данных.

Спасибо. Положил в бэклог. Если кто-то из практикантов-переводчиков заинтересуется, сделаем перевод - вывесим здесь.
Практикантов мне присылают регулярно, так что очень даже может получиться (правда, переводчики математику не жалуют :))).

Советую посмотреть код nanoGPT — он реально миниатюрный, и из него в целом можно понять, откуда берутся матрицы.

Так же советую серию видео From Zero to Hero от того же автора.

Sign up to leave a comment.

Articles