Pull to refresh

Comments 5

>Как я покажу позже, оказалось, что результат работы сети с прямой связью — это основной фактор, определяющий то, как блок преобразует свои входные данные в выходные.

Более того - блоки внимания можно вообще убрать, заменив их на другие фидфорвард блоки. Существенно ни чего не изменится от этого)

Интересная статья. Насколько я понял, автор ведёт к тому, что где-то половина "трансформера" это обычная линейная апроксимация FF сетью. Но все же остаётся вторая половина, которая использует внимание для кодирования-декодирования. Так то и в reinforcement learning у "обычной" flat нейроной сети в конце может быть большая доля всех параметров, но это не отменяет факт того, что что бы её обучить, нужен RL подход

Работа и интерпретация показались мне интересными, хотел воспроизвести ваш результат, взял предложенный вами ноут https://github.com/spather/transformer-experiments/blob/master/nbs/models/transformer.ipynb
Запустил в коллаб. Ошибки.
Нет библиотек и прочего.
Подскажите есть ли готовый ноутбук, чтобы можно было воспроизвести ваши результаты?

Это переводная статья, попробуйте обратиться к автору по ссылке в шапке публикации.

Не обратил сразу внимания.
Да, уже обратился. Получил рекомендацию.

Sign up to leave a comment.

Articles