ErmIg Apr 11 at 15:08

Теоретическая и реальная производительность Intel AMX

Hard

11 min

High performance*C++*Algorithms*Image processing*Artificial Intelligence

Tutorial

+30

Comments 10

unreal_undead2 Apr 11 at 16:31

Это в 16 раз больше того, что можно достичь при использовании AVX-512 в формате float32.

Всё таки стоит сравнивать с AVX512_BF16

И, кстати, с oneDNN не сравнивались?

ErmIg Apr 11 at 16:39

Тут такое дело, что AVX512_BF16 отдельно от AMX достаточно редко встречается (в Cooper Lake есть, в следующем поколении Ice Lake его уже нет). Но в целом с замечанием согласен.

С oneDNN пока не сравнивал. Было желание самому разобраться с тем как это работает.

unreal_undead2 Apr 11 at 16:55

Тут такое дело, что AVX512_BF16 отдельно от AMX достаточно редко встречается

А нет ли смысла (и возможно ли) использовать и то и другое одновременно?

Было желание самому разобраться с тем как это работает.

Да, для самообразования (и образования других) работа отличная. Но стоит посмотреть, сколько ещё могут выжать профессионалы (всё таки нюансов там много, скажем даже при обычном умножении матриц на SSE/AVX/AVX512 кроме обычного кеша надо думать ещё про TLB).

ErmIg Apr 11 at 17:19

А нет ли смысла (и возможно ли) использовать и то и другое одновременно?

Я первым делом померял производительность AVX512_BF16 на Sapphire Rapids. Может я его не правильно использовал, но получилось, что он работает в 2 раза медленнее обычного AVX512. По сути бесполезен. Я так огорчился, что даже выпилил весь код с ним из Simd.

Да, для самообразования (и образования других) работа отличная. Но стоит посмотреть, сколько ещё могут выжать профессионалы (всё таки нюансов там много, скажем даже при обычном умножении матриц на SSE/AVX/AVX512 кроме обычного кеша надо думать ещё про TLB).

Смотрю разное, изучаю. Если будут какие нюансы обнаружены, добавлю в статью.

Пока писал статью, нашел нюансы позволяющие выжать дополнительные 20% :)

ginger_snab Apr 22 at 10:40

Правильно ли я понимаю, що блок Intel AMX идет один на каждое ядро?
Если этот блок находится отдельно, есть ли возможность одновременно исполнять код на обычных регистрах или AVX/AVX2/AVX512 и на AMX одновременно?
Если результат умножения матриц мне нужен для дальнейше работы, я должен его выгрузить в L1/L2/L3 кеш перед тем как использовать инструкции AVX/AVX2/AVX512?

ErmIg Apr 22 at 10:55

Да судя по результатам тестов блок AMX один на ядро. Я пробовал запускать команды AMX последовательно и с возможностью их одновременного исполнения. Если бы там было больше одного исполняемого устройства, то это было бы видно, но результат идентичен для обоих случаев.
Операции AMX выполняются синхронно. Операция матричного умножения выполняется 16 тактов. Судя по содержанию конфигурационного регистра, ОС может прервать выполнение этой инструкции и потом продолжить исполнение с произвольной позиции (за это отвечает параметр startRow). На пользовательском уровне что-либо подобное сделать нельзя. При любом изменении конфигурации происходит очистка регистров с данными.
AMX регистры могут работать только с памятью (кэшем). Из обычных регистров туда что-либо загрузить или выгрузить нельзя, хотя было бы очень удобно для ряда операций (подготовка данных на лету, пост обработка результатов).

ginger_snab Apr 25 at 00:30

Есть ли информация про roadmap AMX, я не смог ничего найти про возможные расширения инструкций?
Слышно ли о планах AMD имплементировать его?

ErmIg Apr 25 at 09:44

В следующем (шестом) поколении серверных процессоров Granite Rapids ожидается добавление в AMX поддержки формата FP16 (5 бит экспонента, 10 бит мантисса), а также комплексных (тоже FP16) чисел.
Искал, но ничего не нашел. С одной стороны, АМД только недавно внедрили полноценный AVX-512. С другой стороны, если они через несколько лет внедрят AMX сразу за один раз (INT8, BF16, FP16) может будет даже лучше с точки зрения поддержки. А вообще, как мне кажется, AMX в той или иной форме - это практически единственный путь дальнейшего повышения производительности, если не считать дальнейшее увеличение числа ядер.

unreal_undead2 Apr 25 at 10:05

AMX в той или иной форме - это практически единственный путь дальнейшего повышения производительности

На достаточно узком наборе ворклоадов, где ещё и с GPU приходится конкурировать.

ErmIg Apr 25 at 10:24

Тут не поспоришь.

Show the best of all time