m1rko Jun 24 2018 at 22:54

Почему процессоры Skylake иногда работают в 2 раза медленнее

10 min

58K

.NET*Debugging*CPU

Translation

+149

Comments 64

dimkrayan Jun 25 2018 at 01:02

Интересно, а как с этим у джавы?
И у других языков?

MikeVentris Jun 25 2018 at 02:13

Да, очень интересно было бы посмотреть на подобное исследование по другим языкам. Скажем, Java и Gо — как другие представители популярных языков, где рядовые разработчики часто не задумываются, как оно живет «под капотом».

nikitasius Jun 25 2018 at 14:12

где рядовые разработчики часто не задумываются, как оно живет «под капотом»

Блаблабла, сейчас столько фреймворков, что почти всем пофигу как оно живет под капотом.

dimkrayan Jun 25 2018 at 15:55

до тех пор, пока из-под капота дым не пойдет в виде замедления работы.

nikitasius Jun 26 2018 at 13:36

Дым и замедление..? У вас туго с логикой!

-2

Psychosynthesis Jul 26 2018 at 10:51

А вы таки думаете машина едет быстрее, когда у неё загорается двигаетль?

ange007 Jun 25 2018 at 02:57

«Если вы покупаете новейшее железо, то получите процессор с архитектурой Skylake.»
Прошу прощения но с телефона (из приложения) не понятно это перевод или нет?
Сейчас 8 поколение — CoffeLake, а Skylake это 6.
Думается сейчас ситуация уже должна измениться, или нет?

UFO just landed and posted this here

VADemon Jun 25 2018 at 06:03

Микроархитектура у Intel не менялась со времени выхода первого Skylake для ПК: Skylake 6xxx — Kaby Lake 7xxx (14nm+) — Cofee Lake 8xxx (14nm++, 6 ядер в настольном сегменте)
Серверные процессоры: Skylake-X и Skylake-SP (заменили кольцевую шину на меш). Только лишь на конец года намечен преемник — Cascade Lake.

https://en.wikichip.org/wiki/intel/cores/skylake_sp

nidalee Jun 25 2018 at 06:18

На самом деле даже архитектура не имеет значения — это изменение Intel сделал по каким-то своим соображениям специально, а значит в следующих архитекутрах (скорее всего) будет повторять.

dimkrayan Jun 25 2018 at 08:36

Предположу, что это сделано для того, чтобы иметь большую возможность распоряжаться ресурсами во время wait-а.
Если как сказано выше «спиннинг начинается с 50 вызовов паузы» — так почему бы грубо говоря вместо 50 не сделать 1 вызов? Зачем возвращаться?
Наверное, решение правильное, если вовремя поддержать это производителями софта.

vagran Jun 25 2018 at 09:19

И на мой взляд проблема всё-таки в .net. Почему 50, а не 42? Они делают какие-то допущения о длительности паузы, вместо того, чтобы проверить, сколько реально прошло (чтением tsc, например). Вполне возможно, что длительность паузы в будущих процессорах вообще станет динамической, в зависимости от состояния конвеера на других логических ядрах.

dimkrayan Jun 25 2018 at 09:31

А как узнать, что прошло N квантов времени? Для этого нужно прерваться и сравнить. Будете слишком часто прерываться — производительность упадет. Будете слишком много вычислять во время спинлока — производительность упадет.
Плюс, предположу, что сам по себе получение текущего времени — обращение к ядру. Так зачем тогда спинлок?
Вообще, эта задержка должна легко вычисляться при старте программы. Видимо, не ожидали.

vagran Jun 25 2018 at 10:12

Инструкция процессора такая есть — rdtsc, в большинстве ОС доступна в user space. Ничего прерывать или обращаться к ядру не надо.

dimkrayan Jun 25 2018 at 11:54

спасибо, не писал на ассемблере(и не интересовался новыми инструкциями) со времен 486.

Но все равно, 50 раз уснуть — это намного проще, чем уснуть, прочитать, сравнить… и не задействует ценные блоки процессора. А нужное количество тактов можно и при старте посчитать.
Плюс, интересно, что это значит: «Точные замеры могут быть невозможны при однократном исполнении измеряемого фрагмента инструкций из-за влияния кэшей процессора при обращении к памяти. Традиционно решается многократным измерением фрагмента программы или повторением измеряемого фрагмента в цикле.» Если оно может слишком рано выйти из спинлока — думаю, это не очень страшно. А если слишком поздно (тем более — если неограниченно поздно) — могут быть проблемы.

Aquahawk Jun 25 2018 at 15:02

С rdtsc тоже всё не просто. 1. Это счётчик циклов в процессоре с плавающей частотой. Вы получите такты а не циклы. 2. Это счётчик конкретного ядра. Если ОС перебросит вас на другое ядро, то вы получите совершенно другой счётчик, он может быть как больше так и меньше. 3. Не помню его битности но лично сталкивался с его переполнением на долго работающих машинах, да и вообще с уровня драйвера в него писать может кто угодно что угодно, во всяком случае на CORE2 архитектуре, когда я этим занимался, мы случайно набажили в драйвере и вместо считывания писали туда нули на каждом переключении контекста, что удивительно ничего не ломалось.

dimkrayan Jun 25 2018 at 15:11

ну, переполнение — не страшно в данном контексте. А вот прочитать данные из другого ядра — это может все сломать и вместо нескольких сотен тактов процессора прождете пол-дня.

А расскажите пожалуйста, где сейчас востребована эта магия? Можно ли по удаленке устроиться? А то иногда хочется чуть большего, чем в спринге аннотации развешивать.

Aquahawk Jun 26 2018 at 11:38

Студенческий проект по разработке профилировщика. Performance countres, хук swapContext в винде xp. И собирали метрики о кешмиссах и прочих тормозных ситуация в проце. Хукать надо потому что эти счётчики считают метрики просто по ядру и ему пофиг что там задачи переключаются.

dimkrayan Jun 27 2018 at 02:02

да, в школьные и студенческие годы чего только не писал. Жаль, тогда знаний не хватало. Зато свободного времени и желания изменить мир было хоть отбавляй.

Temtaime Jun 25 2018 at 15:25

1. Такт и цикл это синонимы. Что вы имеете в виду? Если вы про то, что процессор может уменьшать или увеличивать частоту, то это не приводит к тому, что иногда время измеряется быстрее, а иногда медленней — возвращаемое число тактов имеет константный интервал. Т.е. rdtsc игнорирует состояния энергосбережения процессора.
2. Нет, на современных процессорах счётчики синхронны между ядрами. Поэтому rdtsc предлагают иногда в качестве замены ACPI и HPET, т.к. накладные расходы минимальны.
3. Его разрядность 64 бита. Не знаю, что у вас за машины, но 2^64 / 3 giga / 60 / 60 / 24 / 365 даёт результат в 194980805785024010823 лет для его переполнения.
Как это вы его изменяли, если его невозможно изменить и есть только инструкция считывания? Его может сбросить только перезагрузка ПК.

Aquahawk Jun 26 2018 at 11:36

Дело было в 2007 году примерно, тогда точно на CORE 2 разные на разных ядрах были. Про переполнение опять же дело было на 32х битных ОС. Может только половинку его читали. Деталей точно не припомню, но у интела есть специальные регистры для снятия метрик производительности, количество фейлов бранч предиктора, кешмиссов и тп. И эти штуки из драйвера можно настроить. Мы делали профилировщик и на swapContext снимали метрики всякие. И тогда при ошибки получили обнуление TSC.

Aquahawk Jun 26 2018 at 11:39

И да такты и циклы попутал, имелось ввиду конечно такты а не время.

DistortNeo Jun 25 2018 at 17:14

1, 2. Насколько я помню, RDTSC уже давно является таймером, а не счётчиком циклов, причём синхронизированным между ядрами. Точнее, это зависит от режима работы процессора.

The time stamp counter in newer processors may support an enhancement, referred to as invariant TSC. Processor’s support for invariant TSC is indicated by CPUID.80000007H:EDX[8]. The invariant TSC will run at a constant rate in all ACPI P-, C-. and T-states. This is the architectural behavior moving forward. On processors with invariant TSC support, the OS may use the TSC for wall clock timer services (instead of ACPI or HPET timers). TSC reads are much more efficient and do not incur the overhead associated with a ring transition or access to a platform resource.

3. Да пускай переполняется, нас же разница интересует, а не абсолютное значение.

Aquahawk Jun 26 2018 at 11:40

Хм интересно, а как теперь именно такты померять? Для некоторых вещей в тактах как раз ценнее инфа чем в абсолютном времени.

DistortNeo Jun 25 2018 at 17:17

Главное не оказаться в ситуации, когда rdtsc доступна, но виртуализована, т.е. один вызов rdtsc превратится в несколько сот тактов из-за обращения к гипервизору.

Danik-ik Jun 25 2018 at 19:47

Вычисление паузы — проходили уже, когда программы на паскале с модулем crt (любые с цветным выводом в текстовом режиме) в конце 90-х начали вываливаться при запуске с делением на ноль. Скорость вычисляли. И тоже при этом "не ожидали". Нет в мире совершенства.

dimkrayan Jun 25 2018 at 19:58

а что мешает такой же факап допустить при вычислении паузы в любое другое время?

Raimon Jun 25 2018 at 12:18

Кстати в оригинальной статье, разработчик из MS написал workaround для текущих версий .NET, через изменение значений в реестре:

aloiskraus.wordpress.com/2018/06/16/why-skylakex-cpus-are-sometimes-50-slower-how-intel-has-broken-existing-code/#comment-274

Antervis Jun 25 2018 at 14:27

На самом деле, алгоритм предусматривает определенные допущения:

Спиннинг в .NET использует алгоритм экспоненциальной выдержки, когда он начинается с цикла из 50-ти вызовов pause, где для каждой итерации количество спинов утраивается, пока следующий счётчик спинов не превысит их максимальную продолжительность.

Планка может быть и не 50. Это значение явно было выбрано из каких-то формальных оценок (скорее всего, энергопотребления), не учитывающих скайлейки. Ну, бывает, поставят 5-10 и будет всё почти как раньше.

Axam Jun 26 2018 at 03:20

На серверный рынок Skylake попал с значительным опозданием. У крупных производителей модели начали появляеться в прошлом году только. Intel Xeon Scalable Gold/Platinum основан на Skylake микроархитектуре. Более новых процессоров пока нет.

Skerrigan Jun 26 2018 at 07:54

Меня другое интригует — я себе стац в конце 2015-го собирал на самых-самых первых Skylake, какие только появились на Amazone. А тут речь ведут про:

на последних процессорах, которые выпускались с середины 2017 года,

И как это понимать то? Автор допустил ошибку или смена (микро-изменение) логики вышла позже, чем я железо себе сменил?

old_bear Jun 26 2018 at 22:00

Тут речь о серверных процессорах, там обновление архитектуры со значительной задержкой происходит~~, когда домашние хомячки закончат бета-тест за свой счёт~~.

Arxitektor Jun 25 2018 at 06:42

это изменение Intel сделал по каким-то своим соображениям специально

А потом уберут и всем будет хорошо. )
Сделай плохо и затем верни как было )
Ну ни фига себе. На амд такого нет?
И ведь проблема как я понял будет везде где есть эта инструкция.
Больше ядер хороших и быстрых.

-1

SergeyMax Jun 25 2018 at 15:50

На амд такого нет?

As I said before – AMD has a different latency, so it’s an issue with a software in the first place.
Bulldozer – 50
Zen – 10
Jaguar – 50
Pretty big difference from pre Skylake architectures

aamonster Jun 25 2018 at 08:38

Я правильно понимаю, что проблема только с кодом, который много и часто ждёт освобождения Critical Section?
Если да — можно выдохнуть: такой код всё равно оставлять нельзя (надо уменьшать периоды локов или переходить на lock-free структуры данных). Ну и MS, опять же, заткнул со своей стороны.

-3

roscomtheend Jun 25 2018 at 09:16

MS звткнул — другие не заткнули, есть ещё унаследованный код, есть AMD с другими временами, есть более старые процессоры с другими временами.

RKGeek Jun 25 2018 at 11:10

Тоже согласен что к многопоточному программированию лучше так не подходить, один раз подождал блокировку и получил огромную пачку данных для работы, а не каждый раз ждать небольшую порцию.

aamonster Jun 25 2018 at 12:00

Если "получил огромную пачку для работы" — в идеале вообще не через наивные блокировки делать, а эту пачку давать как задание свободному (или специально созданному) воркеру.
Вообще многопоточность, грабли в ней и методы обхода этих граблей — интереснейшая тема, в которой регулярно всплывают новые (или хорошо забытые старые) решения.

tgregory Jun 25 2018 at 13:09

К сожалению, не всякая вычислительная задача укладывается в подобную парадигму. В некоторых задачах требуется обмен информацией между потоками в малых объёмах с низкой задержкой и высокой частотой.

RKGeek Jun 26 2018 at 07:02

кстати данная статья как раз доказывает что C# это не про производительность и что бы торговые роботы не сорили деньгами их нужно писать на C/C++/Asm/Go

-3

Antervis Jun 26 2018 at 11:41

а с чего вы взяли что под капотом примитивов синхронизации в c/c++/go не используются те же самые спинлоки на тех же самых инструкциях паузы?

UFO just landed and posted this here

Antervis Jun 25 2018 at 14:29

авторы торговых роботов за каждую микросекунду воюют, а вы предлагаете подождать пачку…

DistortNeo Jun 25 2018 at 17:20

Вряд ли авторы торговых роботов используют библиотечные решения для своих задач.

RKGeek Jun 25 2018 at 18:40

Например при обработке колизий в физическом движке можно хорошо распаралелить нахождение столкновений и тоже касается рассчетов силы и скоростей, или например в задачах факторизации чисел.

olgerdovich Jun 26 2018 at 01:26

Если я правильно понимаю, то это как раз тот случай, когда gpu в разы быстрее делают работу cpu за в разы меньший прайс? Может, тогда им это и предоставить?

RKGeek Jun 26 2018 at 07:07

Вообще GPU это процессор для графики, на него лучше грузить задачи по отрисовке. Можно сказать что тут нужен баланс загрузки ресурсов.

Antervis Jun 26 2018 at 09:09

любые хорошо распараллеливающиеся вычисления с плавающей точкой имеет смысл вычислять на GPU. Включая ту самую физику коллизий (PhysX, например), машинное обучение, майнинг и много чего еще

RKGeek Jun 26 2018 at 17:05

Тогда другой пример. Алгоритмы на графах можно массивно паралельно считать, например вычисления в синтаксических деревьях в интерпретаторах скриптов.

RKGeek Jun 26 2018 at 07:03

Сорян, не туда отвелил, ответ выше, про роботов ((=

-1

Raimon Jun 25 2018 at 08:58

удивительная история, спасибо за расследование. как будто уже сталкивался с таким. а как дела обстоят под виртуализацией? по идее тоже должно воспроизводится.

stanislavskijvlad Jun 25 2018 at 09:14

"Я по-быстрому проверил ядро Windows Server". Крутой вы ))
(no irony)

domix32 Jun 25 2018 at 10:34

Так это же перевод

Jeyko Jul 5 2018 at 02:45

: ) Тоже заметил!

rinnaatt Jun 25 2018 at 12:52

сделал замер в mono (linux) на AMD Ryzen, проблем нет:

rinat@linuxmint-desktop ~/SkylakeXPause/SkylakeXPause/bin/Release/net45 $ mono SkylakeXPause.exe -check
Did call pause 1 000 000 in 0,8401 ms, Processors: 8
No SkylakeX problem detected

-1

vtsymbal Jun 25 2018 at 14:09

Если бы я мог, то попросил бы Microsoft портировать инфраструктуру ETW на Linux, потому что текущие профайлеры в Linux по-прежнему отстойные. Там недавно добавили интересные возможности ядра, но инструментов анализа вроде WPA до сих пор нет.

Бесспорно, WPA — неплохой профайлер для Windows, но не единственный, а из статьи создается впечатление, что без него прямо никак. Автор оригинального текста сильно не в курсе про профайлеры под Linux.

UFO just landed and posted this here

vtsymbal Jun 25 2018 at 19:02

На Windows он бы выгдядел как спин-локи в топах объектов ожидания, и соответственно, стеки вызовов функций синхронизации. Но в WPA выглядит красивее, т.к. VTune не инструментирует .Net API и не покажет, например, Sender/Worker.

mvy Jun 25 2018 at 22:06

У ETW/WPA только один недостаток — нет микроархитектурных данных. Иногда нужно видеть зарежки при доступе к памяти, проблемы с предсказанием ветвлений.

askad Jun 25 2018 at 22:06

Как исправить
D:\SkylakeXPause\SkylakeXPause\bin\Release\net45>SkylakeXPause.exe -check
Did call pause 1 000 000 in 62,6168 ms, Processors: 4
SkylakeX CPU with unpatched .NET Framework detected.

последние патчи и фреймворк стоят
винда 10 домашняя

askad Jun 26 2018 at 21:09

Разобрался. Нужно обновить .NET Framework до 4.8 Preview
go.microsoft.com/fwlink/?linkid=2002300

ostway Jun 27 2018 at 07:46

Спасибо. Тоже заинтересовался данным вопросом.

Carburn Jun 26 2018 at 01:30

Хорошо, что я использую процессор 2013 года версии U и у меня такой проблемы нет.

vyatsek Jul 9 2018 at 14:02

С ценовой политикой Intel и «жвачкой» в процессоре за 2,5k$ для декстопа Core i9 решил перейти на AMD Threadripper

Show the best of all time