GMogilev Aug 4 2016 at 09:59

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

18 min

32K

КРОК corporate blogSystem administration*IT Infrastructure*Server Administration*

+38

Comments 31

SaturnTeam Aug 4 2016 at 10:09

а что делают с генератором случайных чисел в таких системах? При первой загрузке инициализируется какое-то определенное состояние?

GMogilev Aug 4 2016 at 10:42

Если я правильно понял, вопрос заключатся в том, какое значение будет на второй ноде при выполнении операции чтения из /dev/random на первой ноде. На самом деле на второй ноде не происходит чтения из генератора случайных чисел. Вместо этого данные реплицируются с Primary ноды.

kefirfromperm Aug 4 2016 at 10:45

понятно

kefirfromperm Aug 4 2016 at 10:44

Не прокатит. Он же честный в интелах, аппаратный. Тоже вопрос возник. Единственный вариант который я вижу — это отключать его совсем. А как же секъюрность тогда?

GMogilev Aug 5 2016 at 08:53

Не обязательно пользоваться SW генератором, HW также отлично будет работать. При работе кластера происходит полная синхронизация Secondary ноды с Primary.

a1888877 Aug 4 2016 at 10:53

Что произойдёт если с какого-то момента процессоры вычислительных узлов начнут выдавать разные команды (космическая радиация, перегрев, брак)? Их всего два поэтому нельзя понять в каком сбой, их нельзя перезапустить вместе и повторить вычисления — это reset ОС с ПО и соответственно отказ. Stratus Albireo выберет случайный узел для продолжения работы?

GMogilev Aug 4 2016 at 10:53

В первую очередь Stratus Albireo проверяет потоки данных на консистентность, получаемые с обоих половинок. Как только система поймет, что поправить ошибку нельзя, произойдёт переключение на исправную ноду.

Deosis Aug 4 2016 at 11:32

А которая нода исправна?
Если одна нода вернула 1, а вторая 0? Когда это будет замечено? Придется ли откатывать состояние назад для определения корректной ноды?

GMogilev Aug 4 2016 at 13:46

Замечено будет сразу. Lockstep проверяет каждый такт. Дальше в работу вступит Stratus Albireo, он выступает в роли арбитра, который и выбирает исправный компонент. Причем делает он это на основе большего количества параметров и цепочек событий (более 500). Как детально работает технология, сам Stratus к сожалению не раскрывает — информация закрытая по коммерческой тайне.

chabapok Aug 4 2016 at 18:42

а когда произошло такое расхождение — как про это узнает персонал? Читает в логах ноды, или видит красную лампочку?

GMogilev Aug 5 2016 at 08:54

Тут все зависит от типа расхождения, если оно критичное, то больная нода будет тут же выведена из строя с нотификацией на передней панели кластера, а админ и поддержка Stratus получат на почту алерт. Максимально подробно можно будет увидеть причину поломки и как система пыталась ее устранить в логах, зайдя на ftSys.

SchmeL Aug 4 2016 at 14:59

Это похоже на split brain.

При наличии расхождения система выявит причину и постарается устранить сбой. Если ошибка была устранена (тип ошибки correctable), то счетчик MTBF (Mean Time Between Failures) увеличится на 1, а если нет, то данный элемент будет выведен из строя (тип ошибки uncorrectable).

Вот тут не особо понятно, как он его выключает — переводит в слейв или просто гасит до ручного вмешательства?
Вот если бы нод было 3, то обеспечивался бы минимальный кворум, что было бы надежней. Пока же основная точка отказа Stratus Albireo — будет ли он правильно понимать какие данные корректны.

GMogilev Aug 5 2016 at 08:55

При критичной ошибке выводит из работы и переключает роль Primary на здоровую половинку. Чтобы руками ввести в работу меченный компонент, потребуется скинуть счетчик MTBF.

galaxy Aug 5 2016 at 00:49

Есть старая мудрость: в поход бери или один компас, или три :)

Pilat Aug 4 2016 at 11:53

>Пока тут весь интернет кричит про наш отечественный жёсткий диск на целых 50 Мегабайт массой 25 килограмм,
>не очень-то понимая, что эта штука может пережить две ядерных войны на дне бассейна

Ну он и не может пережить две ядерных войны на дне бассейна :)

Вы пишете, что процессоры синхронизированы точно, а диски в raid. Правильно я понимаю, что запись на диски обоих серверов выполняется синхронно, то есть пока не будут записаны данные на оба сервера, сигнал о завершении записи не последует? Или есть какая-то задержка при записи на парный диск?

GMogilev Aug 4 2016 at 13:47

Синхронизацией дисков занимается виртуальный драйвер, который видит диски в обоих половинках и объединяет их в пары (RAID1). Правила чтения и записи соответствуют обычному рэйду.

orangenino Aug 4 2016 at 12:14

Попробуйте ради шутки запустить AIDA64, или как там сейчас эверест называется (только не в продакшне!) — увидите, что будет со стратусом.

realscorp Aug 5 2016 at 20:15

А что будет? Заинтриговали.

orangenino Aug 8 2016 at 08:59

BSOD
Стратусы очень не любят всяких низкоуровневых дел.
На самом деле, самый здравый вариант использования — это VMWare, а всю работу на виртуалки выводить уже. Кстати, в своё время говорили, что стратус с новых версий перестанет нативно поддерживать красную шляпу, останется только винда и vSphere.

DaylightIsBurning Aug 4 2016 at 12:57

А когда в современных условиях есть смысл решать проблемы отказоустойчивости на аппаратном уровне? Подобная система ведь применяется в очень исключительных случаях, почему тогда не использовать софт, который будет обеспечивать fail-over, как это и делается в случае «бытового ширпотреба»? Какие преимущества у hardware-failover?

kvant21 Aug 4 2016 at 15:13

Устройство нишевое, конечно, но определенные преимущества просматриваются.

Например, процесс обеспечения fault tolerance не зависит от прикладного кода, а это значит, что:

— Кривой апгрейд/патч софта не сломает FT
— Различные приложения защищаются одинаково, то есть пропадает необходимость обходить и вообще учитывать особенности конкретных реализаций HA/FT в разном софте.
— Можно защищать софт, не имеющий FT. На самом деле, тру-FT, когда данные не теряются вообще, переключение происходит мгновенно, и нет потери производительности, доступен далеко не всегда.

GMogilev Aug 5 2016 at 08:56

Stratus FT гарантирует отказоустойчивость и высокую производительность как при нормальной работе, так и при failover'е. Причем для подъема FT кластера нужно произвести минимум настроек, таким образом исключаем ошибку со стороны человека, настраивавшего систему. Отдельно отмечу дополнительные потери вычислительных ресурсов при использовании Soft FT кластера, у Stratus FT они минимальны. Где именно можно и нужно применять данное решение, написано в самом конце статьи.

dbanet Aug 6 2016 at 13:14

Ну здесь же ничего нового. Всякие бимерские мейнфремы (System z) покруче fault tolerance имеют.

Greendq Aug 4 2016 at 13:26

А хотя бы диапазон стоимости сего удовольствия (пусть даже «официально рекомендуемые») озвутить можете? Сотни килобаксов или всего лишь в 2-3 раза дороже, чем просто связка из двух «обычных» серверов?

UFO just landed and posted this here

kvant21 Aug 4 2016 at 14:59

Интересная железка, очень познавательно.

До космоса правда не дотягивает — там мажоритарное резервирование, по три канала всего, чего только можно :) Чтобы сразу было понятно, который из каналов сломался. Но это достоинств устройства из статьи не умаляет.

Скажите, а точно лицензирование той же Oracle DB будет на одну ноду, а не на обе? Несколько удивительно, учитывая их политику лицензирования, скажем, кластеров виртуализации (если гипервизоры не Oracle).

GMogilev Aug 5 2016 at 08:55

Лицензия на Oracle действительно потребуется на один сервер, причем не нужно будет покупать дополнительную лицензию на кластеризацию. Данное правило работает и на все остальные поддерживаемые OS: Windows, Linux и ESXi.

Crazyvlad Aug 4 2016 at 19:40

Крутил на тестах такую-же железку, но под маркой NEC.
Все отлично, кроме цены.Особенн, как отметил автор — недежность действительно на уровне и не зависит от программной реализации.

Varkus Aug 5 2016 at 20:53

-> отключили ноду — потеряли пинг
-> включили ноду — пинги больше секунды
И за такие деньги — такой банальный результат, жаль, а как статья хвалебно начиналась

yumarik Aug 5 2016 at 20:55

Подскажите, а сетевые интерфейсы получается имеют одни и те адреса, и всегда включены? На фото все сетевые включены, каким образом это реализовано, что не происходит конфликта адресов?

justhabrauser Aug 5 2016 at 21:40

> Это старая добрая «космическая» архитектура, когда вычислительный процесс проходит сразу два независимых аппаратных пути

Не специалист, но смутно помнится, что «космическая» архитектура предполагает три независимых источника.
И голосование.