Pull to refresh
132.35

ЦОД повышенной ответственности: фотоэкскурсия

Reading time 12 min
Views 117K
Больше 15 лет мы строим и обслуживаем дата-центры для клиентов. Наш третий собственный дата-центр «Компрессор» — объект, в котором воплотилось многое из накопленного опыта.


Распределительная


Стойки

Ниже рассказ про устройство ЦОД в картинках и объяснения, где, что и как работает.

Осторожно, трафик.

Краткая вводная


ЦОД был нужен нам для сдачи в аренду заказчикам. Чаще всего — банкам, компаниям финансового сектора и вообще крупным организациям из сфер, где есть высокие требования к надежности. Поэтому мы сразу решили строить по правилам Uptime Institute для дальнейшей сертификации по TIER III.

Uptime Institute — организация, накопившая море всяких разных практических случаев с ЦОДами и сделавшая выводы для каждой ситуации. Стандарты охватывают много-много вещей, которые часто кажутся проектировщикам ЦОДов несущественными — а страдает надежность. Полностью сертифицированных по TIER III ЦОДов в РФ реально считанные единицы: обычно или объект строится «примерно по стандарту» без гарантий, или же ориентируются на стандарт TIA-942, который не предполагает проверки. А без проверки заявления о надежности – только слова.

Что это за уровни надежности?


Если говорить очень грубо, TIER I подразумевает, что в случае поломки работа ЦОД останавливается и системы чинят. TIER II говорит, что ЦОД работает непрерывно, но при необходимости останавливается для обслуживания критичных узлов или ремонта поломок. TIER III в случае единичных отказов чинится без остановки, поэтому много чего дублируется (останавливается только в реально крайних случаях, когда одновременно ломается несколько узлов). TIER IV подразумевает полное дублирование: фактически, вокруг стоек строится два TIER-вторых ЦОДа в одном здании. Стоимость квадратного метра, соответственно, 15К, 20К, 25К и 40К долларов, но это для Америки. У нас, к сожалению, из-за таможни и российской специфики, раза в 2-3 дороже. И то только для реально больших ЦОД, где есть экономия на масштабе.

В нашем случае допустим только отказ уровня «упал метеорит», позволяющий в общей сложности приостановить работу на 1 час 35 минут в год, то есть отказоустойчивость — 99,982%.

Как выбиралось место


Требования были следующие:
  • Близко от Москвы: наши заказчики — организации, которые требуют синхронной репликации данных между ЦОДами, поэтому дальше 20-40 километров от уже имеющегося у них ЦОДа (а он таки есть) уходить нельзя. Чем ближе — тем лучше.
  • Удобное расположение: постоянно приезжают представители заказчика, поэтому расположение в доступности от метро критично. Плюс — удобная парковка.
  • Конечно же, наличие электричества. ЦОД потребляет 8 мегаватт — то есть нужно две независимых линии такой мощности плюс место для дизель-генераторов.
  • Возможность сертифицироваться по TIER III, что подразумевает удаление от госучреждений, ЛЭП, бензоколонок и других подобных объектов.


Вот здание, которое мы нашли за несколько лет до запуска ЦОДа – таким оно было тогда:



Раньше это был склад компрессоров на соответствующем заводе. В этот «домик» даже въезжал поезд для разгрузки. Учитывая, под какие нагрузки считался фундамент (6 тонн на квадратный метр при цодовской норме 1,2 тонны), оно нас полностью устроило. Мы сделали всю «начинку» здания и крышу заново. Понятное дело, можно было построить ЦОД и далеко за городом: это привело бы к экономии и по стоимости строительства, и, отчасти, по электричеству. Но в нашем случае возможность удобно доехать и быстро синхронизироваться важнее. Миллисекунды, которые добавляет расстояние при синхронной репликации (скорость света) имеют свойство складываться в минуты на сложных операциях записи, важных для банков.

Вообще, рынок ЦОД для заказчиков делится на 2 основные части: в первом случае речь идет о продаже юнитов в стойках — это обычно решения для небольших компаний, которым, например, нужно держать сайт или, реже, 1-2 маленькие прикладные системы. В таких ЦОД питание подаётся без резерва, много технических оговорок типа требований к оборудованию заказчика (хотя бы по размерам стойки), часто вообще нельзя поставить своё железо. Вторая часть рынка работает для крупных заказчиков. Работа с железом в таких ЦОДах выполняется без ограничений: оборудование может быть хоть круглым (в истории такое было – CRAY), а один сервер может занимать даже несколько стоек. В нашем случае многие заказчики дополнительно ограждают своё оборудование в машинных залах. К нам можно приезжать часто, работать столько сколько нужно — и любым составом. Правда, о больших делегациях лучше предупреждать: смена охраны усиливается, когда в машинном зале более 5 человек.



К ЦОДу подходят две независимых линии питания от города, каждая – по 8 мегаватт. Третья — резерв — это 7 дизель-генераторов по 2 МВА каждый. Дизели работают по схеме N+1, то есть 6 всегда в действии, один может обслуживаться. Нагрузка на дизель не должна превышать 80%, поэтому система построена с запасом в полтора раза. В сумме с учётом этого и потерь мощности они дают чуть больше необходимых 8 мегаватт. Из них 4,5 уходит на железо, 2,5 — на охлаждение, Оставшийся мегаватт расходуется на прочую инженерку и другие системы – свет, бытовые кондиционеры и так далее.



В случае потери обеих линий питания срабатывают ИБП, и автоматика переключает ЦОД на дизели. Тут есть очень важный момент: пусковые токи некоторых систем достаточно высоки, поэтому если просто перекинуть всю нагрузку на дизели в один момент, дизели могут не справиться. ИБП отрабатывают несколько минут, поэтому есть время переключать оборудование последовательно, блоками, с задержкой, например, 10 секунд. Дизель стартует за 1 минуту, ещё за 4 происходит полное переключение, и весь ЦОД переходит на автономное питание.

Рядом со зданием стоят дизели:



Тесты резервного оборудования выполняются с определенной периодичностью: это нужно, чтобы резерв всегда был готов и функционален. Например, дизель под нагрузкой проверяется раз в месяц. План тестов обычно включает некий аварийный сценарий, который подразумевает использование всех систем, то есть ЦОД отключается от обеих линий питания, включаются ИБП, мониторинг автоматически переключает все железо на дизели, система охлаждения использует резервуар с охлажденной водой для сброса тепла (она частично отключается на несколько минут на переключение, за исключением внутреннего контура) и так далее. Затем «авария» устраняется, и автоматика возвращает все в штатное состояние. Это очень жесткая процедура тестирования, но она необходима для спокойствия инженеров и заказчиков. В реальности подобные ситуации случались у нас в ЦОД за последние 3 года только один раз: одно направление из города тестировалось вручную, второе погасло. Все отработало штатно.

Снаружи ЦОД около дизелей примерно 30 тонн меди в кабеле.



Дизели питаются соляркой из баков: вот два люка.



В каждом хранилище умещается по 30 кубометров. От баков отходят топливные кольца, проходящие через все дизели. Трубопроводы также резервируются, перед каждым отводом трубы стоит задвижка. Так можно перекрыть всего один ввод к одному дизелю: второй ввод этого дизеля и оба ввода остальных машин продолжат получать топливо.

Одного такого бака хватает на сутки работы.



Вот так выглядят трубопроводы к дизелям. На трубах кожухи с зимней оболочкой, изолирующей трубу и нагревательный кабель. Вторая труба «голая» — конкретно она сейчас на профилактическом обслуживании.



Трубы топливных колец и задвижки. И еще снятый на время профилактики кабель обогрева трубы, чтобы зимой проблем с топливом не было.

Перед вводом в эксплуатацию машинный зал тестируют, ставят 10 нагревателей по 100 КВт на трое суток, при этом проводится тест кондиционеров. Почему так и почему так долго — ниже, когда дойдём до такого тестового зала.

Заходим в само здание


Люди проходят через стандартную проходную, а вот оборудование попадает сюда гораздо интереснее — через вот такой зал:



Здесь есть два погрузчика, плюс можно легко разгрузиться на пандус с гидроборта. Пандус совпадает по высоте с высотой фальшпола — 1,2 метра. Главное при езде на погрузчике по машинному залу — помнить, что он тормозит столько же, сколько разгоняется. Для серверов массой более 1,5 тонн это очень важное правило.



Вот стоит IBMовский System P795 — это сервер массой около 1700 килограмм, который нельзя наклонять больше чем на 10 градусов, иначе сразу теряется гарантия на него.



Похожий как-то ставили в наш ЦОД и в резервный ЦОД другой компании. У нас приехала машина, подошла бортом к пандусу, наши сотрудники взяли сервер и поставили, даже рассказывать не о чем. Во втором ЦОД родилась целая байка про то, как они его доставляли — там пандус узкий, пришлось заносить руками, причём шестеро здоровых мужиков его кое-как кантовали, а ещё один смотрел за уровнем, чтобы не дай бог не лишиться дорогой гарантии. А еще там сервер по высоте в дверь не проходил, мешал магнитный замок, пришлось экстренно срезать болгаркой.



Для сравнения — процедура доставки железа в наш ЦОД очень простая: приезжает спец из IBM, заходит, смотрит, радуется, вызывает экспедиторов. Полы, кстати, подготовлены ко всякому: они жесткие, и даже самое тяжелое железо нормально по ним катается. Ещё один заказчик вспоминает, как вывозил железку под тонну по покрытому ковролином полу, и чего ему стоило вытащить её из своего бывшего ЦОДа.

Вот лифт: он поднимает 2,5 тонны. Он сквозной: если надо на первый, просто проезжаете его, если надо на второй этаж — поднимаетесь.



По дороге, кстати, до уровня фальшпола есть туалет для инвалидов, это тоже требование стандарта. Правда, российского, но мы же соблюдаем все правила.



Электричество приходит на трансформаторную подстанцию, потом идёт в ГРЩ (распредщит).



АВР — аварийный ввод резерва. Все на экранах видно в мониторинге, от каждого модуля уходит Ethernet-кабель.



Для некоторых ответственных устройств удалённое управление выключено осознанно: дело в том, что клики на компьютере не безопасны — пресловутый «человеческий фактор». И нам важно, чтобы подходили и делали руками, это куда более осознанно. При этом, напоминаю, переключение на резерв при отключении двух основных линий делается автоматом — в таких ситуациях нет даже 30 секунд подумать и побегать.



В это помещение электричество подаётся из-за стены от трансформаторов по шинопроводам, снизу из фальшпола — от дизелей. Щиты выбирают канал и отдают наверх на ИБП.



Обратите внимание на эти замечательные шинопроводы:


Шинопровод выглядит как рельса слева на заднем плане

Они очень облегчают обслуживание: штуки модульные, экономят место, легко заменяются, при необходимости легко сделать ветку. Если бы вместо них положили обычный кабель, то его пришлось бы укладывать целой бригадой. Даже небольшие кабели приходится сгибать вдвоем-втроем, а о таких и говорить не приходится. Еще у него был бы радиус изгиба полтора метра, шинопровод изгибается под прямым углом.

Кстати, есть и обычные кабели. Они идут к некритичным потребителям – освещению (есть резервное), внешнему контуру кондиционирования и т.п. Здесь резервирование только дизелями, ИБП не нужно. Они аккуратно уложены, несмотря на внушительные сечения – до 240 мм2 на одну жилу.



Красные трубы — это пожарная система. Используется 125-й хладон, он связывает кислород, нетоксичен. Под фальшполом тоже находятся распылители и датчики: любой более-менее заизолированный объём снабжается своей системой.



Техника безопасности всегда важна. В углу необходимые для зала штуки:



А вот щиты, которые управляют питанием стоек заказчиков. Тоже задублированы. Вводные автоматы проверяют напряжение и показывают всё в системе мониторинга, а автоматы стоек показывают состояние включен/выключен, тоже в системе мониторинга Это очень удобно, например, при коротком замыкании в оборудовании заказчика сразу видно кто, что, где — и что с этим всем делать.



Наши инженеры в стойку лезут только по одному поводу: при задымлении. За последние три года случился один более-менее нештатный случай: в системе хранения данных во встроенном ИБП вышел из строя аккумулятор, появился характерный запах горящей проводки. В машзале не вышло локализовать источник (в залах сильный ветер). Запах быстро рассеялся. Мы связались с заказчиком, получив разрешение, зашли в решетку, посмотрели индикацию, обнаружили неисправность и сообщили. Вообще, сценарий на подобные случаи достаточно интересный: при любой нештатной ситуации в течение минуты прибывает «космонавт» — пожарный в защитном «скафандре» с кислородным баллоном (он умеет ходить по залам уже после пуска огнетушащего газа), охрана и инженеры. Кстати, самое удивительное, но пожарный на всех учениях реально укладывается в норматив при том, что бежать ему минимум 20 секунд.



Машинные залы спроектированы так, чтобы максимально разделить зоны ответственности. Говоря более простым языком, если заказчик решит огородить своё оборудование, наши инженеры не должны заходить внутрь огородки: то есть все системы должны находиться за решеткой. Это вынесено из опыта: в нашем втором ЦОД нужно постоянно получать согласование на замену какой-нибудь мелочи в зоне клиента (и звать его спецов и безопасников в гости, стоять за спиной инженера: такова процедура). С другой стороны, есть риск, что сам заказчик что-нибудь изменит на инженерном оборудовании: в общем, лучше не пересекаться.



Внутри загородок только видеокамеры, распылители газа и трубки газоанализаторов. Остальное за пределами машзалов.



Здесь сильно дует, сюда поступает холодный воздух из двух коридоров, в каждом из которых по 8 фанкойлов. В фальшполе и фальшпотолке нет сплошных преград. Холодный воздух выдувается через решетки снизу, горячий забирается сверху. Таким образом, холодный воздух поднимается через стойку, где нагревается, идёт вверх и уходит на охлаждение.



Камеры просматривают стойку. Когда заказчик двигает железо, стойки – то камеры все отслеживают. Камеры в коридоры ставятся по мере постройки коридора, это удобно для нестандартного оборудования и организации перегородок между заказчиками.



В нашем первом ЦОДе мы сначала расставили камеры и инфраструктуру типа кабелей к стойкам, а потом всё переделывали, потому что одинаковое железо у двух разных заказчиков не встречается. Кабели не прокладываются до появления заказчика — чтобы заказчик получал ровно то, что ему нужно. Общие кроссы не очень желательны, это многих тревожит.



В машинном зале тоже есть распылители газа. Система рассчитана на полное распространение газа за 10 секунд после того, как сработает (в том числе, по фальшполу и фальшпотолку).



Используется система раннего обнаружения возгорания: обычной датчик ловит 60 градусов или задымление — это случай, когда уже что-то полыхает. У нас — куда более чуткие трубки газоанализаторов на потолке.



Процедура на случай пожара: отключение модуля, тушение руками, вывод людей, ручной пуск газа по кнопке с внешней стороны двери машинного зала. При этом оборудование и электрика продолжают работать, просто в зале не остаётся кислорода. На тушение и удаление дыма уходит от двух часов, при этом в зал нельзя заходить никому без костюма и баллона. Перезарядка системы пожаротушения и всех остальных, которые срабатывают, стоит около 2 миллионов рублей. Нажал на кнопку — потратил.

Вот стойка и ближайшая инфраструктура. Для всего используются модульные решения. Коробки кабельной системы двигаются. Используются оптические кассеты, разъем как пачкорд, только 12 волокон, позволяют очень быстро монтировать и вносить изменения по ходу эксплуатации.











Стойка обязательно заземляется. Для оборудования на низких токах это критично.

Другой зал, тут под полом вода – кольцевые трассы для подачи холода и отвода тепла:



Куча перемычек на этих кольцах: они резервируются (даже задвижки, чтобы через 10 лет не обнаружить при аварии, что какая-то не закрывается). Везде установлены датчики. Под помещением мини-бассейн с уклоном для приема воды в случае протечек и помпа — чтобы электрика была в безопасности.

Датчики пожарной сигнализации, VESDA. Это и есть сердце системы раннего обнаружения пожара:



Используется обычное заземление и система уравнивания потенциалов. Подвод к фальшполу, сами плиты фальшпола тоже токопроводящие. Любой объект в машзале заземлён. По залу можно ходить босиком и все трогать — не долбанет.

А это щитовая и инверторная.



Помещение стоит без кондиционеров, потому что КПД ИБП очень высокий, тепла крайне мало, а то, что есть, отводится обычной приточкой. Воздух готовится в венткамере с помощью фильтров, увлажнителей и осушителей.



Батареи находятся в отдельном помещении, потому что им нужна своя температура. Чуть холоднее — и снижается емкость. Если нагреть на лишнюю пару градусов — срок службы падает с десяти лет до двух. После наполнения машзалов здесь будет около ста тонн аккумуляторов. На аккумуляторах есть клапаны сброса давления (выделяется водород), что создаёт риск объемного взрыва, поэтому в помещении отдельная система вытяжки.



Красные трубы выводят воздух на улицу.



Контакты батарей не изолированы. Одна такая линейка может шарахнуть на 400 Вольт. При этом в отличие от переменного тока, эффект не локализуется на коже, а куда больше сказывается на внутренних органах, что весьма опасно. Вообще, выше частота — меньше опасности от тока.



Это пандус для крана: ведь нужно резервировать и пути доставки оборудования. Пандус для крана нами уже использовался при завозе инженерки.



Кстати, догадаетесь, зачем нужны решетки в полу прямо у выхода с пандуса?



А в этом зале проводится жесткий тест охлаждения.



В зале стоят нагреватели по 100 КВт, которые греют воздух 72 часа. Во время проверки очень важно понимать, что температура не увеличивается при долгом нагреве: ведь в коротких тестах непонятно, погрешность это или накопление тепла стенами. Это делается так долго по той простой причине, что в ЦОД никто не измеряет возможности стен, потолков и оборудования как аккумуляторов тепла. Воздух прогревается за 5-10 минут, дальше всё тепло уходит в стены и т.п. Был случай, когда помещение другого ЦОДа держало тепло 4 часа (и нельзя было включить оборудование, которое автоматом вырубается на отметке 35 градусов). Только если температура не меняется ни на градус, тест считается законченным.



В помещениях, где ходят люди — водяное пожаротушение. Объемы с разным типом пожаротушения – газовым и спринклерным – изолированы друг от друга. В зоне персонала поддерживается комфортная температура.





Это насосная. Здесь два контура охлаждения.



Учитывая, сколько питания берёт система, нужно было бы ставить огромный зал с ИБП для поддержания во время переключения на дизель. Естественно, есть решение элегантнее: достаточно держать бассейн с 13-градусной охлаждённой водой, который даёт то же самое, что ИБП (ведь результат работы электрики — холодная вода), но без потерь и без задержек, плюс без сложного обслуживания. В бассейне — 90 тонн заранее охлажденной воды, ее хватает на 15 минут штатной работы минимум, как и электричества от ИБП. Остальное – за счет дизелей. Наружу тепло отводится через второй контур с чиллерами и градиррными. В чиллерах, кстати, не вода, а водяной раствор гликоля, типа водки, чтобы не мёрз зимой. Пересечение контуров — в теплообменниках.



Трубы в идеале должны стоять без замены 10 лет. Чтобы они не зарастали, вода обязательно очищается.

Бассейн видно сзади (за лампами) – это его верхний край.



Крыша — тут чиллеры и сухие градирни.



Летом используются фреоновые доводчики, в остальное время достаточно внешнего воздуха для режима фрикулинга. Гликолевый раствор гоняется через радиаторы, снаружи которых — внешний воздух. Когда один из радиаторов стоит, в нём много чего может помёрзнуть, поэтому при включении потенциально возможна заморозка. Для предотвращения этого используются обводные трубы, они не пускают перехоложенный раствор, пока он не нагреется.





Вот пандус сверху:



ТЭЦ. Кстати, какие-то нехорошие люди написали в Викимапии, что это «Nuclear power plant», отчего иностранцы нам чуть не запороли сертификат TIER III с вопросом: «Русские, вы что, с ума сошли строиться около ядерного объекта?». Долго доказывали, что это обычная ТЭЦ.



Здесь подготовка воздуха для подачи в помещения ЦОД – венткамера:









На первом этаже – трансформаторы:





А тут — помещение типа коворкинга для делегаций заказчика.



Во-первых, конечно же, заказчикам нужно место, чтобы конфигурировать сервера после установки. Во-вторых, здесь остаются люди, которым в какой-то момент нужно быть в шаговой доступности от железа. В-третьих, если вы приходите в ЦОД в легкой одежде, можно довольно быстро простыть в машзале, поэтому нужно место чтобы пить горячий чай. Здесь же могут находиться смены админов, когда у клиента штук сто стоек.

Это столовая. Здесь уютно и тоже задублировано все оборудование.











Вот такой дата-центр повышенной ответственности.
Tags:
Hubs:
+111
Comments 119
Comments Comments 119

Articles

Information

Website
croc.ru
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия