Pull to refresh

Comments 292

PinnedPinned comments

Впечатляет!
Как я неоднократно замечал - серьезные аварии происходят когда звезды неожиданно складываются в большую букву "Ж". Т.е. несколько факторов возникают случайно и работают одновременно.
- Прекращение питания...
- Отвалившийся патрубок генератора...
- Выходные и проблемы с охраной...
- ... кажется что-то еще.
Хорошо, что всё закончилось хорошо.

В википедии на русском нет, поэтому скинул ссылку на этот сайт.

Патрубок не отвалился, а лопнул. Лопнул "внезапно", он вероятно из за старости и отсутствия проверок.
Как визуальных(трещины), так и на включение дизеля.
ИБП тоже обычно проверяют, т.к. не смотря на заявленный ресурс батарей и плановые замены, они могут начать раньше деградировать и/или электроника/силовые цепи не держат.
Главное в этой истории, какие уроки извлекли для себя владельцы и какие меры приняли.

Какие уроки... Пока админы ремонтируют дизеля, а ночью "не работает бюро пропусков" и т.п. - "детский сад" будет повторяться.

"лучи" в реальном мире зовутся фидерами. Потребитель 1 категории электроснабжения обеспечивается двумя независимыми федерами, а не от одной подстанции для формальности. "Патрубок лопнул", "выхлоп засасывает" значит не проводятся периодические регламенты типа ТО-1,2,3 с хотя бы ежеквартальным прогоном дизеля в течении 30 минут под номинальной нагрузкой. ИБП после 2 часов не смогли обеспечить переключение: частоты-то на дизеле настроены мож ИБП вообще не заряжались от питания с частотой 56 целых 456 тысячных? И очевидно про дизелиста, хотя бы приходящего, в этой организации не знают. Все что нужно знать о обеспечении бесперебойности этого цода

>Через два часа, около 3:30 ночи, лопнул патрубок дизеля 0,5 МВт, отчего он внезапно перестал работать.

30 минут < 2 часа

Остросюжетный пост!

Приятно и интересно читать такие детальные разборы

Особенно остросюжетно читать его вперемешку с другими новостями....

... объект "убежище"....

... основной трансформатор пострадал во время обстрела РСЗО, второй вывела из строя вражеская ДРГ...

.... шрапнелью перебило хоботок дизеля и пока один одмин распаковывали личную аптечку, второй остатками организма удерживал хлещущее расплавленное чего-то там...

... к 9 утра в живых осталось только два одмина...

В этой связи интересно, а как устроены настоящие военные ЦОД, вместе с окружающей инфраструктурой.

Думаю примерно так-же как и гражданские, с той разницей что находятся в каком-либо бункере с защитой от ЯО, и пропускным режимом посерьезнее, ну и персонал военный или контрактный, с соответствующими уровнями допуска к гостайне, поэтому нам никаких подробностей никто о них не расскажет - кому охота потом сидеть за разглашение.

Ну, м.б. не про современные, а про плюс-минус исторические кто-нить сможет рассказать :)

а также + грифы там такие что и сейчас рассказывать нельзя обычно.....

 кому охота потом сидеть за разглашение.

или за "дискредитацию"

совесткий анекдот, на тему:Школу готовят к посещению иностранных журналистов, идет приемка: унитазы текут, спортзал не покрашен, в столовой тараканы. "Как же так, журналисты будут через час, не успеем" "Ну ладно, пусть клевещут"

Возмущение клиентов дешёвых планов напоминает крики людей с полетевшими флешками/дисками. Этот шок в глазах и гнев на вселенную и окружающих (кого угодно, но не на них самих), когда объясняешь человеку, что если он хранил весь архив фото своих отпусков/детей/внуков/тузиков в одной копии на флешке за 300 рублей, то не настолько это была и важная информация

Про клиентов так много где. Сам занимаюсь поддержкой одного сервиса, так больше всего жалуются по разным мелочам клиенты, которые на бесплатном тарифе. При чём жалуются вне зависимости от того проблема на их стороне или нет.

Причина предельно проста: те кто платит серьезные бабки серьезно подходил к вопросу выбора места куда бабки класть. И поэтому понимает ситуацию достаточно хорошо, чтобы не возмущаться без железного повода.
Бесплатники и те кто берет дешевые тарифы - просто ждут, что у них будет сервис, на который они подписались и в деталях не разбираются. Поэтому и возмущаются когда что-то идет не так. Ну а еще их просто больше, с большей вероятностью найдется тот кто захочет побухтеть.

Про количестве не совсем так, так как они бухтят совершенно по другому поводу и совсем иначе. А вот с остальным согласен -- те, кто платят, прекрасно понимают как и что работает и что они за это получают. Когда бесплатные просто хотят получить максимум за вложенный минимум.

ждут, что у них будет сервис, на который они подписались

А это по вашему не является нормальным поведением? Ну т.е. это же бред, считать, что ситуация, в которой ты будешь платить за сервис, а он будет некачественным - нормальная. Можно предполагать такую ситуацию и закладывать обходные пути, да, но считать нормальным и не возмущаться это как-то очень странно, не считаете?

Там в договоре обычно написан SLA в процентах, и компенсация за нарушение SLA. 100% аптайм никто не обещает, и это и есть нормальные условия работы.

Ну да, помнится какие-то отечественные... предлагали "аж" 99.5.

Ну т.е. день простоя раз в три года.

И ведь кто-то на такое подписывался...

- Какой аптайм у вашего сервиса?
- Обижаете, конечно три девятки
- Так он же висит постоянно как ни ткни!
- 9.99%

Почти двое суток за год же.

кто платит серьезные бабки серьезно подходил к вопросу выбора места куда бабки клкласть

Возможно, у них просто есть жизненный опыт, вероятно даже связанный с потерей денег, который говорит им что для приемлемого результата надо заплатить больше чем по минимуму. Ну а когда у тебя есть резерв, ты спокойнее относишься к инцидентам: "Вот мой резерв и сработал".

Кроме того понятно что воплями в чатике проблему не решить и лучше дать специалистам возможность всё починить, а не накалять ситуацию ещё больше.

Для многих людей становиться открытием, то что данные на flash накопителях оказывается не могут храниться вечно. На флешках же не пишут "срок сохранности данных 3 года". Продавцы не оповещают покупателя о свойствах товара, так что бы он наверняка их понял.

Но интересно, что для части людей становится открытием даже то, что флэшку, телефон или ноутбук можно потерять или сломать, а фотки можно случайно удалить.

Это проблема уже другого рода. Как то сосед попросил меня настроить ему компьютер. Настроил. Потом пришёл его внук и всё сделал плохо. Я исправил и сделал отдельную учётную запись для внука. Спустя некоторое время сосед просит отключить учётную запись внука, потому что тот слишком много играет. Отключил. Но говорю - "Не лучше ли поменять пароль? Потом то ты всё равно дашь ему доступ." Он отвечает - "Никогда больше". Ну ладно. Пару недель назад зовёт он меня всё исправить, потому что "Он же всё таки внук, я дал ему пароль от своей учётной записи".

Это какое то наивное восприятие самого себя как чего то неизменного. Мне кажется такие люди своё текущее состояние, свою текущую концентрацию, настроение и решения, мысленно продолжают в бесконечность. Не задумываясь о том что они могут измениться. Такие люди часто маркируют себя татуировками.

Ещё они часто склонны к наивному реализму. То есть считают своё восприятие чистым, критерием реальности.

что флэшку, телефон или ноутбук можно потерять или сломать

Ну они же решили для себя что будут их беречь - значит не сломают и не потеряют. Это люди не боящиеся брать на себя ответственность.

а фотки можно случайно удалить

Они что дураки удалять свои фото? Нет конечно.

Потом конечно - "Я нечаянно, оно само. А можно как то восстановить?"

Почему они не извлекают из этого никаких уроков? Полагаю, потому что думают, что постоянно задумываясь о такой фигне уничтожат свою уверенность, не смогут ничего говорить чётко и определённо. Кстати заметил, такие люди часто требуют "Скажи чётко, да или нет?!"

Вообще, человеческий ум не умеет интуитивно корректно сравнивать малые вероятности. Например маловероятные риски мы сравниваем не математически, а по степени драматичности их реализации. Наверно такие люди догадавшись что не могут корректно мыслить вероятностями, исключают их из своего мышления. Скорее всего не сознательно и потому неправильно.

Это какое то наивное восприятие самого себя как чего то неизменного.

Кстати да, типично.

Даже какая-то статья на Хабре была про таких людей.

Не увидел ещё одного серьёзного, на мой взгляд, фактора. ИБП сработали при переключении питания на дизели, но через 2 часа их энергии на переключение нагрузки между дизелями не хватило. Разве нет возможности установить ИБП с запасом энергии на 2-3-4 потери электричества за короткое время?

"Оверселлим по процу, оверселлим и по ИБП с дизелями".

ИБП, к сожалению, не заменяет само питание и дизели. Его задача выдать чистую синусоиду на сервер и сгладить ситуации переключения лучей питания. В данном случае сначала ИБП сначала обеспечил переход с одного луча на другой, потом на дизель. Потом у дизеля возникла проблема и снова ИБП держал. Но штатно ИБП держат несколько минут, а на полную зарядку требуется несколько часов. Потому вопрос о длительной поддержке со стороны ИБП просто не реализуем.

Но штатно ИБП держат несколько минут

Хе, у меня ИБП держит сервер полтора часа. Потому что маложрущий сервер и мощный ИБП. Это чисто вопрос приоритетов.

а на полную зарядку требуется несколько часов.

А что, если он может держать исключительно при 100% заряда? А при 50% заряда уже никак?

Ключевое слово - "маложрущий". Я могу сервер разместить на машинке и она будет жива на ИБП больше суток. А вам слабо?

Если серьезно, то сравнивать серверы у кого "маложрущестей" это прям такое себе определение мощности сервера и сравнения своего сервера с целым ДЦ.

У ИБП есть 2 крайне слабо связанных между собой параметра: максимальная мощность и время работы при полной загрузке.

Если откинуть бытовые БП, которые по сути нужны сохранить работу и выключить комп, все серьёзные умеют масштабироваться по батареям от "до запуска генератора" до суток и более.

Обслуживал объект, где был "относительно" слабый ибп на 100кВт, но батарей там был большой шкаф, и он всё здание держал в номинале сколько-то часов. Вопрос строго денег и приоритетов.

ЗЫ "маложрущий" - у всей системы кпд далеко не 100% и даже с нулевой нагрузкой никакой ибп не будет держать вечно...

Обслуживал объект, где был "относительно" слабый ибп на 100кВт, но батарей там был большой шкаф, и он всё здание держал в номинале сколько-то часов. Вопрос строго денег и приоритетов.

Работал когда - то в небольшом банке (не админом, но в датацентре бывал), там примерно такая же ситуация была.
Только батареями была, насколько помню, вся стена увешана в ЦОДе (метров так 10-15 в длину, с пола под потолок, в несколько рядов на полках. В память еще врезались толстенные, с большой палец, кабели, соединяющие между собой аккумуляторы).
Задача была, как мне сказали - "продержаться трое суток в случае чего чисто на ИБП"

И точно такой же резервный ЦОД (с ИБП, серверами, данными (полная реплика)) был расположен в противоположенном конце города, тоже "на случай чего"

У ИБП есть 2 крайне слабо связанных между собой параметра: максимальная мощность и время работы при полной загрузке.

Есть потолок максимального тока разряда относительно емкости.

Для свинцовых аккумов это около 10С. При попытке нагрузить его сильнее напряжение проседает из-за внутреннего сопротивления и ИБП отключается. Сам аккумулятор при этом стремительно деградирует.

Т.е. время работы от аккумулятора порядка 5 минут (1 час/10 минус потери). Но такой режим очень ненадёжен. Малейшая деградация аккумулятора и время работы от аккумулятора падает в разы (до 1й минуты и менее).

По этому рационально не превышать ток в 5С это 10 минут работы от аккумулятора, а в идеале 1-2С (0,5-1час).

У меня дома генератор запускается около 30 секунд зимой в мороз + минута добавленная сверху чтобы не дёргать его по мелочам (примерно столько же надо большим дизелям для запуска перед подключением нагрузки). При обратном переключении бесперебойник вообще не каждый раз переходит на батарею. Даже если бесперебойник на 10 минут, я не очень представляю как его можно разрядить. Это 5 переходов туда обратно за короткое время. На втором переходе можно добавить дизелю пол часа работы чтобы убедиться что сеть работает стабильно, плюс аккумулятор за это время на сколько-то зарядится.

Везде где я был в приличных датацентрах от 10 стоек были аккумуляторные сборки (что-то типа OPzS) из расчета на несколько часов работы в т.ч. из соображений ресурса аккумуляторов. Сей час уже применяются LiFePO4 и другие типы лития, но я их вживую не застал.

Ваш ИБП не обеспечивает задействование всего резерва дизелей? В таком случае наилучшей поправкой будет запускать не один дизель на 100% мощности, а сразу несколько c расчетом что если отключится самый мощный - остальные смогут обеспечить потребление в течение длительного времени. В вашем случае можно было включить сразу все - и проблем не было бы. И конечно обслуживать их тоже периодически не помешало бы.

Но да, для этого желательно синхронизировать генераторы. Сегодня есть готовые решения, они автоматически управляют дизелем, немного изменяя частоту вращения, и тем самым добиваются полной синхронизации перед включением в сеть.

в крайнем случае, можно былинными методами с ламповым синхроноскопом

Есть же стабилизаторы двойного (принудительного) преобразования. Они на выходе дадут чистый синус, после ряда фильтров. А сами могут "кушать" любой переменный ток с помехами. И их можно питать резервом, который этот самый чистый синус обеспечить не может. Кстати, предлагаю Вам (автору) рассказать об электротехнике на ЦОД с точки зрения высоких напряжений, а не микроэлектроники. И по поводу дежурного персонала: есть ли штатный энергетик ?)

Его задача выдать чистую синусоиду на сервер и сгладить ситуации переключения лучей питания.

Не в плане доколупаться, а исключительно ради повышения образовательного уровня.. А зачем серверу чистая синусоида? Современные БП ведь в основном все импульсные, им форма питания по большему счету не важна, может хоть на постоянке работать, без переделок.

Попробуйте запитать от обычного упса обычный аймак. Да, разумеется, там импульсный БП...

И что будет?

У меня нет обычного (и необычного тоже) аймака, как и обычного УПСа. В датацентрах думаю тоже вряд-ли аймаки кругом, там наверняка что-то с нормальными БП. Но это мое предположение, конечно. Запитывал обычный компухтер от обычного УПСа лет так десять назад, и ничего, все работало.

Вообще возможно я ошибаюсь и есть еще какая-то проблема, но точно известная мне была в том, что почти все блоки питания пк нынче имеют ативный pfc (а в цод скорее всего 100% т.к. цод и за реактивную нагрузку на сеть платить, а импульсный бп с пассивным pfc намного больше её создает), который увеличивает диапазон входных напряжений до 100 - 240 но при ступенчатой синусоиде контроллер ибп пытается резко скорректинровать мощность (по сути переключиться в режим 110в) и это черевато проблемами. Честно говоря физику процесса сам не до конца понимаю - если кто-то пояснит научнее буду только рад)

По принципу работы:

https://habr.com/ru/articles/149259/

Там ещё комменты надо почитать.

ЗЫ: ВСЕ серверные бп - импульсные, а им теоретически можно постоянку подавать. Теоретически - потому что будут всегда работать только 2 диода из 4 в мосте, и при нагрузке больше половинной если недостаточно запаса - привет перегрев и пробой.

Именно поэтому появились "упрощенные" ибп для компов. И как раз прямо сейчас передо мной лежит разобранный бп от аймака (привет их волшебные кабели из риса или чего они там), он импульный и заводится на постоянке легко.

А зачем серверу чистая синусоида?

Фишка онлайнового ИБП не в синусоиде, а в отсутствии времени переключения на батареи.

Для БП с активным pfc приходится подбирать ИБП с запасом по мощности раза так в два, иначе в момент переключения будет уууууупс и выключение ИБП от перегруза. Если пережил переключение - то ок, работать будет, ступеньки пофиг, если там не трансформаторный БП (чего уже давно в таком оборудовании нет) или электродвигатель... А приличные БП нынче все с apfc.

Ну, это другое дело, с этим-то понятно, меня "синусоида" смутила. Обычно ей заморачиваются когда от ИБП надо питать какую-то индуктивную нагрузку, вроде моторов насосов отопления, котлов, или компрессоров холодильника. А в современной электронике сейчас классические трансформаторы в БП практически не применяются нигде. Просто я с серверным железом слабо знаком, думал может быть там как-то все по другому, отчего и вопрос возник.

"Просто синусоиду" можно и на линейно-интерактивном получить, есть такие модели... Тут главная фишка именно в отсутствии времени переключения.

Так что либо в том сообщении, по которому вы вопрос задавали, не на том сделан акцент, ну либо у них еще и просадки в момент переключения имеют место ;)

От адвоката дьявола:

Техническая возможность вероятно есть. А вот финансовая... Два фактора:

1) Время работы UPS зависит от емкости батарей. Причем поскольку батареи надо регулярно заменять (каждые 3 года) - это постоянные эксплуатационные расходы. Вы предлагаете их увеличить в 2-3-4 раза. Это повлияет на себестоимость услуг.

К тому же батареи - это объем и вес. Не всякий ЦОД это потянет.

2) Время зарядки батарей UPS зависит от тока зарядки. UPS с высоким током зарядки стоят ощутимо дороже (это капитальные вложения).

"UPS с высоким током зарядки" - а они вообще существуют? Там же вроде обычные свинцово-кислотные батареи, которые всегда заряжаются током 0.1 от ёмкости.

Существуют, вопрос в цене.

А что хоть за аккумуляторы? Физику то никто не отменял. Хочешь быстрее - нужна другая технология. (литий йон?)

Любые кроме свинца: Литий-ионные (литий-железо-фосфатные), титанатные, и т.п.

Можно заряжать и током больше 0.1C, просто будет меньше ресурс аккумулятора.
В автомобилях, например, зарядка ведется вообще без контроля тока, просто по напряжению.

Хм. Вот ведь. Никогда не задумывался, как ограничивается зарядный ток в машине. ROFL

Ок, видимо "должен заряжаться током 0.1", а по факту - как получится.

Ограничивается возможностями генератора. Хотите больше ток - нужна больше масса обмотки (диаметр провода обмотки), ну и отбор мощности естественно будет выше. Ну и насколько я знаю на выпрямителе после генератора стоят диоды обычно не более 2А. Поэтому и задумываться и не стоит, в 99% случаев стоят генераторы не выдающие ток выше чем 0.1С.

На Жигулях емнип ближний свет фар - 55 вт одна лампочка плюс габариты по 5 вт. Плюс вентилятор охлаждения двигателя.

И гена там стоял 70 ампер. умельцы вроде даже ставили гену от Нивы (он мощнее) чтобы больше навесного оборудования питать.

И гена там стоял 70 ампер

На жигулях-классике штатно ставили Г221 (42А) и Г222 (50 А). Что, впрочем, всё равно много больше, чем "0.1C".

И диоды там сантиметра три в диаметре, запрессованные в немаленькую железяку-теплоотвод.

Плюс вентилятор охлаждения двигателя.

Нет. Там один общий ремень, который крутит и помпу и вентилятор.

умельцы вроде даже ставили гену от Нивы (он мощнее)

Уметь там нечего - по крепежу они одинаковые ;) Мощный генератор - быстрее заряжает, удобно.

"Жигули" были разные, если не путаю, на пятерках и семерках стояли электровентиляторы.

А зарядное напряжение регулирует реле-регулятор напряжения. Когда напряжение в сети становится слишком большим, оно отключает обмотку возбуждения генератора и напряжение падает, и так постоянно происходит, в итоге ток заряда определяется возможностями генератора (и выпрямительного блока), сопротивлением проводки, и степенью разряда батареи (и ее внутренним сопротивлением).

на пятерках и семерках стояли электровентиляторы.

Не только
У меня когда-то была карбюраторная семёрка 1988 года, там был вентилятор с приводом от ремня ))))

Ограничивается возможностями генератора.

Типичный легковой генератор это что-то в районе 90~150A.

Можно заряжать и током больше 0.1C, просто будет меньше ресурс аккумулятора.

Какая разница, какой там ресурс, если аккум у УПСе реально идёт в разряд от силы пару раз в своей жизни?

 В данном случае сначала ИБП сначала обеспечил переход с одного луча на другой, потом на дизель. Потом у дизеля возникла проблема и снова ИБП держал. 

Уже три похода (два из них кратковременные) за одну ночь.

На самом деле, на большинстве автомобилей моложе 15 лет устанавливают генераторы управляемые контроллером двигателя, достатчно посмотреть на параметры какого нибудь Фольксвагена, начиная от тока зарядки, кончая температурой батареи и идентификации реле-регулятора, позиций десять, а то и больше.
А сколько генераторов поменяны бездумно, а всего-то LIN шина мышью сгрызена.

Забываете что существуют:

Стартерные АКБ

Тяговые АКБ

Резервируемые АКБ.

Разница - колоссальная. Задача стартерных АКБ - отдать МНОГО тока (вплоть до 0,5кА в течении единиц секунд). Дальше - трава не расти.

Тяговые АКБ - за счёт изменения типа сепаратора они могут отдавать достаточное количество тока в течении длительного периода времени. Но и требуют аккуратной зарядки.

Резервируемые - разряд низкими токами в течении длительного времени. Например, для систем ОПС задача продержаться на АКБ 24 часа + 1 час в боевом режиме. Для АКБ это не должно принести ущерба. Да еще они не обслуживаемые совсем.

Не надо путать разные системы питания.

И да, на машинах за счёт разницы режимов АКБ проходят регулярный тренировочный цикл заряд-разряд под нагрузкой, поэтому постоянная подпитка им не так страшна. На ДГУ и прочих генераторах использование родного генератора является очень плохой идеей так как АКБ не проходит КТЦ и находится в постоянном перезаряде, отчего сильно сульфатируется, выкипает. Хорошей идеей является выкидывание питания АКБ на другую шину от внешнего источника питания с ЧПУ - (ненавижу слово "Умный" ко всяким тостерам и лампочкам. Эй, лапочка, чему равен sin1?), это обычные автоматы с алгоритмами. Оно следит за АКБ, следит за сульфатацией, поддерживает его качество. Выход из строя АКБ уходит в погрешность. Ну и плюс компенсирует саморазряд.

С уточнением по типу батарей полностью согласен. Только в ЦОД АКБ работают скорее в режиме тяговых, а не резервируемых...

Их бы не спас высокий ток зарядки, так как постоянно был дефицит энергии. Если бы UPS начали заряжаться током 25С, вместо 0.1С, генераторы бы вышли из строя еще быстрее. Вместо 0.5 МВт потребовалось бы 1.5 МВт сразу на зарядку в дополнение к основному питанию. Админы бы бегали и искали как отключить быструю зарядку просаживающую напряжение.

Сценарий применения UPS не работа при кратковременной подаче питания, а поддержать систему пока стартуют генераторы. Это от 10 секунд для прогретого генератора, до 3 минут если генератор на морозе.

Ну так вроде же по описанию сначала подняли не все генераторы. Я так понял сначала подняли большой дизель на 0.5 МВт, а потом он сдох и подняли 4 маленьких, а часть железа легла как раз в момент переключения на них т.к. UPS не выстоял интервал пока они заводились.
Т.е. в теории если бы после падения подняли сразу все 1.1 МВт используя условно 600 на зарядку UPS (да я понимаю что это нереально, мы тут про зарядку током 25С говорим)) а 0.5 на питание железа, то либо в момент зарядки умер бы большой генератор на малые не надо было бы качегарить, либо UPS зарядились бы на 100%, малые генераторы можно было бы глушить, а в случае выхода из строя большого, UPS бы выдержал еще одно переключение.

Время заряда батарей зависит от их типа и по большей части стоит рассчитывать как ток заряда= 0,1С где С - номинальная ёмкость батареи. Если копать глубже - системы связи и прочие ВЦ используют гибридную систему, где в случае локальных задач идут герметичные АКБ, которые надо заряжать строго по даташиду; а в случае ЦОД возможны как и свинцово-кислотные так и щелочные, причем этих АКБ целый машзал. Как и выпрямителей. Они обслуживаемые. Там и проблема балансировки и тренировки, климата, интересная на самом деле задача. В связи для этого специального аккумуляторщика держат так то.

До сих пор в ИБП в массе своей применяются свинцовые батареи, обладающие двумя неприятными свойствами. Во первых они долго заряжаются, минимум 6-8 часов, во вторых быстро деградируют и это нельзя выявить иначе чем протестировать полный цикл под нагрузкой. Типичный ИБП на короткое время переходит на батареи и по падению напряжения определяет их годность, но так выявляются только совсем мертвые.

Притом, что давно на рынке есть lifepo4 батареи, которые и заряжаются за 2 часа полностью и служат намного дольше и весят меньше (а это важный кстати фактор для ДЦ).

Еще есть мысль, что лучше иметь много маленьких дизелей, чем 2 или даже 3 больших. Тогда один может сломаться, один не стартануть в автомате, один быть вообще в ремонте и т.п.

По резерву питания, как и по каналам связи, надо смотреть дальше как они все идут. Нет ли общего физического или логического места пересечения. Нередко все каналы лежат в одной траншее и уязвимы к одному экскаватору.

Примерно треть энергетики ДЦ это его система охлаждения. Всего лишь ценой цистерны теплоносителя можно сэкономить на резервном питании компрессоров много часов.

Еще есть мысль, что лучше иметь много маленьких дизелей, чем 2 или даже 3 больших.

Работа нескольких генераторов на одну общую нагрузку - нетривиальная задача.

В ЦОД нагрузка отлично распределяется.

Вы не поняли мою мысль. Распределить нагрузку от одного источника по сотням потребителей - проблем нет. Ответвляешься проводом и ставишь на отвод автомат. А вот в обратную сторону это не работает. Объединить энергию от сотен генераторов и подключить к одной нагрузке - нетривиальная задача.

В ЦОДах как раз нет одной крупной нагрузки, а есть много маленьких.
Да и сотен генераторов не будет. Будет до 10 штук.

Иии? Тогда резервирования не будет. Из 10 генераторов 1 в ремонте, 1 сломался, 1 не запустился. 30% оборудования стоит. В комменте, на который я ответил, речь шла именно о резервировании. А для этого несколько генераторов должны работать на одну нагрузку. Тогда если есть запас по мощности, то отключение одного из них никак не скажется на электропитании.

Можно делать коммутируемые линии.

Можно, но получается сложная матрица коммутации. 10х10 в общем случае. Кто будет переключать и по какому алгоритму? Если генераторы и нагрузки все идентичные по мощности, то алгоритм видится несложным если один-два генератора есть в резерве. А если генераторы и нагрузки все разные? На мощный генератор, допустим, можно навесить несколько мелких нагрузок. Но слабый генератор одну мощную не потянет ни при каких условиях. Также нагрузки тоже непостоянные, а зависят от загрузки серверов. Сегодня они такие, завтра другие. Алгоритм должен просчитывать матрицу коммутации на лету. Я же говорю, как ни крути, задачка нетривиальная.

Давайте так, мы знаем
1) предельную мощность на стойку
2) количество стоек на 1 генеретор (скажем, 1 коридор)

Вместо того, чтобы динамически рулить всем этим хозяйством, заложить 110-120% максимальной мощности этого коридора.
Да, оверхед по соляре и номиналу генераторов, но в целом, думаю, рабочий вариант.
Потому что работа от ген уже нештатная ситуация, и чем скорее она закончится, тем лучше. Тащить туда оркестрацию а-ля Distributed Resource Scheduler плохая затея.

А если генераторы и нагрузки все разные?

Задача тривиальная. Много маленьких генераторов работают как один большой. Нагрузка подключается когда на рабочие обороты выходит 110% генераторов например. И отключается, когда генераторов менее 100%.

Остальные хотелки это уже второстепенно и огромный плюс маленьких генераторов, можно тонкой настройкой обеспечить живучесть системы невозможную для одного мощного генератора. Например каждой нагрузке дать приоритет от 0 до 100%, измерить мощность и балансировать алгоритмами нечеткой оптимизации.

Например из 20 генераторов работает только один самый слабый (на 50 кВт), и система принимает решения поддерживать только коммутаторы, сервер мониторинга, дежурное освещение, вентиляцию по минимуму на 10%, внутренний чат, сервисдеск. Остаток мощности, что не получается поделить отправляем на зарядку бесперебойников, чтобы не пропадал, например 2 кВт, или добрасываем на систему вентиляции.

Но если нет желания так заморачиваться, можно вернуться к первому варианту. Поставить преобразователи мощности от ветряков и солнечных батарей на генераторы и они объединят генераторы в одну сеть. По сигналу от N генераторов, что они вышли на нужные обороты подключаем всю нагрузку.

Задача тривиальная. Много маленьких генераторов работают как один большой.

Совместная работа генераторов в одной сети не так проста, как кажется на первый взгляд. Генераторы в этом случае должны быть синхронизированны по фазе.

Если объединять по постоянному току, то синхронность не нужна.

Генераторы дают переменный, сервер (насколько я знаю) кушает переменный. Преобразовать сначала в постоянный для объединения, а потом назад - дорого и по оборудованию, и по КПД.

Генераторы есть разные. Есть и с постоянным током. Они не так распространены потому, что в них, в силу конструкции, медного провода уходит раза в 2 больше, чем в такой же по мощности, но переменного тока. Еще, насколько я помню, опять-таки, в силу особенности конструкции генераторы постоянного тока невозможно собрать на автоматизированных линиях, много ручного труда. Соответственно, и цена на них совсем другая.

Соответственно, и цена на них совсем другая.

Да ну, постоянное напряжение как-раз проще. Не нужно частоту оборотов поддерживать. Пример генератор автомобиля, работает от 1000 об/мин до 9000 об/мин. Особенность конструкции 3 диода, чтобы сделать постоянный ток из переменного, больше ничего. И подключение проще, есть + и -, а не как на переменном токе 3 фазы, не дай бог перепутать схему подключения треугольник-звезда и всё горит, у нас в городе 2 раза такое было, в крупном спорткомплексе и в офисном здании подавали 380 вместо 220 и сгорали серверы и сетевое оборудование вместо "треугольника" генераторы "звездой" подключили.

у постоянки есть один минус - бешенный ток, и как следствие огромная материалоемкость и опасность для персонала..... Так-то стоит использовать опыт коллег из большого телекома и строить ЦОД с 48В DC - но тут вылазит куча далеко не очевидных проблем с доступностью, ЗИП и много с чем еще...

На 48В и переменка будет проблемой. Почему не делать постоянный ток на 220В?

Вот пример работы с постоянным током

https://habr.com/ru/articles/460457/

Солнечные панели были собраны в три блока по 3 панели в каждом. В блоках панели подключаются последовательно — так напряжение удалось поднять до 115В без нагрузки и снизить ток, а значит можно выбрать провода меньшего сечения. Блоки между собой подключены параллельно специальными коннекторами, обеспечивающими хороший контакт и герметичность соединения – называются MC4. Их же я использовал для подключения проводов к солнечному контроллеру, так как они обеспечивают надежный контакт и быстрое замыкание\размыкание цепи для обслуживания.
Далее переходим к монтажу в доме. АКБ предварительно заряжены «умной» автомобильной зарядкой, чтобы выровнять напряжение и подключены последовательно для обеспечения напряжения 48В

48В для аккумуляторов, в линиях между узлами напряжение произвольное.

48V это Стандарт под него всё Есть и не надо ничего изобретать - включая сертификаты, оборудование, нормативку и тп...

Как раз-таки наоборот, именно постоянный ток является безопасным, в отличие от переменного.

у постоянки один минус - он ДРУГОЙ )
Много неочевидных моментов, начиная с отдельных серий автоматов на постоянку и заканчивая совсем другими механизмами выключателей. Почему? На переменке дуга при выключении сама гаснет в силу того что электричество переходит через 0, нет энергии - нет дуги. А постоянка - нет этого нуля, дугу нужно именно рвать и гасить. Тема интересная, советую изучить.

На небольших напряжениях постоянка безопаснее, но 220 постоянные убьют ничуть не менее эффективно переменных.

И бонус - меньше распространение - всё что есть - под заказ и дороже.

но 220 постоянные убьют ничуть не менее эффективно переменных.

Переменный ток похож на сигнал в нервах и вызывает реакцию мышц, самый болезненный 200 Гц. Постоянный ток как-бы мимо мышц проходит и действует в несколько раз слабее. Остановит сердце или судороги вызовет переменный ток на меньшем напряжении. Постоянный ток сохраняет другие поражающие факторы, термическое например, но в целом лучше с постоянным током дело иметь.

и строить ЦОД с 48В DC

420V же вроде как.

Особенность конструкции 3 диода, чтобы сделать постоянный ток из переменного, больше ничего.

Не постаянный а пульсирующий (я зануда, ага). Ну и просто взять и обьединить не получится. Нужен балансировщик нагрузки, причем большой мощности.

Давным давно уже нет никакого смысла делать генераторы постоянного тока с коллекторами и щётками. Просто делают генератор переменного тока с нужным числом фаз (не обязательно 3) и ставят дешёвые полупроводниковые выпрямители. В автомобилях помоему ещё с 70ых годов так делали.

Преобразовать сначала в постоянный

Это делает выпрямитель, один диод на фазе.

а потом назад

Надо проверять, импульсные блоки питания все равно выпрямляют напряжение. Но схемы PFC могут не понять что происходит и отключиться на постоянном токе. Блоки питания попроще могут и заработать на постоянном токе.

Вот тут статья и комментарии по работ на постоянном токе, если заранее подготовиться, ничего придумывать не надо

https://habr.com/ru/articles/372749/#comment_16416779

Личный горький опыт — попытка завести такой блок питания (на 100 В/60 Гц, американский) от =110 В (лабораторная сеть постоянного тока). Сгорел. Обычные импульсники "90-260 В" работают от нее на ура.

Вот еще

https://www.chipmaker.ru/topic/181441/

Ребята вопрос следующий: В кубрике имеется пара розеток 220 в постоянного тока. Они вообще для электрогрелок, но парни по незнанию подключали зарядные ноутбуков планшетов телефонов. При этом все работало, при чем довольно продолжительное время и ни каких выходов из строя.
Хотелось бы получить коментарии по поводу такой работы. Долго ли прослужит блок питания? Выдает ли он правильное напряжение и ток? Ну и вообще.

Это делает выпрямитель, один диод на фазе.

Это когда у вас киловатт-два, всё просто. А в случае ЦОДа речь о мегаватте, там всё веселее намного.

Так и поле солнечных батарей дает мегаватт. И с этой мощностью вполне работают. Даже сложнее процессы, синхронно в сеть нужно передать энергию, а не разделить по потребителям.

В тепловозах и электровозах на переменке как раз мегаватты. И ничего, выпрямители с генераторов в порядке вещей годов с 70ых. До этого в тепловозах были да, коллекторные генераторы, а в электровозах на переменке -- ртутные выпрямители.

А сделать что бы гена мощь пропорционально отдавал с учётом что после выпрямления трёхфазного тока напряжение пульсирует что-то порядка 5% всего, если не ошибаюсь.
ps LTSpice лень запускать)

ниже об этом уже добавили

Совместная работа генераторов в одной сети не так проста, как кажется на первый взгляд. Генераторы в этом случае должны быть синхронизированны по фазе

Да лаааадно, норм всё будет, чего уж там, чего париться!
У меня знакомый помню так три генератора в параллель включал постоянно, всё нормально у него было а потом у него полкоттеджа чуть не сгорело к херам )))))

Первый закоротивший генератор сломает всю систему.

На постоянном токе диодом направляется энергия в одну сторону. На переменном токе отключит автомат. Проблема давно решена

Нет, система его сломает. Он попросту или сгорит или отрубится от сети через устройства защиты.

Генераторы нельзя просто параллельно соединить, как батарейки. Их совместная работа - довольно сложная задача.

Есть готовые решения для параллельной работы, контроллеры ComAp например. В целом там делов немного: попасть по фазе вращения в линию, воткнуться в неё и управлять выдаваемой мощностью подгонкой частоты вращения, получая информацию о мощности всей системы по CAN-шине.

Современные решения позволяют такое устраивать для групп до 128 машин в кластере при использовании контроллера кластера. Или по другим технологиям - 32 машины без внешней магии.

Я не вкурсе генераторов, по теории они способны к самосинхронизации... Но например солнечные контроллеры с контролем фазы я держал в руках, их можно хоть в общую сеть включать и они ее подпитывают. Упала сеть - самосинхронизируются. И они именно сотнями могут работать.

На электростанциях, например, процесс синхронизации и ввода генератора в работу преимущественно ручной и небыстрый, можете посмотреть видео на ютубе. Оператор ждет пока фаза вращения генератора совпадет с сетью и тогда врубает рубильник. Но этот процесс редкий, по большей части турбины работают в одном режиме месяцами. Здесь же требуется подключать все достаточно оперативно, пока еще тянут ИБП, вручную точно не вариант. Самосинхронизации у них нет, это обычно простой трехфазный генератор на одном валу с двигателем. В солнечной энергетике все идет через инвертор.

Это наверное видео времен днепрогэса? Нет ничего проще, чем по совпадению фаз открыть тиристор.

Генераторы разве не инверторные? Даже у меня на даче инверторный...

Вот, с инверторами можно даже помочь турбине раскрутится за счет единой энергосистемы, чтобы переходные процессы ускорить с минут до секунд. Турбине только лучше будет, нерасчетные скорости для нее разрушительны.

Мощные генераторы не инверторные, если на это нет жизненной необходимости (как в каком-нибудь ветряке) но ручной ввод по стробоскопу наверное мало где остался, все делает в основном автоматика.

На электростанциях, например, процесс синхронизации и ввода генератора в работу преимущественно ручной и небыстрый, можете посмотреть видео на ютубе. Оператор ждет пока фаза вращения генератора совпадет с сетью и тогда врубает рубильник.

В этом веке это давно не проблема. Дизеля оборудуются контроллером управления который в том числе и синхронизирует его генератор с сетью. В энергетике рубильников нет, а современные энергоблоки синхронизируются автоматически. Процесс на средних машинах занимает 1-2 минуты.

У нас это нажать клавишу ПУСК. Дождаться пока машина войдёт в режим, нажать клавишу «Ввод в сеть». Все. Остальное машины сами сделают. Там микропроцессорная система, включающая линии связи между машинами, цифровые регуляторы возбуждения и аналогово-цифровая шина отслеживания параметров дизеля/газопоршня. То есть все микропроцессорное и на своих алгоритмах. Один раз настроил и дальше оно само справляется.

Цифровая система передачи данных нужна для оперативной связи машин. То есть если один генератор работает как изохронный, вторые синхронно с ним. Что бы поделить реактивную мощность и подогнать возбуждение, можно по факту, грубо ввести машину в сеть. Этот грозит флуктуациями напряжения и тока в сети. Неприятно. Когда они общаются по шине - один генератор говорит другому «Я готовлюсь включать главный автомат, готовься отдать мне 50% мощности». Второй подгоняет себя под соседа и отдаёт ему мощность. Красиво и без всяких выбросов. Цифровая арн не зависит от климата.

Продвинутые генераторы на электростанциях нонче могут создавать сразу вращающееся магнитное поле ротором, так что частота сети не кратна скорости вращения. И очевидно для них нет никаких проблем сразу войти в синхронизм.

У энергетиков есть такая вещь как "вставка постоянно тока", это когда надо объединить две сети, которые по каким-то причинам невозможно синхронизировать (например, 50-60 Гц). Т.е. преобразование переменный-постоянный-переменный ток давно освоено. Правда, у них там чудовищные мощности и оборудование исключительно под заказ.

Не знаю есть ли что-то подобное для малых мощностей.

Объединить энергию от сотен генераторов и подключить к одной нагрузке - нетривиальная задача.

Так было лет 20 назад. Сейчас развита зеленая энергетика и у них есть решения по сбору энергии из разрозненных источников. До 1 МВт как в статье вообще без проблем.

От сотен, и ещё распределённых географически -- может быть. А десяток находящихся в одном месте -- какие могут быть проблемы? Ввёл в синхронизм и подключил к нагрузке, управляются все сразу единым контроллером, который выдаёт уставки на подачу топлива в дизелях и возбуждение генераторов, например.

Работа нескольких генераторов на одну общую нагрузку - нетривиальная задача.

Вообще ничего сложного. Делал энергокомплекс 260+400+400. Сначала все запускаются и входят в параллель, включается общий контактор на линию и дальше система саморегулируется в зависимости от нагрузки.

Тривиальная. Смотрите решения comap control. Там микропроцессорная система , связывающая машины и общую сеть. Можно максимально бесшовно перейти на дгу и обратно

Литий в расчете на Вт*ч стоит раза в три дороже свинца :(.

Это правда, но если учесть срок службы, вес стоек ибп, работы по замене батарей, требование к вентиляции - получается удорожание всей системы уже не в разы, а на десятки процентов.

У лития добавляются требования к пожарной безопасности. Батарея на 1 МВт из лития что сутки выдает мощность может целый квартал снести при некотором раскладе.

Безопаснее лития, но опасен, запас энергии в 1 МВт*сутки не может быть безопасен

Ну я не видел проблем с lfp, ни по перезаряду (просто греются, на ощупь сильно, но у них до 50 вообще рабочее), ни по повреждению корпуса.

Интересно, как быстро при аварии эта энергия может выделится? Если например короткое на шинах батареи. И lifepo4 горит. Хотя и не так активно, как li-po.

ИБП с запасом энергии на 2-3-4 потери

Потом будет новость типа: в России взорвался датацентр из-за выделения водорода из аккумуляторов. Как такое произошло?

Это просто дикая цепочка событий.

Отключилась вентиляция, аккумуляторы встали на зарядку, выделился водород, искра, взрыв... а аккумуляторы на 1 МВт мощности в течение суток...

По умолчанию ёмкость аккумуляторов на ИБП рассчитывается исходя из 20-30 минут автономной работы. Этого времени достаточно для того, чтобы понимать что электричество пропало не на 5 минут, и дать запустится дизельгенератору (ДГУ). ДГУ, в отличие от ИБП не может дать электричество сразу, а ему надо время чтобы запустится, прогреться и немножко поработать вхолостую.
Если заказчик скажет, то можно ёмкость АКБ сделать и на 1 час, и на 2 часа и на сутки работы от ИБП.
Но в деньгах это счастье админа выглядит так:
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 30 минут работы: 1 500 000 рублей
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 1 час: 3 млн рублей
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 2 часа: 6 млн рублей
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 4 часа: 12 млн рублей
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 6 часов: 18 млн рублей
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 24 часа: 72 млн рублей
Плюс не забываем что АКБ теряют ёмкость каждый год, и через 5 лет полностью меняется.
И чем больше ёмкость АКБ тем больше нужно электричество для их автоподзаряда (этим занимается ИБП)
например
АКБ для ИБП мощностью 500 кВт (0,5 МВт) на 2 часа: 6 млн рублей
там электричества по нынешним тарифам, будет уходить примерно тысяч на 100 каждый месяц, чтобы их просто подзаряжать.

С техникой такое довольно часто: при нормальном использовании / простое вроде всё в порядке, а при аварийной нагрузке летит. Это я про патрубок и маршрутизатор. Вы же наверняка знаете, что при ребилде рейда есть неслабый шанс получить второй дохлый диск, который до этого работал...

Ну и насчёт охраны, попробуйте договориться о пропусках для аварийной бригады. Хотя бы каждый день выписывайте такие пропуска на пару запасных бойцов и техдира. Для последнего доступ на площадку в любое время вообще штука полезная.

По факту на данный момент от охраны вреда больше, чем пользы. Сейчас типично на объектах охраны нет, стоят датчики охранные, видеокамеры и всё. А тут какие-то детские болезни в работе системы, охрана с синдромом вахтера. Пожарных и скорую они тоже на объект не пустят?

Спасибо за понимание и идеи!

Судя по времени событий догадываюсь кто у вас соседи и теперь понятно почему у нас один сервер отваливался на это время(соседи не стали рассказывать что это было).

По ссылке фото 2016 года, но все таки, ДГУ какой то неухоженный. Вероятно за прошедшие 7 лет лучше он не стал, а теперь вот патрубок... Закономерный итог. "Ввод питания в гермозону" - даже комментировать не хочу. В комментах в статье вам еще и в 16-м году писали. Конечно аварийное отключение двух фидеров вещь неприятная, но мне кажется все остальное у вас посыпалось просто от того, что никто не занимался регламентными работами на оборудовании. А соответствующие должностные лица ничего не проверяли, кроме панели мониторинга на экране ноутбука.

Работа на дизелях всегда риск. Мы исправно их включали по отдельности раз в месяц, без переключения всей инфраструктуры на них. Это несёт в себе довольно большой риск и проводить боевые учения, когда у вас полный дата-центр клиентов - так себе удовольствие.

Даже не знаю что тут посоветовать. Но длительную работу трех полумегаваттных генераторов на номинале сложно промоделировать по теплу например. Особенно если будет безветрие, день и +40... А именно в таких условиях вероятность лечь у городской энергосистемы велика.

А вы можете себе сделать энерговывод на столб например? Чтоб в случае ЧП, пригнать трейлер с генератором и подключить минуя охрану?

При 100% мощности будет перегрев примерно через 30 минут. Но больше шансов что у вас упадёт ввод по тепловому расцепителю автомата. Мы уже проверили и не раз. В штиль, ветер и мороз есть рекомендации что делать. Как говорится, обращаетесь к специалистам.

Вам необходимо обратиться к крупным людям как Энерготехсервис, НГ энерго, Волгаэнергопром. В чем суть вопроса: это компании, обеспечивающие генерацией нефтянку, склады и прочие объекты с аптаймом в единицу. То есть сутки не выключаясь. Это дает доступ к инженерно техническому составу по исследуемому вопросу, запчастям и понимаю того как это работает. Много кто так всю генерацию на аутсорс. Собственно, у выше перечисленных есть даже заводы и ремонтные цеха, склады запчастей на все случаи жизни. А хандмейд это больший риск.

Большая часть вашего веселья началась с «Нет инженера энергетика с опытом в генерацию». Нет оценки рисков что пойдёт не так.

В большинстве случаев для нас полетевший патрубок этот проблема дождаться охлаждения антифриза и его заменить. В запасе лежит , как и ремни и прочие датчики. Если надо можно чуть ли не половину критичных узлов в каморке держать, включая запасной ноутбук наладчика.

обычно же в два Этапа тестируют - сначала Сажают нагрузку на одну из ИБП потом Переключат нагрузку на основную сеть, а ИБП используют как нагрузку для генератора - что бы не возить цистерну с водой и нагревателем на 500кВт...

У нас были дизеля (С-300). Вся боевая работа - только от них. И для тестирования был "эквивалент" - железный ящик на колёсиках где-то 1,2х2х1,5. Имитировал 100 квт нагрузки. Тупо - большой проволочный резистор. Зимой им ангар обогревали.

И, кстати, ещё тогда (70-80-е) наши дизеля вполне спокойно синхронизировались с сетью. Нажимаешь кнопку пуск, дизель заводится, выходит на режим, синхронизируется с сетью и потом внешнюю сеть отключает.

И вообще, админы не очень хорошо ремонтируют дизели: это немного не их профиль работы.

Так и представляю голос начальства: "Настоящие админы должны уметь все!" :)

Причем недорого. И зачем нам много админов? двух хватит. Видите как хорошо оптимизировали штат, на премию себе как минимум ))

Я тоже пришёл за этим комментарием, немного с этого прифигев. Я канеш понимаю, "тыжпрограммист" и вот это всё. Но чинить дизели?.. Даже внезапно предположив, что один из двух админов хоть что-то в этом понимает, но лезть очевидно непрямыми руками в несвою область, нарушая наверняка нормы и ТБ?

Статью ещё не дочитал, надеюсь, там в конце "наняли команду профессиональных дизель-ремонтников на дежурства". Наняли же?..

UPD: дочитал до

дышать в админской стало довольно тяжело: <...> внутрь засасывало выхлоп дизелей

слов нет.

Там тоже повозмущался.

Не у всех есть возможность каждый день в тренде быть статьи внимательно изучать.

 Разбор ошибок

Что-то не видно желания пересмотреть пропускной режим.

Насколько я понял, пропускной режим — это пропускной режим стратегического предприятия, на территории которого арендуются площади.

Пересмотреть политику выбора площадок под аренду? На дворе 2023й год, уже давно нет тех аргументов почему 20 лет назад можно было выбирать именно такие места под ЦОД.

У нас самый широкий выбор дата-центров среди российских хостеров - от М9 и Останкино до Владивостока и Швейцарии. Есть как площадки сертифицированные TIER, так и режимные объекты. Клиенты выбирают то, что больше им подходит в зависимости от потребностей бизнеса: для кого-то 3 периметра физической безопасности и охрана росгвардии важнее потенциального времени ожидания пропуска на объект.

На крайний случай у нас есть соответствующий опыт переезда дата-центра, если мы не сможем обеспечить качество оказания услуг на данной площадке. Но по одному кейсу, хоть и очень тяжёлому неправильно принимать подобные решения.

Но по одному кейсу, хоть и очень тяжёлому неправильно принимать подобные решения.

А что, есть надежда, что в следующий раз произойдет что-то другое?

Ну что вы, пропускной режим отработал как надо! Ни одного диверсанта не пропустили, пока начальник охранников не проснулся.

Пропусквыдавать не только разовый но и на энное количество часов. А по окончании охрана пинком под зад всех за КПП #сарказм. Если после такого облажания телефоноы и адреса руководства охраны по прежнему неизвестны , а на КПП не лежит список кого пропускать 24/7- пишите курс как ходить по граблям

Думаете, это они должны сделать?

Делали безопасность для военки. Сервера питались- несколько стоечных УПС в каждой стойке, общий УПС с кучей здоровенных аккумуляторов, бензиновый генератор, стабилизатор. На одних УПС система почти сутки могла жить, даже при истощении выключалось все по мере критичности. Генератор бензиновый а не дизельный чтобы зимой проблем не было с запуском. Даже если генератор умрет- можно сходить за другим не спеша.

А тут да, сэкономили на УПС, причем каким то чудом еще и сгорело и заглючило чего то при перезагрузке.

у вас тоже было бензиновых генераторов на мегаватт?

Возможно УПС были криво подключены и в целом что-то напутано по фазам. У нас было такое в большом спортивном комплексе и еще в одном здании, тупо 380В пришло на оборудование с генераторов и погорело всё что было в сети, от БП серверов до Cisco.

У монтажника кабель нужного цвета закончился, ведь так?:)

Надо устраивать учения каждые полгода. Приходить ночью с электриком и втихаря отрубать вводы.

  1. Заметно высокий риск отказа. Клиенты не будут рады. Тестировать то придется на живых людях.

  2. Ресурс дизелей, плюс само дизтопливо.

  1. Если это делать ночью, то, как было сказано в статье, в случае ЧП некоторые клиенты могут даже этого не заметить. Ну, и лучше иметь отказ на учениях, когда в любой момент можно врубить питание назад, чем если это произойдет при реальной аварии.

  2. Да, придется потратиться на 50-100 л солярки, или сколько там дизеля сожрут за 5-10 минут проверки?

Дело не в солярке, а в том, что когда парк железа исчисляется сотнями нод, моргание света, конечно, укажет на проблемный сегмент, но вместе с тем и есть риск выхода из строя серверного оборудования. Рейд контроллеры, например, не особо любят частые перезагрузки и могут выйти из строя, что наполнит учения незабываемыми ощущениями от потери клиентских данных и последующих извинений. Ранее в комментах я уже упоминал, что мы исправно включали дизели по отдельности и без переключения всей инфраструктуры на них.

Ниче непонятно. У схд два-три бп, на каждый своя линия, и рейд контроллер даже не узнает что там кто-то дизель пустил. ИБП должны все это отработать, им тоже полезно раз в год клацнуть большой релюшкой.

Эти ДЦшные ИБП, скорее всего, с прямым преобразованием - там даже релюшки нет толком :)

Самому интересно. Чинил и дорабатывал UPS до 1кВт всего, приглашали посмотреть что случилось с 40кВт - испугался.
Там наверное "даже релюшки нет" потому что это уже контактор и он врядли успеет.

Тут вы должны решить, что хуже -- иногда мелкие отказы на учениях или редко вот такие крупные отказы. Мы честно каждые несколько месяцев переключаем ДЦ (небольшие, две штуки по 130 кВт каждый) на дизель. Лучше познакомиться с проблемами до того, как они подкрадутся к тебе сами.

Тем более что топливо надо обновлять, оно расслаивается в баках.

Еще есть такая милая вещь как осушение топливной магистрали при длительном простое. Никто не ставит клапана, а зря. Прокачка - дело не быстрое.

Им на самом деле полезно иногда пожрать, а то кольца залягут и воробьи гнезда совьют в выхлопной трубе. 50л в масштабах ДЦ просто смешно. И вообще, ДТ имеет сроки хранения, по хорошему, топливо надо ротировать (то есть воровать на личные нужды и докупать свежее).

У дизелей ресурс многие тысячи моточасов. Пятиминутное включение это ничто, они и до рабочей температуры могут не успеть разогреться.

Строго говоря, 17-20 тысяч моточасов до капитального ремонта. Потом еще раз столько же. Да же если гонять по часу, то на 20 000 раз хватит. :).

Надо заранее предусмотреть тестовую нагрузку для UPS и генераторов. Это всего сотня тэнов в большой бочке с водой.

А чем отказ системы на таких учениях будет отличаться от отказа системы в обычный день за исключением того, что будут пропуска и готовые люди? И как это выявит отказавший дизель который сдох через 3 часа работы?

Если что-то пойдет не так то в обоих случаях пострадают люди размещающиеся на стойке, а вероятность что что-то пойдет не так увеличивается с увеличеним частоты "проверок".

Это примерно как выстрелить себе в ногу в больнице чтобы убедиться что врачи быстро тебя вылечат в момент, когда ты выстрелишь себе в ногу в поле. Конечно в больнице помогут быстрее но эксперемент того явно не стоит.

Во время учений электричество пропадает хоть и по-настоящему, но включить его обратно можно рубильником; во время настоящего события рубильник дёргай или нет -- на вводе нет электричества, значит его нет.
Разница между (потенциальной) перезагрузкой клиентского оборудования и блэкаутом на 12 часов -- огромна.

А чем отказ системы на таких учениях будет отличаться от отказа системы в обычный день за исключением того, что будут пропуска и готовые люди? И как это выявит отказавший дизель который сдох через 3 часа работы?

Читал N лет назад как тестируют свой ДЦ в какой-то(даже примерно не помню названия) компании — когда подходит срок годности дизельного доплива, привозят новое топливо на замену и переключаются на сутки(на столько старого топлива запасено) на генераторы, и старое топливо вырабатывается и сразу в боевых условиях проверяют что все будет работать как предполагается.

Вот для этого и проводят учения, которые бы показали минимум половину выявленных наживую проблем. Но "на кошечках" тренироваться не так остросюжетно, кто ж спорит,..

Того, кто придумал эти учения и уволили бы. Сказали смотрите до чего его игры довели, работало же всё нормально.

Гораздо лучше устроить долгую аварию на 14 цодов и потом оправдываться что руководство не умственно отсталое (конечно верим). Ну это было бы конечно новость, если бы таким "руководством" не был бы наполнен рынок этих услуг.

С таким руководством, которое подобное исполняет, всё равно не по пути и стоит менять работу.

Такое везде. Можно рассмотреть Фукусиму или падение ракеты Ариан 5, по примерам даже статья есть на Хабре: https://habr.com/ru/articles/307394/

Большая компания становится как маленькое государство и там свои особенности, нельзя объять необъятное. Иначе бы не было такого, тысячи процветающих компания с миллиардными активами и неожиданно становятся банкротами

Банкротство General Motors Дата банкротства: 06/01/2009 Активы: $91.000.000.000

Спустя некоторое время кажется понятно какие ошибки они совершили, но в свое время руководству не так очевидно что они делали не так. Это конечно когнитивное искажение, что вот они глупые, а мы умные и больше понимаем.

Кмк, большинство причин банкротств, потеря обратной связи с потребителями.
Низы не могут, верхи не знают.

Кстати это касается не только коммерческой стороны, но и государственной...когда руководство "на верхах" не видит реальной картины "внизу", то любая система управления (гос, ком или даже человек как особь) выходит из строя и прекращает своё существование. Жаль, что не все управленцы это понимают и осознают.

Эх, читаю описание ощущение зачем Вам - админам лезть туда, где Вы не понимаете.
Возьмите нормального электрика, будет счастье, трансформаторов не станет по 110 МВт, скорее 110 кВ, но это неизвестно. И мощность не будет перераспределятся по лучам (??), и ДГУ будет работать как надо и миганий не будет.
Пришел человек и решил: "...ночь показала, что двух недостаточно, нужно 2N + 1 минимум...", а расчеты есть?
Или ночь показала? А вероятность отказа сколько, ущерб какой будет?
Отключение питания штатная и проектная авария, потребитель (ЦОД) должен работать без проблем, как часы.

Вот кстати да. Это еще патрубок воздушный лопнул, а если бы топливный? Готовы системы к разливу дт и пожару в генераторной? Или пустили фреон и вообще все встало? Или генераторы на улице рядом стоят и там всего инструмента пожарный щит с лопатой и ведро пожарное?

Похоже, что к разливу ДТ в генераторной мы готовы, потому что это старая генераторная убежища, и она в какой-то степени защищена by design. А вот к пожару не полностью, то есть потушить-то потушим, но заново не заведёмся. Давайте так: сейчас мы выдохнем, и чуть позже расскажу про выводы и то, что реально экономически и рисково обосновано, а что нет — иначе получается история с солонками.

У вас в генераторной есть приямок объёмом равный запасу топлива ? Что с огнестойкостью дверей, стен, кабельных вводов ?

Дата-центр Rucloud запитан от двух независимых трансформаторов 110 кВт от городской подстанции Королев, ул. Хвойная. Извините, поправил.

Напряжение же - 110 кВт

Напряжение - киловольты, kV

кВт - мощность.

В чем посыл? Я и написал, что при указании напряжения "т" на конце лишняя. Почем латинскими?

Хоть 10 трансформаторов на подстанции. На таких напряжениях аварии весьма масштабны,. Питаться надо от физически разных подстанций и чтобы к вам кабели питания были с разных сторон проведены чтобы однажды экскаватор не нашёл сразу оба кабеля.

Хоть 10 трансформаторов на подстанции.

Да, важнее сколько ЛЭП (ВЛ, КВЛ) подключено к подстанции, если несколько то при аварии на одной сработает АВР и потребители не пострадают. Питание от двух географически разнесенных подстанций очень не дешевое удовольствие.

Интересно, а существует в электрохозяйствах ЦОД-ов такое понятие как "селективность"?

А какое количество стоек вам требуется на М9?)

Пусть кинет в меня камень кто по своей рукожопости не имел даунтайм 12 часов.

Да, дерьмо случается, бывают даже лютые факапы, но вот то как на это реагирует компания, какую даёт обратную связь и делает из этого выводы это очень важно и один из главных индикаторов для решения работать с ребятами.

Как не делали учения, так и не будут. А для учений надо специалистов нанимать и слушать их, а не в карман эффективных менеджеров деньги класть. Перед учениями всегда инженеры всё вылизывают и говорят, когда можно начать проводить учения.

Дизели обслуживаются раз в полгода. В этот раз интервал был чуть меньше, потому что мы сутки на них стояли во время зимнего кризиса. Если это шпилька в мою сторону про эффективный менеджмент — ну, я уже много раз рассказывал, как именно и к каким рискам мы готовимся, и нескольких очень крупных случаев нам удалось избежать. Если вы всё ещё считаете, что я неправ, то, в целом, готов обсудить ваше участие в нашей работе и вашу ответственность за простои в личке.

Спасибо за минус в карму (первый)

А я всё равно настаиваю что реакция у ребят на свой факап правильная и я был бы рад если бы этому примеру последовали другие.

Что интересно, клиенты почти угадали что случилось (отвал мониторинга и следом за ним системы, которая отвечает за создание серверов), но техподдержка почему-то опровергает их верные догадки

Мы не думали строить кластер из двух коммутаторов, потому что не похоже, что DDoS-защита относится к критичным сегментам: при выходе её из строя примерно на 5–20 минут (время физической замены коммутатора) возможны DDoS.

Но ведь фактически он отвечал не только за защиту от DDoS, но и за сеть управления, а это критический сегмент.

Поддержка ошиблась, простите. Мы были неправы в тот момент. Как я говорил, было довольно сложно в моменте понять детали происходящего.

а помогло бы? 50/50 "состояние Шредингера" у железа тем и опасно что даже при наличии кластера далеко не факт что оно бы продолжало работать и самое худшее оно могло бы так же погореть при запуске и во втором комке - причина повреждения коммутатора не озвучена, да и скорее всего четко непонятна... я бы плотно занялся анализом Электрики и Управляющих контуров в ЦОД особенно для критичных узлов - ДГУ, Климат + Вентиляция, СКУД, Управление... да и архитектуру сети управления копнуть стоило бы....

даже при наличии кластера далеко не факт что оно бы продолжало работать

Теория надежности штука вероятностная, и вероятность выхода из строя двух систем сразу в общем случае ниже, конечно всегда может случится какая-нибудь условная Фукусима, когда мы остаемся без всех резервных систем разом, но статистически, кластер более надежен. И конечно никто не мешает иметь в дополнение и hot swap в шкафу. А вообще, тут главная проблема в том, что узел, который был оценен как не критический, фактически являлся критическим.

в данном случае "Внешний фактор" - сколько бы устройств в Кластере не было от межфазного(380В) не спасет...

Есть большие сомнения, что в данном случае коммутатор оказался под линейным напряжением, хотя бы потому, что тогда пострадало бы больше устройств. И от такого тоже можно защищаться установкой реле напряжения.

маловероятно, что там прилетело 380, я бы поставил на переходной процесс aka "вкл-выкл-снова вкл", когда моргнули сначала генераторы, потом упсы.

согласен тогда бы горело много и долго - но вот как простейший вариант который показывает не состоятельность вероятностной модели отказов при появлении внешних факторов сойдет.....

Это значит, что мы не можем отправить ещё админов и не можем отправить дизель

Надо было имитировать приступ сердечный у админа и пожар (задымление же было по сути и так) на генераторе. Приехала бы скорая, полиция, МЧС, пожарники, санэпиднадзор и начался бы проходной двор, куда под шумок бы пронесли и генераторы ))

Со стороны выглядит что проблема не техническая, а организационная, как корпоративная болезнь крупных компаний, по отдельности всё работает, а всё в целом проверить вроде и нужно, но конкретно некому. Или некому ответственность на себя взять на организацию тестирования и возможные последствия. Система питания централизованная, мощная, по сегментам не проверить, а всё отключать чревато. Сейчас виноватых как-бы и нет (ответственность размазана по системе, как на Фукусиме было например, все следовали регламенту и сохранили лицо). А при тесте был бы виновен конкретный организатор тестирования, что отключил рубильник в запланированное время. Сразу бы началось, кто просил это делать, кто разрешил, нам такое не надо и так дел хватает, давайте не сейчас (а лет через 100)...

В фейсбуке?? админы не могли то ли попасть в машзал, то ли выйти из него, когда упал сервер авторизации?

Поломали сеть, от которой упал днс, от которого всё тазом накрылось.

Насколько надо sneak вкачать, чтобы "под шумок" незаметно протащить генератор на 0.5 МВт?

Как я понимаю, это минимум 2 тонны...

А вот выше была идея с отдельным вводом, чтобы подгонять генератор снаружи, это реальнее.

скорее всего Энергетики вам пожмут шею, за такую самодеятельность и будут правы...

Проблема - это всегда комплекс факторов.
Молодцы, что так быстро справились.

"самолёт не разбивается от одной не исправности"

знаю не по наслышке подобные ночные "приключения", хочется посочувствовать.

НО:

Итог: нам нужен сервис публичного мониторинга доступности нод.

камон, почему это до сих пор не очевидно вообще всем? неужеле так сложно прикрутить какой нибудь cachet развёрнутый на мощностях конкурентовколлег за счёт того что их публичный сервис мониторинга будет развёрнут у вас. и все довольны, и телефоны меньше разрываются..

Тут много всяких "полезных" решений насоветовали в комментариях, разумеется. Вроде стресс-проверок отключением электроэнергии каждую ночь и покупки ИБП с акумом на сутки работы. Лол.

Однако, мониторинг вам правда не помешает. Пару лет назад, когда с вами появлялись регулярные проблемы на зарубежном сервере и я просто не мог понять что происходит: с поддержкой переписываться неохота, отвечают долго, а когда отвечали то конкретика на уровне «наблюдаем проблемы какие-то с доступностью, специалисты решат, наверное». Возможно что проблемы были лишь на определенной локации, но на вопрос «куда бежать», поддержка ответила что-то совсем невразумительное, статистики инцидентов у вас нет, так что релоцировался к конкурентам)

Выведите какую-нибудь красивую публичную панельку, типа discordstatus.com , тогда хоть люди понимать будут почему сайт не работает, проблема на них или у вас.

Спасибо за советы. Учтём. Уже есть несколько подобных идей в работе.

Вообще вам надо брать примеры с предприятий критической инфраструктуры, допустим у нас на ТЭЦ кому выдавать пропуск решает не начальник охраны а начальник смены станции. Он просто звонит на пост охраны и говорит кого впустить. Потому как во время аварии он всем рулит и соответственно знает кого надо ещё привлечь. Так же постоянно идут тренинги по переключению мощностей и т.д. Ну и вообще запитывайтесь от ТЭЦ на прямую, у нас станция в 0 один раз за 60 лет выходила и то по своей инициативе )

Не получится напрямую к ТЭЦ подключиться, тут уже писали что чубайс разделил генерацию, сети и сбыт. Если у вас есть сбытовая конторка тогда можно изловчиться.

кому выдавать пропуск решает не начальник охраны а начальник смены станции

Это потому что на ТЭЦ авария касается основной деятельности объекта. А здесь ребята - кукушата/подселенцы на очень-важном-заводе. Настолько важном что стережёт его не ЧОП, а целая Росгвардия.

Здесь бы, конечно, объяснить что тут не просто бизнес, а критическая инфраструктура федерального значения. Вот только кому объяснять и кто бы это мог сделать - непонятно.

Подскажите, какой корпоративный мессенджер используете? Планируете ли его как то резервировать теперь либо поменять архитектуру?

Мессенджер используем Element. Считаем его самым надёжным. В прошлом году писали на эту тему статью.

Будем зеркалировать на несколько дата-центров.

Вот за такие триллеры вам можно простить горы проходного шлака, который обычно публикуется в этом блоге.
Побольше бы таких историй! ;)


А если серьёзно, то я бы вот даже разделил как-то, блог 1stVDS и публикации "для массы". На первый я бы даже подписался.

Прочитал и содрогнулся. Хорошо, что я ушел из админов в devops :)

А вообще админам надо премию!

Будем надеяться, премии у них будут (не лишат).

Самое Критичное - отсутствие пропуска "Вездехода" который позволил бы Вам РАДИКАЛЬНО ускорить подключение дополнительных рабочих Рук и доставку ДГУ + ЗИП.... по своему личному опыту знаю насколько это критично и сложно....

резервирование Вентиляции и прочих СЖО - при размещение помещений с Людьми в бомбариках и тп - Вентиляция Этих помещений должна стать отдельной Комплексно решаемой задачей с 2N+1 по всему (вплоть до регенеративных противогазов или кислородных систем) - Опыт, грабли - сам провел Две недели в Больнице после срабатывания Газового Пожаротушения которое из-за корявой работы вентиляции протянуло по всему ЦОДу...

Обучение Админов базовой диагностике и ремонту ДГУ + ТБ и ПОЛНЫЙ ЗИП на все ДГУ в ЦОД - особенно как раз Все патрубки тп - вобще всё резинового силиконовое в двойном запасе ибо порвать можно и случайно.... опыт, грабли, к сожалению трупы (это про ТБ) - обварился механик при ремонте из-за лопнувшего патрубка, к сожалению спасти не смогли.... на другом объекте механика "затянуло" под вал генератора... порубленные пальцы вентиляторами Охлаждения итп, а еще не соблюдение ТБ при Электро работах по пуску ДГУ и переключению линий...

Отдельный вопрос Всякие ГСМ для ДГУ - тоже в двойном Запасе на всё - оперативно Купить 90 литров условного "тосола" для ДГУ в 3 часа ночи это и в большом то городе проблема....

Мониторинг - а чем бы он вам помог в этой ситуации? т.к. он бы сидел же за той же железкой которая защищает сеть управления, то он бы точно также отпал и всё...... тут скорее Вам нужен "план параноика" - который предусматривает "состояния Шредингера" для оборудования, и я бы рекомендовал наличие альтернативных каналов для сетей управления - СОВСЕМ альтернативных и СОВСЕМ независимых... Админский сотовый с раздачей Wifi + Ноут - комбинация не раз спасавшая при Крахе "правильно резервированного" канала связи...

еще бы нормальный NOC - который имеет Нормальную резервированную Связь (да, да медная пара иногда Рулит) и который работает Круглосуточно чтобы решение вопросов не требовало участия директоров/руководителей.....

Всё правильно говорите. В крупных резервах — вопрос в том, резервировать ЦОД целиком (как у нас сделано) или системы в нём. Нам надо выдохнуть, посчитать вероятности и экономику, после сделать выводы. Пока на горячую я вам обоснованно с числами не отвечу.

Грабли ваши, опыт тоже....

ПМСМ:

  1. резервировать сначала отдельные подсистемы - под максимум особенно управление и СЖО

  2. потом Уже резервировать всё остальное - конечно по факту отрезервировать всё точно не получится, но может имеет смысл реализовать возможность резервирования Нагрузки VDS/VPS - например через некое подобие MetroCluster с синхронной репликой который бы позволиn при потере ЦОДа или Появлении жестких проблем проcто разнести нагрузку - недешевого, но дешевле строительства 2N+1 - т.к. сомнительна физическая возможность размещения оборудования....

  3. Разделить сервисы на категории резервирования - это бы сильно упростило задачу - ну и классика бизнеса - "...любой каприз по нашему прейскуранту за ваши деньги....."

  4. Задуматься о доступности и заключить правильные соглашения с Владельцами/Эксплуатантами площадки

Захватывающая статья. Очень импонирует то, что вы открыто говорите о своих косяках. Думаю, что даже у недовольных отключением пользователей, её прочтение повысит доверие к вам. Многие крупные аварии вызываются из-за наложения нескольких неблагоприятных факторов. Очень сложно/невозможно предусмотреть всё.

Ситуации бывают разные конечно, их всё не предугадать. Но отсутствие допуска на такой объект - это нонсенс. Всегда должен быть дежурный лизинг-специалист, разруливающий такие вопросы в любое время дня и ночи. Получите бы вы допуск сразу в критический момент. Всё бы решено гораздо быстрее, и "недовольства" в чатах было бы меньше.

Давайте я расскажу идеальную схему резервного питания, если у нас infinite бабло и любые доступные площади. Отдельное здание под аккумуляторы, самые простые. Хоть свинцовые. Их задача дать большую мощность, но не на долго. Например, МегаВатт. Если случилась просадка напряжения, "мозги" системы за десятую долю секунды переключают городской ввод на эти самые аакумы. Их задача проработать 2-3 минуты. За это время входит в строй один дизель-генератор. В теории, он может выдать не 50 Герц, а 49,5 . В обычной жизни это катастрофа. Но здесь нам всё равно. Мы любой синус превратим в постоянную составляющую, а уже её – в чистый синус 50 Герц. На вводе скорее всего будет три кабеля, на понижающей ТП. А на выходе нашего генератора: три фазы и PEN-проводник. Он и рабочий, и защитный. Хотя, тема заземления (зануления, выравнивания потенциалов) — отдельная наука. Можно и корабельные технологии использовать...

вы описали ДИБП - дорого но дешевле чем Здание под аккумуляторы....

Возможно за счет того что они Быстрее выходят на режим - они вполне могли б и помочь в данной ситуации при отказе большого ДГУ....

Идеальная система вот, всё придумано лет 30 назад

https://www.grandmotors.ru/dynamic_ups.php

КПД более 97%, срок службы более 25 лет, мощность одной установки от 500 до 2500 кВА (и до 30 МВА при параллельном режиме)

Идеальная система вот, всё придумано лет 30 назад

Лет 70 назад. Советский ГПН - генератор постоянно напряжения, тот же принцип работы

Отличная и интересная статья. По тексту парни на месте просто выше всяких похвал. Пережить такой кризис в ночную смену дорогого стоит.

Немного душнот:

"авария была на трансформаторе 110 МВт"

может все таки кВ?

"то есть генерация устраняла аварию максимально быстро для нас"

после реформы электроэнергетики генерация живет отдельно, сети отдельно. И аварию на подстанции вероятно устраняла владеющая или эксплуатирующая ее сетевая компания.

Спасибо!

Текст поправил.

Охрана понимала всю серьёзность ситуации (насколько могла) и очень
хотела помочь, но ровно в рамках своих полномочий: им нужно было
разбудить своего начальника, чтобы он разрешил нештатную ситуацию.
Попасть на территорию получилось только около 13:00.

Начальник охраны хорошо отдыхал в пятницу, раз попасть на территорию получилось уже после обеда =)

Нет, он был достаточно оперативен и включился почти сразу, но надо было преодолеть некоторое количество бюрократии, что в субботу сложно.

Больше всего бесит, когда стараешься/усираешься/хотя бы даже просто честно работаешь, а потом какое-то быдло в интернетике начинает вонять: "у меня тестовый бесплатный 10 дней домен третьего уровня упал, я понимаю, вы себе все в карман кладете, но не до такой же степени!". Мелочные, злобные людишки, которые видят всех под одну гребенку ассоциаций первого уровня: коммерсант - обманывает значит; муниципальный чиновник - ну стопудов на Канарах живет; врач в поликлинике - да до смерти залечит, не буду я эти таблетки пить; врач в платной клинике - да он только денег сдерет, но лечить не будет, а ты вообще москвич, ты мразь априори.

Тфу. Ненавижу поэтому людей. Никогда бы не смог с ними работать. Бегаешь с горящей жопой, оперируешь на ходу вещами, до понимания которых им как до луны, получаешь ушат говна в ответ на все свои усилия. А потом еще все удивляются, а чего это сервис везде плохой и поголовно воруют - да потому что нормальные, мотивированные и желающие продуктивной деятельности люди выгорают, демотивируются и не задерживаются там, где их априори считают ворами, разбойниками, говном всякие левые необразованные жлобы.

Поэтому в достаточно больших фирмах с хорошо поставленными процессами, специалисты от клиентов обычно защищены прослойкой специальных людей с крепкими нервами (или маленькими з/п что-бы их менять можно было легко и часто). Общаться с клиентами напрямую - это прямой путь в дурку с каким-либо адским диагнозом..

У этого есть обратная сторона. Мне как-то нужно было обратиться по нестандартному вопросу (срочная разработка биотехнологической документации), обзванивал крупные фирмы. Так невозможно пробиться сквозь этих деффачек, чтобы узнать добавочный конкретного сотрудника более-менее подходящего (руководитель отдела или замдир по научному направлению) уровня. Весь ответ - "мы наким не занимаемся", "а я не знаю, напишите письмо на info @ ", где оно погибнет среди спама, дудоса вакансиями и поехавших контактеров с жидомасонами. При этом пару раз как-то "сбоку" удавалось выйти на нужных людей - и оказывается и фирма этим занимается, и сотрудничать готовы, если бы не бестолковая голова на созвоне.

Честно - у меня подгорело по поводу трёх моментов:

1) Какого "хуанхэ" у вас админы занимаются дизелем? Может вы первых еще заставляете лампочки в туалетах менять и полы протирать? Под дизель должен быть отдельный сменный инженер, доступный on-site, с некоторым минимальным запасом расходников - масла, антифриз,заплатки, хомуты. Накрайняк допускаю - аутсорс шарагу (опять же со своими расходниками- масла, хомуты и прочее), обязанную приехать в режиме 7*24 в течение часа и начать чинить дизель. Почему не так? Опять костсэйвинг и экономия на спичках? А то заливать АСЛ в раутер одной рукой и латать патрубок на дизеле - это кринж, честно! А если админа дизель ошпарит выхлопом или кипятком или вообще на вал накрутит как спагетти? Вы что, откреститесь, типа он сам полез чинить в обход ТБ и должностной инструкции? Типа пусть лечится за свой счёт? Извините меня, но я бы будучи админом, на запрос подлатать генератор - просто послал бы вас. Хотите рабочий дизель - сократите маркетолога/продажника/бухгалтера/кого-угодно, но в лепешку разбейтесь и наймите своего генераторщика - пусть раз месяц тестит генераторы, да натирает их до блеска. Не дядю Васю-электрика, а именно генераторщика, со всеми допусками и квалификациями. Уверяю вас - он стОит не дороже маркетолога/бухгалтера

2) Железка лежащая на складе это далеко не HOT SWAP. Это просто железка лежащая на складе, про которую в случае инцидента надо вспомнить, найти, притащить в ЦОД, подключить, и скорее всего настроить. Как давно вы заливали максимально последнюю конфу с рабочего раутера в ваш так называемый хот-свап, лежащий на складе? А я вам скажу - больше 1 года назад 100%. А это равносильно тому - что в девайсе тупо "левая" конфа, которую легче стереть и написать/залить заново - а это время, драгоценное. Вообще HOT SWAP - это когда у тебя аналогичная железка стоит в соседней стойке, включенная, отконфигуренная, с настроенным НА, и в случае выхода из строя главной железки - первая включается в прод почти мгновенно - милисекунды, ну максимум секунды. Вот это тру хотсвап, а не то что у вас там пылиться на стелажах. В крайнем случае - допускаю выключенную резервную железку рядом с активной, с всегда самой актуальной конфой. При фэйле - просто включить и перекинуть провода. Колхоз, конечно - дайунтайм минуты, может десятки минут, но хоть так чем на складе.

3) Охрану на мыло. Охрана по одному лишь звонку, скажем от Генерального Директора должна впустить кого угодно и куда угодно и в каком угодно количестве. В "этой стране" даже погранцы по указанию сверху пропускают кого надо, не говоря уже о всяких чоповцах.

оу, знаете сколько всего дорого и ценного вывезено именно благодаря таким вот звонкам "генерального"....Охрана отработала идеально - у них УПАЛ СКУД - першли на Журнал и документ "по допуску при аварии" - то что нужных Людей не было в Этом документе вопрос отдельный....

Охране так-то надо премию выдать - не допустили ни кого левого, Удержали периметр, исключили проникновение до Разрешения руководства. работающую так "охранную службу" еще поискать....

Разрешения руководства

было, судя по комментарию https://habr.com/ru/companies/ruvds/articles/742880/comments/#comment_25673964, но не проходило Quality Gate.

Но вообще это кринж (по моему мнению), если начальник охраны лично не может заовердрайвить любую инструкцию в моменте при личном присутствии.

Обычно там есть регламент и по нему Обычно есть Журнал где записаны все допущенные. так что Одного разрешения руководства обычно мало... я же говорю что Охрана поставлена на ЯТЬ и это на самом деле отлично.

Поставлю вопрос по другому:
- кто и каким образом может в личном присутствии иметь приоритет выше, чем Журнал?

в личном присутствии - то генерал или начальник СБ, но это лично, в смысле Физический с Отметкой в Журнале - "Допущены по личному Распоряжению". а вот если по телефону то никто.

Ну, в честь такого шухера по ночной Москве можно было бы и доехать, чтобы отдать личное распоряжение с занесением в журнал.

там ниже написали что это оборонка.... в общем там бы не помогло могли еще и наряд вызвать и всех в пол уложить с целью проверки..... туту лучше не быковать и сидеть покойно Ждать у моря погоды....

Ну тогда после осознания что дизеля встали - надо было тушить всё, не дожидаясь пока еще что-нибудь сгорит или чью-то руку засосет во впуск. Признать что всё пропало и попытаться выйти из инцидента с минимальными потерями. О том что сервисы встали - можно уже забыть. А уж потом устроить разбор полётов - первым делом с охраной, т.к. именно эти индивидуумы с "синдромом вахтёра" и явились главной причиной дальнейших еще бОльших по масштабам негативных развитий. И вот только не надо их выгораживать, защищать и оправдывать. Они поступили крайне тупо в той ситуации. А если бы там внутри территории кому-то стало бы плохо и потребовался вызов скорой помощи? Они бы тоже встали бы в позу? Они тупые и упёртые - и за свою тупость и упёртость должны быть наказаны, сурово.

Они поступили крайне тупо в той ситуации.

Они поступили так, как должны были поступить. Проблема действительно с охраной, но в другом месте.

А если бы там внутри территории кому-то стало бы плохо и потребовался вызов скорой помощи?

По идее, для скорой и пожарной у них должны быть инструкции, как поступать. Так что их-то пропустили бы с сопровождением.

Проблема охраны возникла из-за сочетания факторов:
- отказ от постоянных пропусков и переход на разовые,
- бюро пропусков работает 8x5,

Т.е. возможность возникновения нештатной ситуации 24x7 и необходимость также 24x7 её решать - не была учтена обеими сторонами.

Так что адекватен режим на объекте задачам или нет - станет понятно только после того, как стороны найдут или не найдут решение проблемы 8x5 бюро vs 24x7 работа.

В армии помню такую проблему решали с помощью дежурного подразделения. Часть ЛС назначается в группу быстрого реагирования, соответственно при необходимости на них сразу выписывают пропуска на режимную территорию. И в случае какого-то форс-мажора все эти люди подрываются и без проблем проходят через охрану.

Согласен.

Осталось, чтобы стороны об этом договорились - и одни выписывали бы пропуска "с запасом", а другие адекватно оценили, сколько какого персонала у них должно быть в статусе "дежурного за территорией" (а по-хорошему - еще ж и доплачивать за такое дежурство надо по факту дежурства, а не только в случае если понадобилось, а то ж вон - человек в законный выходной может умотать куда подальше и без связи оказаться, как в отношении кое-кого в статье и говорилось).

А то ж все экономят :)

Охрана режимного объекта осуществляется несколькими службами, в том числе Росгвардией. Коротко, мы можем обсудить варианты с ежедневным выписыванием дополнительных пропусков в текущей ситуации, это да. Несколько раз именно эта линия охраны объясняла приехавшим сотрудникам в штатском, что для оперативно-разыскных мероприятий виртуальный сервер надо скачивать в виртуальном мире, а не пытаться откуда-то вытащить с территории и аккуратно их разворачивала. Так что это отличный сервис, очень юзерфрендли. Примерно как UNIX.

ну вот примерно - таким и Должен быть идеальный вариант Охраны...

Пункт первый - правы на 100500 % Должны быть инженеры систем обеспечения. Электроснабжение, вентиляция. Кстати а если бы те два бойца надышавшись выхлопа угорели?

В общем героизм одних это причина тупизма руководства в чистом виде

Почему охрана не пускала вас к себе? Они же нанятые люди, Вы получается сами им дали им такие полномочия и такой алгоритм работы?

Мы находимся на территории большого предприятия. Что оно сейчас производит, сказать не могу. Вот на эту большую территорию и проблема была попасть.

а с ГО и ЧС проблем не было? или бомбарик "снят с баланса"

<юрист mode on> И правда, что там согласовывать в том договоре аренды? Там всё типовое, за цену договорились - и ладно, подписываем! <юрист mode off> :)

То что часть функционала хостинга (создание ВМ и мониторинг) перестали работать. потому что сидели в защищенном сегменте, который построен на одном коммутаторе, который удачно глюкнул - это интересное стечение обстоятельств и я думаю от подобных вещей на 100% нельзя все предусмотреть.
А вот то что даже при первом переключении часть машин потухла - это дикая беда, даже в самом задохлом варианте серверной который я видел на мелких предпряитиях ИБП одно переключение уверенно выдерживали.
И "Админы бегали между стойками" - даже после отключения питания машины должны сами подниматься.
Эти два вопроса позволили бы избежать реальных проблем и быстрее разобраться с первым.

На мелких предприятиях нет стоек, сверху донизу забитых нормально так жрущими серверами. Там можно поставить ИБПшку на 3-5 кВт, которая вытянет несколько часов. И можно даже обойтись без дизеля. Если электричество не появилось, то аккуратно гасим оборудование: всё равно остальной офис не работает.

Если предприятие побогаче, та же схема, но уже с дизелем, тащущим рабочие места сотрудников и какой-никакой свет. Всё равно масштабы не те.

Это вы ещё молодцы. У меня был случай на Амазоне в 2012 году. Держал свой маленький мини-хостинг для старых клиентов и их мелких сайтов. Звонит как-то мне в 6 утра клиент, сайт лежит, говорит! Думаю, как так, это ж Амазон! А потом почту открываю и читаю, что в их Дублинском ДЦ ударила молния в трансформатор и ДЦ около 6 часов валялся. Генераторы же есть, ИБП. Как так случилось, что САМ Амазон не мог подняться 6 часов? Позже всё заработало без моего участия. За простой вернули несколько центов :)

Спасибо за подробный репортаж. Было увлекательно. Хорошенько дало по бубенцам. С дизелем то что в итоге ? Комментарии про обратную связь клиентов на дешёвых тарифах считаю лишним.

Тут охране предъявляют. А я очень хорошо (и болезненно с учетом ковида) помню историю со "спором хозяйствующих субъектов" одного хостера, у которого оборудование, включая чужое, оказалось в заложниках одной из сторон. Поэтому может и хорошо, что охрана не пускала не пойми кого и все тормозилось в бюрократии.

"Не пускать не пойми кого" и "не давать арендатору самому выписывать долгосрочные пропуска на кого он считает нужным" - две большие разницы... А при "спорах хозяйствующих субъектов" нынче обычно заходят с силовой поддержкой правоохранительных органов, которых как раз охрана не пустить не сможет.

ЧОП не может, Росгвардия - очень даже может. Хотя, конечно, всё сильно зависит от уровня "силовиков" с той и другой стороны.

В комментариях верно заметили, что паника пользователей дешевых тарифных планов могла быть вызвана тем, что они недооценили риски, и неправильно резервировали свою критичную инфраструктуру.
Интересно насколько вы сами верно оценивали риски подобного? Удалось ли выполнить обязательства по договорам и выдержать обещанный пользователям SLA? Понимаю, что сейчас при отсутствии логов, вы можете не обладать полной картиной

Было бы очень интересно послушать про SLA и про то как оно сейчас реализуется в текущей действительности.....

Была сеть из нескольких десятков Cisco, FreeBSD, разных Linux. Очень помогала система хранения конфигураций с использованием CVS (сейчас это git и прочие).

На сервере с cvs работал cron, который раз в 2-3 часа обходил сеть и делал снимок конфигурации. Это show run для cisco, директория /etc за исключением двоичных баз для *nix и так далее.

Если сравнение текущего снимка с cvs обнаруживало разницу, то в cvs регистрировалась новая версия, а в комментарий к ней попадала история последних сессий сервера.

При этом можно было

  • по истории коммитов точно определить, когда, что и кем было изменено,

  • одним вызовом скрипта откатить состояние конфигурации на заданный момент в прошлом,

  • в случае выхода из строя любой железки достать из шкафа новую и за 5 мин влить в нее конфигурацию,

  • разлить 10 серверов нового филиала по шаблону 3 серверов существующего

  • и так далее.

Для свитчей с поддержкой кучи вендоров и вовсе есть бесплатный или дешевый https://unimus.net/ . Ну, а для серверов и /etc. уже давно есть etckeeper в репах. Это так, если кто наткнулся на коммент выше, но не хочет писать свои костыли ;)

Прекрасная история, спасибо! Совет автору - ищите компанию кто занимается цодами давно и профессионально, ну а вам переориентироваться на продажу сервисов/мощностей в этих цодах... Хостился я как-то в HPE и на мой вопрос как у вас так ни одного сбоя за 12 лет и расскажите как у вас цод устроен на что мне HPE - мы не знаем, управлять/содержать цод это слишком сложно, мы свои цоды не строим и не эксплуатируем...

Спасибо, первый ЦОД наш.
Потом мы сделали, как вы советуете.
И ещё раз.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё.
И ещё раз.

Итого 13 ЦОДов по миру — не наши, один наш.

На самом деле статья полезна, особенно всплакнул читая комментарии пользователей в телеграм канале по поводу данной ситуации. И вправду, клиент за условные 190 рублей очень переживающий за свои данные на ОДНОМ ЕДИНСТВЕННОМ СЕРВЕРЕ у единственного провайдера у которого, вероятнее всего прописано в соглашении что они не несут ответственность за потерянные данные намного сильнее давит на нервы, чем люди, которые основательно подходят к размещению своей инфраструктуры в разных точках нашего необъятного мира. Простои бывают всегда, от этого не застрахован никто. Наводнения, ракеты, мир схлопывается :) Данные теряются, поэтому если вам они важны, храните в разных местах по копии! Если это кончено не фото из папки Анапа2009 которые вы сгрузили в 2009 году и так ни разу и не открыли... Спасибо что поделились своим опытом.

Потому что бизнес с миллиардными оборотами может позволить себе арендовать стойки в трех разных ДЦ, поднимать между ними собственные каналы и т.п.; а мелкий предприниматель или ипшник не имеет ни денежных ни человеческих ресурсов чтобы сделать себе всё "красиво", и потому он обращается к профессионалам...

У которых админы чинят дизель-генераторы, да.

"Не заморачиваться" - это очень дорогое удовольствие, которое могут себе позволить "не только лишь все". Если у человека (фирмы) мало денег, то к делу стоит относиться особенно тщательно, просто залить проблему деньгами они не могут, поэтому надо включать мозг. Всегда есть какие-то варианты, да хоть у себя дома сервак поднять, худо-бедно он как-то там что-то будет отдавать пока у провайдера ДГ чинят.

Тут на Хабре на моей памяти дважды обсуждали, как поднимать сервак у себя дома. Это оказывается очень трудной задачей, которая требует очень серьёзных знаний.

Если мало денег - то альтернатив немного - разбираться в сложном вопросе и делать самому, или забить и надеяться на удачу.

Когда-то в нулевых, у меня было очень плохо с деньгами и при этом очень была нужна машина. Я купил старую Ладу-семерку и ездил на ней днем, а по вечерам и выходным постоянно в ней что-то ремонтировал. Для этого мне пришлось во многих вопросах разбираться самому, приобретать навыки автослесаря и много что еще. Сейчас у меня с деньгами все сильно лучше и я просто периодически отвожу машину на сервис, не слишком вникая в то, что там с ней делают.

Так и тут - есть деньги - отлично, можно делать все по красоте и не слишком при этом погружаясь в детали. Нет денег, придется все-таки поднапрячься, если не хочешь иметь потенциальные проблемы.

Мне кажется самое сложно это обеспечить интернет (а лучше 2), остальное решаемо так или иначе

Мой домашний провайдер так вообще предлагает у себя свой сервер ставить (сразу решается вопрос с питанием)

Но тарифы на мощный (а не домашний) интернет чуток другие

(я сам думал, что плачу 7к в месяц за сервер с далеко не самым новым железом, хотя владею вторым ПК с райзеном 5600)

Человек, у которого есть 10 серверов, при пропаже одного теряет всего лишь 1/10 серверной мощности. Не так уж плохо.

Человек, у которого есть двести рублей, при пропаже двухсот рублей теряет всё. ТЕРЯЕТ ВСЁ.

Я пришёл к этому выводу из своего опыта, поэтому мне дороги эти двести рублей.

Как человек, который поработал в самом серьёзном, ведомственном телекоме страны, с самым надёжным резервированием энергетики и связи в целом, позволю себе порекомендовать:

  1. Задумайтесь о периодических запусках ДЭС, раз в месяц вполне достаточно, с детальной визуальным осмотром ДЭС

  2. Наймите спецов для обслуживания ДЭС, которые будут дефектовать детали

  3. Заведите свой регламент замены деталей после наработки, к примеру: отстоял патрубок год, меняем. Как в самолёте.

  4. Плотно подумайте о смене площадки и локации в целом. Во первых, для ЦОДа нужны архинадёжные сети питания, во вторых(касательно вашего случая), свободный доступ, в любое время дня и ночи. Ситуация когда начальник охраны не может обеспечить доступ, из ряда вон выходящая. Если бы на моём предыдущем месте работы (да и сейчас тоже), так бы отработала охрана, она бы уже была в тюрьме, всё просто: когда приходишь на КПП, достаточно сказать: "Аварийная ситуация, прибыл для устранения"

Интересно, какова вообще вероятность потерять два ввода питания от города из-за аварии на подстанции, а потом еще и дизель сразу?

Если "вообще"(на бесконечности), а не в каком-то ограниченном промежутке времени, то 100%

Вы про математическую вероятность или каузальную? Математическая из расчёта на год ниже 0,01%, в целом 100%, потому что вселенная бесконечна. Каузальная 100%.

Sign up to leave a comment.