Pull to refresh

Comments 23

Выглядит как судорожный поиск оправданий на ковре у начальства.

В двух-трёх ДЦ не разместиться, с резервированием-то? Две /24, anycast для DNS, пара скриптов для взаимного мониторинга, и вся авария устраняется за время чиха BGP.
Это очень сильное упрощение :)
Размещаться в двух-трех ДЦ нужно, если в этом есть потребность и, особенно, деньги на разработку распределенной и отказоустойчивой системы.
Есть пачки готовых решений, смысла изобретать своё нет. Никто же не занимается самостоятельной генерацией электричества, добычей и очисткой воды, вывозом и утилизацией мусора, разведением кур для столовой в офисе и т.д.

В какой-то момент становится выгодно делать самому, а не передавать на поставщику, но до этого момента — готовое решение за не очень большие деньги. С учётом, что альтернативной отсутствия решения являются полные даунтаймы…

Кстати, из истории аварий — инженер падал с лестницы и ухватился за патч-корды (оптика), входящие в центральный маршрутизатор. А потом испугался, что выдернул их, и вставил, вроде бы, обратно. И никому не сказал.
Rackspace и Peer1 — лавки, где изо всех сил экономят на зарплате. Linode туда же. А когда экономят на зарплате, ожидать чудес и полета мысли там, где все гениальное — просто, не приходится.
На Украине был случай — когда нежданно приехали полицейские, и изъяли серверы из ДЦ под странным предлогом. Да и потом не вернули :-) Относиться ли к этому как к «стихийному бедствию»?
Мда, в Украине и в России своя специфика стихийных бедствий.
Это не стихийное бедствие, а логичное следствие нарушения правила №1 из 9,5:
Держите серверы за границей
… с realtime зеркалом в стране, у которой напряженность в отношениях со страной, где основной сервер.
У меня был еще более запущенный случай — когда милиция приезжала изымать серверы другой компании, а заодно утянула и мои, которые были в том же ДЦ. И всех остальных компаний. Хотя им надо было только одну стойку вытащить. И я два месяца их обратно получал. С тех пор «правило №1» знаю назубок.
Был случай с реальным пожаром в ДЦ в Одессе. У меня был там сайт на хостинге.
С утра сайт лежал, техподдержка не отвечала до вечера (я уже успел развернуть свой бекап) и узнал о пожаре из новостей местного одесского форума.
С моей стороны профит был, но все же была интересна их реакция на форс мажоры. В итоге признались в том что у них случился пожар только на следующий день. Бекап отдали через неделю и то двухлетней давности. От их услуг я отказался.
P.s это был на тот момент один из самых крупных хостингов Украины.
Как-то ни один из примеров не тянет на то, что «невозможно предусмотреть». Банальное человеческое раздолбайство, а также упорное нежелание признавать, что зимой идёт снег, летом бывает жарко, а на побережье бывают ураганы.
В памяти возникает только одно событие, произошедшее по среди рабочего дня, когда у меня начали отваливаться соединения с серверами и падать открытые подключения удаленок… Это событие как оказалось помню не только я, а многие кто в то время (2011 год) работали в сфере сайтостроения.

Странно, что в статье о нем нет упоминаний…

«Удары молний в воскресенье вечером вырубили крупнейшие европейские дата-центры Amazon и Microsoft, располагающиеся в Дублине (Ирландия).»
Помнится, когда я еще работал инженером поддержки ЦОД в одном крупном хостинге случились две нештатные ситуации, с разницей не более чем в год. Причем в двух разных цодах, где мы тогда арендовали стойки.
1. 2008 год (если мне склероз не изменяет) Жутко жаркое лето. Кондиционеры ЦОД-а были не готовы к охлаждению такого колличества оборудования (только наших серверов ~ 3к) в такую жару. В течение дня температура в холодном коридоре поднялась до 50 градусов. Чего только не придумывали (залили крышу водой, накидали под фальшпол сухого льда), но избежать отключения клиентского оборудования не удалось. В горячем коридоре была просто сауна, но мы старались отключить питание у большинства серверов штатно. Надо сказать, что после этого случая — систему кондиционирования улучшили.
2. 2009 год. В ЦОД-е, куда мы переехали после предидущей аварии, отключается питание. Несколько минут все живет на UPS, но ДГУ (их два) не заводятся (кажется, заклинило, решетку воздухозаборника) и ЦОД тихо-мирно ложится спать. Сейчас, заядя на сайт этого ЦОД-а увидел интересную надпись о том, что у них не было аварийных остановок с момента ввода в эксплуатацию.
В одно жаркое лето пришлось поливать внешние блоки кондиционеров из шлангов. 4 часа простояли, вечером похолодало. Такое вот водяное охлаждение.
Еще история, но услышанная от коллеги. В здании, где находилась серверная одной компании — шел ремонт. Админ несколько раз предлагал подпереть чем-нибудь металлическую балку над шкафом с дисковым массивом… В итоге балка рассекла массив почти пополам. Небольшую часть данных смогли потом восстановить за очень немаленькие деньги.
Как всегда — админ говорил, его не слушали :))
Можно вспомнить отключение электроэнергии в Москве в 2005 году. Тоже много историй про ДЦ в тот день можно вспомнить.
Ну, перевод, ну кривоватый местами, ладно, но наши местные примеры где, их было ого-го сколько! Скучно.
У одной небольшой компании в Питере был крошечный датацентр в старом фонде. Дом с деревянными перекрытиями. Однажды случился пожар, повредились перекрытия и часть стоек с серверами и UPS-ы провалились на нижний этаж.
О, вспомнил еще историю. Не совсем авария в ЦОД-е, но близко. Это случилось в некоей питерской телекоммуникационной компании. У компании по городу было куча оптики и куча узлов связи.

Дело было под Новый Год, 31 декабря, мандарины, романтика. Упал узел по питанию в центре города. Приехали. Напряжения нет во всем доме, UPS-ы разрядили батареи. Дом старый, проводка совсем старинная. Выяснилось, что проводка от щитка дома самопроизвольно начала гореть, Приехали пожарники, дернули рубильник и уехали. Вызвали ЛенЭнерго. Те побухтели, но приехали (31 числа!) обложили матами пожарников, врубили щиток назад. UPS-ы радостно замигали лампочками и начали заряжать батареи. Жители дома тоже обрадовались и бодро повключали бытовые приборы. Проводка опять начала гореть и кто-то вызвал пожарных. Далее мы некоторое время наблюдали битву «пожарники против электриков». Победили пожарники, отрубили и опечатали щит и уехали. UPS-ы не успели насосать в батарейки и тоже отрубились. Аут. Тут кто-то вспомнил, что вообще-то где-то есть генератор. Принялись искать генератор. Был уже поздний вечер, как говорит классик: «Смеркалось». Приехал генератор, кинули провод через окно и быстро его подключили. Оказалось фиг! Пустые батареи UPS-ов (которых было дофига) давали дополнительную нагрузку и дизель «задыхался», работал с перебоями. Включили без UPS-а, дизелю полегчало, узел начал подниматься. Кто-то из работяг сбегал за пузырем, накрыли прямо в узле, типа «С Новым Годом!». Веселье прервало появление милиции (тогда еще милиции). Оказалось, дизель «страшно тарахтит и воняет» и кто-то из жильцов вызвал милицию. Менты предложили «свернуть лавочку», а к идее оставить дизель до утра отнеслись крайне скептично. Пошли отключать, понимая что 1-го явно никто ничего не починит. И тут! Кто-то поднял глаза и увидел, что на соседнем доме висит световая реклама какой-то фигни и светится. Решение пришло мгновенно. На крышу был закинут провод и (под напряжением! бухими электриками!) прикручен к чужой рекламе. Тока хватило даже на зарядку батарей. Удивительно, но ничего не грелось и не горело. Ясно было, что 1-го никто рекламу выключать не придет, так что народ зашел накатить еще и начал медленно расходится. Узел от рекламы проработал до 4-го января. Потом возмущенным жильцам надоело сидеть в темноте 4-й день, они достали ЛенЭнерго и те поставили проводку толщиной в палец.
Я как кабельщик-спайщик оптики могу тоже что-нибудь рассказать)
Скажем, как-то приезжаем на очередной обрыв кабеля в Новошахтинске и видим картину: бетонную опору освещения срезало на высоте чуть ниже человеческого роста (она, упав, повредила закреплённый на ней кабель), перед опорой — согнутый столб, на котором крепился дорожный знак, и вокруг валяются обломки пластика и лобовое стекло от ВАЗ классики. Как мы поняли, некий гражданин за рулём жигуля не вписался в поворот, налетел на знак и, согнув его, одновременно подлетел почти на человеческий рост и в полёте срубил нашу опору. Причём мы приехали на аварию быстро и там уже никого не было, видимо, уехал или своим ходом, или оперативно убрал разбитую машину.

В другой раз приезжаем на аварию и видим очень интересную картину. Ночь, пустырь на окраине города, заболоченный берег реки, дымится треющая трава. И над тёмной речной водой в ночи красиво горит маленький огонёк: это горел наш кабель. Сухая трава, видимо, горела бурно, высокое пламя подожгло кабель и огонёк по кабелю прошёл от места пожара несколько пролётов, подобравшись почти к самой реке. При этом кабель не оборвался и бОльшая часть волокон ещё работала! Мы оказались в дурацком положении: потушить кабель нечем, а если он дорогит до реки — устранить аварию будет намного труднее, придётся переправлять вставку через реку, а моста или лодки рядом нет. Бегали с бутылками к реке и пытались, как мальчишки в детстве, струёй воды сбить пламя. В итоге подъехала вторая машина — УАЗик с лестницей, и кабель успели вовремя опустить и потушить. Несгоревшего кусочка как раз хватило, чтобы сделать муфту.

Ещё слышал пару интересных баек)

Первая байка. Авария, связистов вызывают менты в небольшой областной городок, мол, у них пропал интернет и телефон и наш кабель кто-то оборвал. Приезжает бригада и видит такую картину: около крыльца милиции валяется дохлая ворона и оторванный кабель с чётким следом от пули. При этом менты искренне удивляются, кто же это мог им прострелить кабель… И действительно, кто же это мог стрелять по воронам из боевого пистолета прямо с крыльца милиции?.. Мистика. =)

Вторая байка. Как известно, чтобы устранить порыв оптического кабеля, в общем случае требуется положить кусочек кабеля метров 50-200 и приварить его начало и конец к оорванным концам кабеля. Таким образом в линии появляется 2 новых муфты, в первой муфте конец старого кабеля сваривается с концом кабеля-вставки, во второй муфте второй конец вставки сваривается со вторым концом оборванного кабеля.
Приехали мужики на УАЗике варить такую вставку, а именно одну их этих муфт. А так как на улице был мороз, завели оба конца кабеля вовнутрь УАЗика и в тепле сварили муфту. Вторую муфту при этом варила вторая бригада. Всё нормально, связь пошла, термоусадки усажены, остаётся вытащить муфту из УАЗика и подвесить на опоре. И тут все поняли, какой EPIC FAIL произошёл. Один кабель был заведён через форточку УАЗика, а второй — через дверь…
Аналогичный случай, как рассказывают, был и с палаткой: один кабель ввели через дверь палатки, другой — под неё. Палатку пришлось резать и потом зашивать, а вот УАЗ не разрежешь, пришлось резать кабель и варить заново…
Sign up to leave a comment.