Аварии в дата-центрах: новости от Vocus, Twitter, Cyxtera и не только

Многие аварии в ЦОД обходятся дорого и влекут серьезный репутационный ущерб. С увеличением темпов цифровизации необходимость поддержания безотказной работы инфраструктуры ЦОД выходит на первый план. Но минимизировать риски непросто.

Учитывая возросшую нагрузку на центры обработки данных, дефицит компетентных кадров и другие факторы, операторам дата-центров становится все сложнее справляться с огромным количеством проблем, возникающих повсюду. Следствием выступает учащение аварий. Справедливость данного утверждения доказывает свежий тематический дайджест, охватывающий новости от разных компаний и из разных уголков планеты.

Дата-центр Vocus в Мельбурне вышел из строя из-за неисправности ИБП

Дата-центр Vocus в Мельбурне вышел из строя из-за неисправности ИБП

Неисправность системы ИБП привела к отключению электроэнергии в дата-центре компании Vocus в австралийском штате Виктория. 13 марта 2023 года компания сообщила о «серьезном инциденте» в своем центре обработки данных с кодовым именем VDC-MEL03, расположенном в одном из центральных районов Мельбурна. В результате пострадали многие крупные региональные клиенты Vocus, в список которых вошли телекоммуникационные компании Aussie Broadband и Dodo. Подача электроэнергии была отключена в период с 09:02 до 09:27, а также с 10:13 до 10:20 по австралийскому восточному летнему времени. Электроснабжение было оперативно восстановлено. Специалисты компании провели работы по восстановлению ряда сервисов, включая платформу Vocus Cloud, услуги голосовой связи, услуги DNS и услуги локальной передачи данных. Обслуживание колокейшн-клиентов удалось полностью восстановить в кратчайшие сроки.

Первоначальное расследование инцидента выявило неисправные компоненты ИБП в первичной цепи. Впоследствии представители компании привели именно этот вывод как основную причину аварии в ЦОД. Восстановительные работы в первичной цепи электропитания были успешно проведены в день аварии. А 17 марта прошли дополнительные работы по полной замене неисправного ИБП.

Компания Vocus управляет центром обработки данных в Мельбурне по адресу Коллинз-стрит, 530, уже более десятилетия. Компания переехала в здание в 2013 году и заявила о намерении довести количество стоек в машзалах до 400 единиц. В здании также находится дата-центр компании 5GN мощностью 2 МВт и площадью 1.6 тыс. квадратных метров.

В бостонском кампусе ЦОД Cyxtera произошёл пожар из-за неисправности электропроводки

В бостонском кампусе ЦОД Cyxtera произошёл пожар из-за неисправности электропроводки

Названы причины пожара в коммерческом кампусе ЦОД колокейшн-провайдера Cyxtera в пригороде Бостона (США), случившегося 14 февраля 2022 года. Инцидент, в результате которого были отключены сервисы Oracle NetSuite в американском регионе, произошел в результате вспышки электрической дуги. Причиной дугового разряда, в свою очередь, стала неисправность электропроводки.

Незамедлительно сработали детекторы дыма и система сигнализации. В пожарную службу городка Уолтем, в котором располагается кампус ЦОД под управлением Cyxtera, поступил вызов в связи с возгоранием электрооборудования в одном из зданий на территории кампуса. Строение не пострадало, но аккумуляторный шкаф внутри него оказался разрушен взрывом, спровоцированным дуговым разрядом.

В бостонском кампусе ЦОД Cyxtera произошёл пожар из-за неисправности электропроводки

Пожарные прибыли в 11:34 по местному времени — через шесть минут после того, как была поднята тревога. Они завершили работу на площадке около 14:30. Пожарные эвакуировали персонал, отключили подачу электричества и проветрили помещения на предмет присутствия ядовитых газов, прежде чем оценить ущерб и, в конечном итоге, разрешить возобновление работы ЦОД.
< Персонал не пускали обратно до тех пор, пока здание не было полностью проветрено, так как внутри были обнаружены опасные уровни концентрации угарного газа и цианистого водорода. Один человек оказался госпитализирован с подозрением на отравление дымом.

В пострадавшем здании есть три электрические сети («A», «B» и «C»). Когда пожарные вошли внутрь, они обнаружили, что в контуре «B» сработали аварийные выключатели, а взрыв и вспышка дуги вызвали задымление и пожар. Другие монтажные шкафы, расположенные рядом с разрушенным, были частично повреждены — во время взрыва от них оторвались панели.

По мнению экспертов, инцидент, был вызван неустановленным электрическим событием в контуре «B», приведшим к срабатыванию одного из аварийных выключателей под нагрузкой. После этого автоматически активировался генератор, и электричество было подано обратно на главный выключатель, что привело к возникновению дуги и возгоранию внутри аккумуляторного шкафа.

В отчете пожарных отмечается, что в день инцидента в контуре «А» велись технические работы, но они, похоже, не связаны с пожаром. К счастью, во время взрыва у рабочих был ранний обеденный перерыв. Поэтому единственным человеком, находившимся на месте происшествия во время взрыва, был 28-летний охранник, выполнявший патрулирование. Он оставался в полном сознании, но был доставлен в больницу для проверки на предмет возможного отравления токсичным газом.

Кампус Cyxtera BOS1 предлагает 16 МВт мощности и 3,7 тыс. квадратных метров фальшпола, рассредоточенного по трех зданиям на двух близлежащих площадках в Уолтеме, штат Массачусетс (США).

Неисправность коммутатора привела к отключению железнодорожной сети Сиднея

Неисправность коммутатора привела к отключению железнодорожной сети Сиднея

8 марта 2023 года поезда в австралийском Сиднее вышли из строя на час из-за отказа сетевого коммутатора в серверной. Инцидент усугубила неспособность IT-систем переключиться на резервную сеть. Как следствие, все поезда остановились на станциях, поскольку машинисты, охранники и прочий персонал лишился возможности обмениваться данными.
По словам представителей местной транспортной компании Sydney Trains, это первый сбой с момента начала работы новой версии IT-системы в 2016 году. Она использует радиосеть для передачи данных между центром управления и машинистами. Данные передаются через 200 базовых станций.

Персонал сначала попытался удаленно перезагрузить систему. Когда сотрудники поняли, что это невозможно, и что инцидент повлиял на всю сеть, был активирован план кризисного управления. План предполагает переход на резервный центр обработки данных, который может работать параллельно в случае серьезной проблемы.

Компания Sydney Trains планирует провести полное расследование инцидента, сосредоточив внимание на причинах. Авария затронула десятки тысяч пассажиров, которые остались в затруднительном положении и были вынуждены потратить сотни австралийских долларов на поездки в Uber по завышенным ценам. Впоследствии в Uber заявили, что компания вернет деньги всем, кого затронул инцидент.

В августе 2022 года компания Transport for New South Wales (Transport for NSW), которая управляет Sydney Trains, объявила об отказе от аренды площадей внутри центра обработки данных колокейшн-провайдера Global Switch. Компания решила использовать гибридный подход, сочетающий аренду площадей в государственных центрах обработки данных (GovDC) и применение облачных сервисов (AWS и Microsoft Azure).

Авария в серверной пограничной полиции привела к задержкам в аэропортах Парижа

Авария в серверной пограничной полиции привела к задержкам в аэропортах Парижа

4 марта 2023 года в двух самых загруженных аэропортах Парижа были задержаны рейсы из-за сбоя в работе IT-инфраструктуры пограничной полиции, обслуживающей контрольно-пропускные пункты на территории воздушных гаваней. Пассажиры оказались вынуждены часами ждать в аэропортах Шарль-де-Голль и Орли из-за задержек, вызванных инцидентом.
Группа компаний Paris Aéroport, отвечающая за оба аэропорта, назвала причиной «общенациональный технический сбой компьютеризированной системы идентификации пассажиров». Но другие аэропорты не пострадали.

По предварительным подсчетам, около 1500-2000 человек остались в затруднительном положении во время инцидента. Решить техническую проблему удалось к 14:00 по местному времени. На устранение отставания, вызванного простоем, ушло еще несколько часов.

Аварии в ЦОД и серверных регулярно оказывают негативное влияние на аэропорты, которые полагаются на множество критически важных IT-систем. Так, в конце февраля 2023 года сотни пассажиров в Австралии были вынуждены ждать вылетов по несколько часов из-за отключения электроэнергии в дата-центре.

Несколькими неделями ранее рейсы Lufthansa в Германии были задержаны из-за случайного перерезания оптоволоконных кабелей. В США все внутренние рейсы были отменены в январе 2023 года из-за отказа системы управления воздушным движением.

Twitter снова уходит в офлайн, сбои становятся все более частыми

01 марта 2023 года пользователи социальной сети Twitter столкнулись с очередным масштабным сбоем. Хотя сервис достаточно быстро вернулся к работе, многие пользователи лишились возможности обновлять основной канал. Вместо этого система приветствовала их следующим сообщением: «Добро пожаловать в Twitter! Это лучшее место, где можно увидеть, что происходит в вашем мире. Найдите людей и темы, на которые можно подписаться прямо сейчас».

Сбои в работе сервиса участились с момента приобретения Илоном Маском. Перед сменой владельца компании в ней работало более 7,5 тыс. специалистов. Но после нескольких серий увольнений число сотрудников сократилось до менее чем 2 тыс.

Издание The Information сообщает, что за выходные, предшествовавшие сбою, были уволены еще 50 сотрудников, включая специалистов по IT-инфраструктуре, которые занимались поддержанием платформы в рабочем состоянии.

В конце 2022 года Маск закрыл один из трех основных дата-центров компании и начал сокращать расходы на облачные вычисления. Вскоре пользователи Twitter столкнулись с десятком серьезных сбоев. По данным NetBlocks, только в 2023 году Twitter уже пережил четыре серьезных сбоя, не считая аварии, случившейся в начале марта.

Поскольку компания обременена долгами от приобретения, предвидятся дальнейшие сокращения. Но сокращение отдела продаж и нестандартный подход Маска к модерации контента привели к тому, что доходы от рекламы снизились примерно на 40 процентов по сравнению с прошлым годом. Переход к платному сервису «Twitter Blue» стартовал медленно и не помог возместить упущенную выгоду.

Источник