Последствия аварий в ЦОД Lufthansa, Tesla, Oracle, Azure, Twitter

Сбои в работе дата-центров обходятся дорого. Согласно результатам анализа простоев вычислительной инфраструктуры за 2022 год, проведенного Uptime Institute, последствия даунтаймов ухудшаются, а их стоимость для бизнеса растет. Примерно 60% аварий в ЦОД в настоящее время приводят к общим потерям не менее $100 тыс. Репутационный ущерб и вовсе, нередко, невозможно оценить в денежном выражении. Особенно если речь идет о крупной и известной на весь мир корпорации. В феврале 2023 года с авариями в ЦОД столкнулись сразу несколько таких корпораций, включая, помимо прочего, Lufthansa, Tesla, Oracle, Twitter и Facebook.

Lufthansa приостановила рейсы из-за отключения IT-оборудования после обрыва оптоволоконного кабеля

Из-за сбоя в работе IT-системы Lufthansa полеты лайнеров немецкой авиакомпании были приостановлены. Инцидент произошел 15 февраля 2023 года. Тысячи пассажиров оказались в затруднительном положении.

Lufthansa приостановила рейсы из-за отключения IT-оборудования после обрыва оптоволоконного кабеля

Авиакомпания обвинила в случившемся строителей, который в ходе подземных инженерных работ на железнодорожной станции во Франкфурте случайном перерезали несколько кабелей оператора связи Deutsche Telekom, который обслуживает IT-инфраструктуру Lufthansa.

Сотрудникам Lufthansa пришлось использовать аналоговые инструменты и оборудование для организации посадки пассажиров в самолеты, перемещения багажа и выполнения других важных задач.

Наибольший ущерб был нанесен международному аэропорту Франкфурта. Около 120 входящих и исходящих рейсов на сайте воздушной гавани были указаны как отмененные. Поскольку самолеты Lufthansa временно лишились возможности взлетать и садиться по графику, у других авиакомпаний также возникли задержки. Некоторые самолеты оказались вынуждены летать возле аэропорта Франкфурта, ожидая освобождения стояночных мест для посадки.

Скачки напряжения вызывали отказ системы охлаждения ЦОД Microsoft и перебои в работе облака Azure в Юго-Восточной Азии

9 февраля 2023 года из-за скачков напряжения на подстанции, снабжающей электроэнергией один из центров обработки данных Microsoft, установленные там системы охлаждения отключились, что привело к сбою. Сбой вызвал проблемы у ряда пользователей облачной платформы Azure из Юго-Восточной Азии.

В официальном пресс-релизе Microsoft по поводу инцидента отмечается, что после нарушения функциональности системы охлаждения температура в центре обработки данных повысилась. Операторам ЦОД пришлось заблаговременно отключить ряд вычислительных систем и устройств хранения данных, чтобы избежать повреждения оборудования и снизить нагрузку на инфраструктуру охлаждения. Восстановить работоспособность инфраструктуры удалось спустя примерно 7 часов после инцидента.

Среди пострадавших оказалось множество сингапурских компаний и госучреждений, включая Наньянский технологический университет, Центральный резервный фонда Сингапура, а также платформу бесконтактных смарт-карт и систему электронных денег EZ-Link. Это позволяет предложить, что аварийный ЦОД находился именно в данной юрисдикции.

Корпорация Microsoft сталкивалась с аналогичными ситуациями ранее. Например, нарушение работоспособности инфраструктуры охлаждения софтверного гиганта в британском центре обработки данных в 2020 году вызвало похожие проблемы. В частности, авария привела к отключению британского национального приложения для мониторинга ситуации с Covid-19.

Пожар в центре обработки данных Cyxtera привел к отключению облака Oracle NetSuite

Февральское многодневное отключение облачной платформы Oracle NetSuite оказалось связано с пожаром в дата-центре колокейшн-провайдера Cyxtera в пригороде Бостона, штат Массачусетс (США). Проблема возникла 14 февраля 2023 года. Авария в ЦОД произошла примерно в полдень по местному времени из-за того, что пожарные отключили электричество по прибытии на место обнаружения задымления. Источником дыма оказалось электрооборудование в машинном отделении ЦОД в городке Уолтем.

Сотрудники пожарной службы отключили электроснабжение и эвакуировали персонал из здания, чтобы обеспечить безопасность всех находящихся там людей. Впоследствии инженерно-технический персонал Cyxtera занялся восстановлением энергоснабжения IT-оборудования клиентов. Восстановить работоспособность дата-центра удалось достаточно быстро, после чего клиенты были допущены к арендованным площадкам в машзалах в соответствии с обычными процедурами. Причина пожара пока неизвестна.

Команда Oracle NetSuite смогла восстановить функционал своей платформы в полном объеме примерно спустя сутки после инцидента. Отключение NetSuite фактически парализовало предприятия, полагающиеся на бостонские серверы платформы, которую Oracle приобрела в 2016 году за $9,3 млрд.

Отчеты о простоях организаций фиксировались по всей территории Соединенных Штатов Америки. Проблемы наблюдались в Теннесси , Висконсине, Чикаго, Техасе, Северной Каролине, Миннесоте, Вермонте, Неваде, Вашингтоне, Луизиане, Делавэре, Джорджии и Аризоне. Сообщается, что в процессе восстановления NetSuite было потеряно около 30 минут данных, поскольку «точка восстановления была сформирована примерно за 30 минут до сбоя».

Пожары в ЦОД периодически случаются. В 2021 году полностью сгорел дата-центр OVHcloud , что привело к потере значительного объема клиентских данных. Владельцы здания пока еще не раскрыли результаты расследования причин инцидента. В прошлом году возгорание литий-ионной батареи вызвало отключение платформы KakaoTalk в Южной Корее, имевшее серьезные последствия.

Владельцы электромобилей Tesla лишились доступа к фирменному приложению из-за проблем с серверами

14 февраля 2023 года владельцы электромобилей Tesla и интегрированных аккумуляторных систем бытового класса Powerwall, которые входят в состав экосистемы Tesla и используются для хранения электричества с солнечных батарей для последующего использования в ночное время, столкнулись с проблемами при взаимодействии с фирменными приложениями обоих продуктов.

Владельцы электромобилей Tesla лишились доступа к фирменному приложению из-за проблем с серверами
Владельцы автомобилей Tesla, в частности, лишились возможности запирать и разблокировать свои авто, а также находить зарядные станции с помощью приложения. Некоторые автомобилисты из США и Европы заявили о невозможности заряжать аккумуляторы Tesla от общедоступных зарядных устройств.

Автомобилисты также лишились возможности оценить дальность хода транспортных средств без подзарядки аккумулятора. Единственным способом попасть в авто оказалось использование физических карт-ключей. Владельцы домашних аккумуляторных систем Powerwall, в свою очередь, сообщали о невозможности получить доступ к инструментам управления устройствами.

При запуске приложений появлялось сообщение об ошибке 503, свидетельствующей о временных проблемах с подключением к серверам внутри центров обработки данных. Пользователи Tesla из Китая не были затронуты аварией, поскольку автопроизводитель развернул отдельную инфраструктуру ЦОД для обслуживания китайского рынка.

Американский автопроизводитель сталкивается с подобными инцидентами не в первый раз. Так, в 2021 году из-за перебоев в работе серверной инфраструктуры сотни пользователей Tesla лишились доступа к своим автомобилям. В настоящее время компания использует локальные и облачные ресурсы для управления IT-нагрузками. В частности, Tesla размещает рабочие нагрузки в облаке AWS.

Сбой в работе Twitter из-за сокращения инфраструктуры ЦОД

На следующий день (15 февраля 2023 года) произошел крупный сбой в работе Twitter. Напомним, что 27 октября 2022 года основатель и генеральный директор Tesla Илон Маск купил Twitter и взял на себя управление социальной сетью. Вскоре после покупки миллиардер объявил о сокращении инфраструктуры корпоративных ЦОД и частичном отказе от использования облачных сервисов, включая Google Cloud.

В ходе февральского сбоя, который эксперты назвали закономерным следствием сокращения инфраструктуры ЦОД, пользователи лишились возможности твитить, подписываться на интересные аккаунты и отправлять прямые сообщения. Некоторым пользователям система отправляла сообщение о том, что «дневной лимит твитов достигнут».

В момент покупки Twitter Маском у компании было три центра обработки данных. Все ЦОД находились в США — один в Сакраменто, другой в Атланте и третий в Портленде. Социальная сеть также активно пользовалась сервисами Google Cloud. Но, чтобы справиться с долгами, Маск был вынужден сократить IT-расходы. Наряду с массовыми увольнениями миллиардер приказал закрыть центр обработки данных в Сакраменто в канун католического Рождества, сократить штат дата-центра в Атланте и уменьшить расходы на Google Cloud, чтобы сэкономить $1 млрд.

Источник