Аварии в ЦОД: новости из Японии, США, Австралии и Китая

Компании тратят огромные суммы на развертывание новых ЦОД и модернизацию уже существующих, уделяя повышенное внимание энергоэффективности и надежности. Согласно исследованию Synergy Research, только на облачную инфраструктуру и только в четвертом квартале 2022 года был израсходован в совокупности $ 61 миллиард. И впереди, по мнению экспертов, значительный рост инфраструктурных расходов. Но огромные капиталовложения не делают дата-центры на 100% застрахованными от незапланированных простоев, что подтверждают свежие новости из Японии, Соединенных Штатов Америки, Австралии и Китая.

ЦОД в австралийской Аделаиде охватил огонь

18 апреля 2023 года в одном из австралийских государственных дата-центров произошел пожар. Затронутый огнем ЦОД располагается в пригороде Аделаиды, штат Южная Австралия. Пострадавший дата-центр находится в пригородном районе Гленсайд — в 5 километрах к юго-востоку от центра мегаполиса. Инцидент привел к сбою в работе систем обработки электронных медицинских карт во многих государственных больницах Южной Австралии, что усложнило регистрацию пациентов. Также наблюдались перебои в работе ряда государственных служб.

Пострадавший ЦОД является основным центром обработки данных правительства штата. Пожар начался в 9:45 утра по местному времени. Загорелось электрическое оборудование. Огонь был оперативно потушен до прибытия пожарных. Операторы ЦОД отмечают, что из-за инцидента пострадала система охлаждения центра обработки данных. Точная причина инцидента пока не установлена.

Авария в ЦОД вызывала серьезные перебои в работе ряда австралийских медицинских приложений, включая Sunrise EMR & PAS. Даунтайм затронул Королевскую больницу Аделаиды, больницу им. Лайелла Макьюина и больницу Модбери. Помимо медицинских служб, пострадали некоторые онлайн-сервисы правительства Южной Австралии. Отмечается, что значительных неблагоприятных последствий для правительственных сервисов выявлено не было, однако некоторые системы могли работать медленнее, чем обычно.

На время инцидента власти частично перенесли рабочую нагрузку в другие местные ЦОД. В Аделаиде находятся центры обработки данных, принадлежащие компании DCI Data Centers, включая ЦОД с кодовыми именами ADL01, ADL02 и ADL03 (последние два пока введены в эксплуатацию частично). Правительство Южной Австралии уже разместило часть своего IT- оборудования в ADL01. Помимо DCI Data Centers, строительством новых дата-центров в столице австралийского штата занимаются компании NextDC и CDC.

Перебои в работе телекоммуникационной инфраструктуры MATE затронули ЦОД в Сиднее

20 апреля 2023 года по всей Австралии наблюдались перебои в работе интернета. Причиной стали неполадки в инфраструктуре одного из крупнейших местных поставщиков телекоммуникационных услуг MATE. Инцидент затронул, помимо прочего, многочисленные центры обработки данных в Сиднее, штат Новый Южный Уэльс. Об этом своим клиентам сообщили операторы местных ЦОД.

Комментируя инцидент, представители MATE заявили, что он повлиял как на проводную широкополосную связь, так и на мобильный интернет. Наиболее заметные сбои происходили в штатах Новый Южный Уэльс, Виктория и Западная Австралия.

Авария в дата-центре Tencent стоила топ-менеджерам компании должностей

29 марта 2023 года в Китае произошло отключение двух основных социальных платформ, принадлежащих Tencent: WeChat и QQ. Оба сервиса отключились на несколько часов. Из-за сбоя пользователи лишились доступа к таким функциям как голосовая связь и платежи в WeChat, передача файлов и электронная почта в QQ. Неисправность удалось устранить в тот же день.

Основной причиной стал отказ системы охлаждения в центре обработки данных на территории Гуанчжоу. Руководство Tencent посчитало, что авария выявила несовершенство план аварийного восстановления в чрезвычайных ситуациях, а также связанные с этим скрытые опасности. Вследствие этого старшему исполнительному вице-президенту и вице-президенту был объявлен выговор. Еще несколько генеральных менеджеров и директоров были понижены в должности и уволены.

WeChat часто считается самым популярным приложением в Китае. По данным Statista, в конце 2022 года у платформы было более 1,3 миллиарда активных пользователей в месяц. Приложением активно пользуются не только многочисленные обычные люди — многие предприятия серьезно зависят от него. Это сулит значительные социально-экономические потрясения в периоды ухода приложения в офлайн.

Государственные сайты в американском Вермонте ушли в офлайн из-за обрыва кабеля в ЦОД

20 апреля 2023 года многочисленные государственные сайты администрации американского штата Вермонт ушли в офлайн. Доступ к цифровым услугам возобновился лишь следующим утром — после 19-часового простоя.

Причиной стал обрыв оптоволоконного кабеля в районе Вашингтона, округ Колумбия. В результате центр обработки данных Tyler Technologies, который предоставляет услуги хостинга веб-сайтов администрации штата Вермонт, был отключен от интернета.

В администрации пообещали составить план действий по недопущению повторения подобного инцидента. Чиновники обязались минимизировать риски даунтайма для улучшения обслуживания жителей Вермонта в будущем.

Массовые сбои в инфраструктуре 4 крупнейших провайдеров облачных услуг

В период со второй половины марта по середину апреля 2023 года зафиксировано 60 аварий в работе продуктов 4 основных поставщиков облачных услуг: AWS, Microsoft Azure, Google Cloud и Oracle Fusion Cloud. К таким выводам пришли эксперты компании IsDown, занимающейся мониторингом облачных и SaaS-платформ.

Отмечается, что 43 отключений были связаны только с инфраструктурой дата-центров Google Cloud, принадлежащей компании Google Alphabet Inc. Последняя в отчетном периоде также неоднократно разочаровала пользователей других популярных сервисов.

Например, 18 апреля 2023 года более 22 тыс. пользователей из американского региона столкнулись с перебоями в работе соответствующих продуктов. Чаще всего сбоил поисковик. По данным Downdetector, около 87% затронутых пользователей сообщили о проблемах с поиском Google.

Перебои в работе телекоммуникационной инфраструктуры NTT в Японии

3 апреля 2023 года произошел сбой в работе сетевой инфраструктуры расположенных в Японии дата-центров компании Nippon Telegraph and Telephone (NTT). Авария повлияла на телекоммуникационные услуги, затронув почти полмиллиона интернет-соединений.

Инцидент также затронул дочерние компании NTT East и NTT West. Авария произошла около 7:10 утра по местному времени. Инфраструктура была оперативно восстановлена: предоставление услуг в полном объеме возобновилось через несколько часов.

Согласно сообщениям местных СМИ, отключение было связано с отказом телекоммуникационного оборудования в ЦОД. Из-за перебоев в работе сети пострадали обычные пользователи и корпоративные клиенты в Токио, Осаке, Исикаве и Эхиме. Авария затронула в общей сложности 13 японских префектур. О проблемах сообщали клиенты банка SoftBank Corp. Многие японцы также столкнулись с невозможностью вызова экстренных служб с использованием коротких номеров 110 и 119.

Примерно годом ранее с еще более серьезным сбоем столкнулась конкурирующая японская телекоммуникационная компания KDDI Corporation. В июле 2022 года почти 40 миллионов человек по всей стране остались без услуг мобильной связи из-за аварии, которая длилась целые выходные. В длительном простое обвинили «отказ оборудования».

Источник