О прошлом четверге…

На прошлой неделе DreamHost столкнулся с массовым сбоем системы, который повлиял на обслуживание большого числа наших клиентов с сервисами, размещенными в нашем центре данных «PDX1». Многие наши системы были недоступны, и менее чем у половины сайтов наших клиентов периодически наблюдались перерывы в работе.

Сервис был в основном восстановлен в течение 12 часов, и теперь, когда пыль остепенилась, мы хотели бы предоставить вам обновленную информацию о том, что произошло, почему это произошло и какие у нас планы, чтобы предотвратить повторение в будущем.

Что произошло?

Кратко: Утром в четверг, 2 ноября, один из центров данных, где размещается большое количество наших серверов, потерял питание, и его резервные системы электроснабжения не сработали.

Это не должно было произойти. Наш центр данных в Хиллсборо, Орегон («PDX1») управляется компанией Flexential, признанным лидером в области строительства, управления и эксплуатации центров данных. Flexential отвечает за обеспечение электроэнергией наших серверов в этом объекте.

К их заслугам следует отнести то, что их операционный план по устранению проблем с электропитанием соответствует передовым отраслевым практикам, а их избыточные системы электроснабжения являются ключевым элементом того, что по всем данным представляет собой объект с передовыми технологиями. Однако, как показали события прошлой недели, реальность неожиданного сбоя в подаче электроэнергии может иметь непредвиденные последствия и вызвать эффект домино, который может распространиться по всему Интернету.

Избыточные системы

Стандартная и распространенная конфигурация для обеспечения избыточности питания в большинстве центров данных заключается в создании двух полностью избыточных систем питания. Каждая система получает питание от коммунальной службы по уникальному, избыточному пути. В каждой системе также есть свой блок ИБП (источники бесперебойного питания – известные как «аварийные батареи»), и парк дизельных генераторов находится на территории для питания всего объекта, если это необходимо.

Пока полный отчет от Flexential ожидается, с нашей стороны мы наблюдали частичную потерю питания, за которой последовала полная потеря питания для нашего парка серверов. Мы хотим быть откровенными – это должно было быть «невозможным» условием, и у нас были все гарантии того, что это так, включая гарантию обеспечения питания на уровне 100% по договору об уровне обслуживания (SLA). Эти системы питания регулярно тестируются и проходят регулярное плановое техническое обслуживание, чтобы обеспечить их работу в соответствии с намерениями.

Во время типичного отключения электроэнергии в центре данных (запланированного или незапланированного), батареи ИБП автоматически включаются ровно настолько, чтобы объект мог активировать свои дизельные генераторы.

Неясно, почему или как система UPS вышла из строя, генераторы вышли из строя, или как обе эти автоматизированные, резервные, независимые системы энергоснабжения смогли так зрелищно выйти из строя одновременно. Мы полагаем, что это было сочетанием сбоя в работе коммунальных служб, а также сбоя генератора и UPS. Проводится полное расследование, и мы ожидаем получить результаты в ближайшее время.

Независимо от причины, наша основная задача и приоритет во время этого события заключались в том, чтобы вновь запустить наши машины и восстановить сервис для наших клиентов.

Наш ответ

Мы впервые узнали о проблеме в 4:41 утра по местному времени в четверг, 2 ноября, благодаря нашим собственным инструментам мониторинга с удаленного сайта. Мы немедленно направили членов нашей команды операций в Центре данных на объект, чтобы начать процесс восстановления услуг. Вскоре после этого мы опубликовали сообщение о статусе, чтобы помочь клиентам следить за процессом восстановления услуг.

Как только мы осознали полный масштаб этого сбоя, наша вся исполнительная команда была оповещена и переведена в режим повышенной готовности, в то время как каждый специалист нашей команды инфраструктуры (как работающие на месте в центре данных, так и удаленно) был привлечен для восстановления систем.

В какой-то момент во время этого инцидента система контроля доступа здания также потеряла питание, что создало некоторые трудности для нашей команды с доступом внутрь. Когда полное питание было восстановлено в нашей части Центра данных в 6:08 утра, резервирование, которое мы построили в нашей собственной внутренней инфраструктуре питания, сработало как было задумано и ожидалось.

Очистка

Неожиданные жесткие перезагрузки и потеря питания – в любом масштабе – могут вызвать как сбои в аппаратном обеспечении, так и неожиданное поведение программного обеспечения. Как и ожидалось, мы столкнулись с обоими вариантами.

Хотя один настольный компьютер или ноутбук могут успешно восстановиться после неожиданного отключения электроэнергии, к сожалению, это не относится к ситуации в большом центре обработки данных. С тысячами серверов и десятками коммутаторов, установленных в этом месте, процесс восстановления систем (хорошо задокументированный и выполненный) включал в себя поэтапное включение систем, тестирование каждой из них на аномальное поведение и, в конечном итоге, принятие необходимых корректирующих мер.

Хотя данные клиентов никогда не были под угрозой, нам пришлось заменить несколько жестких дисков и планок RAM в нашем парке серверов. Неожиданное отключение электроэнергии также привело к тому, что некоторые сетевые коммутаторы вернулись к старым версиям своего программного обеспечения, что потребовало обновлений и восстановления из ранее сохраненных конфигураций.

После долгого дня уборки и многих часов работы наших технических команд, мы наконец смогли отметить все основные системы как восстановленные, и продолжили работу в течение ночи, чтобы определить и починить любые дополнительные системы, которые требовали внимания. Мы разрешили этот инцидент в 16:49 в четверг, менее чем через 12 часов после начального нарушения питания.

Многие наши клиенты увидели полное восстановление сервиса менее чем за час. Другим пришлось ждать гораздо дольше. Это был действительно день, когда все руки были на палубе для нас в центре данных, и мы ценим терпение и благородство, которые многие из вас проявили в своих сообщениях нашей команде поддержки.

Следующие шаги

На этой неделе мы общаемся с Flexential, чтобы понять, где произошел сбой и какие у них планы по предотвращению этой конкретной ситуации в будущем.

Если вы когда-либо столкнетесь с проблемами на своих сайтах, размещенных на DreamHost, и подозреваете, что причиной может быть более широкий сбой системы, обязательно сделайте https://www.dreamhoststatus.com/ вашей первой остановкой для получения информации. Обновления нашего статуса системы также публикуются в @dhstatus на X.

Нам жаль

Если вы пострадали от событий прошлого четверга, примите наши искренние извинения.

Мы понимаем, что вы выбрали DreamHost, а не центр данных, чтобы быть вашим надежным онлайн-партнером. Вам не следует беспокоиться о том, кто предоставляет услуги вашему сайту «выше по течению». Хотя мы хотели прояснить ситуацию с этим событием, мы понимаем, что ответственность лежит на нас.

Мы приносим извинения за абсолютные неудобства, которые это причинило вашим сайтам, вашему бизнесу и вашей онлайн-репутации. Мы сделаем все возможное, чтобы подобное событие не повторилось.