W zeszłym tygodniu DreamHost doświadczył rozległej awarii systemowej, która miała wpływ na usługi dla wielu naszych klientów, których usługi były hostowane w naszym centrum danych „PDX1”. Wiele naszych systemów było nieosiągalnych, a mniej niż połowa stron naszych klientów doświadczyła okresów przestoju.
Usługa została w dużej mierze przywrócona w ciągu 12 godzin, a teraz, gdy sytuacja się ustabilizowała, chcielibyśmy dostarczyć Państwu informacje na temat tego, co się wydarzyło, dlaczego to się wydarzyło oraz jakie są nasze plany, aby zapobiec temu w przyszłości.
Co się stało?
Podsumowując: W czwartkowy poranek, 2 listopada, jedno z centrów danych, które pomieszcza dużą liczbę naszych serwerów, straciło zasilanie, a jego zapasowe systemy zasilania przestały działać.
To nie powinno się zdarzyć. Nasze centrum danych w Hillsboro, Oregon („PDX1”) jest zarządzane przez Flexential, lidera w budowie, zarządzaniu i operacjach centrów danych. Flexential odpowiada za dostarczanie energii do naszych serwerów w tej placówce.
Za ich sprawą, ich operacyjny plan radzenia sobie z problemami zasilania jest zgodny z najlepszymi praktykami w branży, a ich redundantne systemy zasilania są kluczowym elementem tego, co według wszystkich relacji, jest obiektem o najnowocześniejszej infrastrukturze. Jednakże, jak pokazały wydarzenia z ostatniego tygodnia, rzeczywistość nieoczekiwanego zdarzenia związanego z zasilaniem może mieć nieprzewidziane konsekwencje i efekt domina, który może rezonować w całym Internecie.
Systemy Redundantne
Standardowa i powszechna konfiguracja zapewniająca redundancję zasilania w większości centrów danych polega na budowie dwóch w pełni redundantnych systemów zasilających. Każdy system uzyskuje energię od dostawcy poprzez unikalną, redundantną ścieżkę. Każdy system zawiera również własny bank UPS-ów (nieprzerwalne źródła zasilania – znane również jako „baterie awaryjne”) oraz flota generatorów diesla znajduje się na miejscu, aby zasilać całą placówkę w razie potrzeby.
Chociaż pełny raport od Flexential nadchodzi, to co zaobserwowaliśmy z naszej strony to częściowa utrata zasilania, a następnie całkowita utrata zasilania dla naszej floty serwerów. Chcemy być jasni – to powinien być stan „niemożliwy” i mieliśmy wszystkie zapewnienia, że tak jest, w tym 100% gwarancję dostępności zasilania w umowie dotyczącej poziomu usług (SLA). Te systemy zasilania są regularnie testowane i przechodzą regularne, zaplanowane konserwacje, aby zapewnić ich działanie zgodnie z zamierzeniem.
Podczas typowej awarii zasilania w centrum danych (zaplanowanej lub niezaplanowanej), baterie UPS włączają się automatycznie wystarczająco długo, aby obiekt mógł uruchomić swoje generatory napędzane olejem napędowym.
Nie jest jasne, dlaczego lub jak doszło do awarii systemu UPS, awarii generatorów, lub jak obydwa te zautomatyzowane, nadmiarowe, niezależne systemy zasilania zdołały tak spektakularnie zawieść jednocześnie. Wierzymy, że było to połączenie awarii sieci energetycznej oraz awarii generatora i systemu UPS. Pełne dochodzenie jest w toku i spodziewamy się otrzymać wyniki wkrótce.
Niezależnie od przyczyny, naszym celem i priorytetem podczas tego zdarzenia było przywrócenie działania naszych maszyn i przywrócenie usług dla naszych klientów.
Nasza Odpowiedź
Zostaliśmy po raz pierwszy zaalarmowani o przerwie o godzinie 4:41 czasu lokalnego w czwartek, 2 listopada, za pomocą naszych własnych narzędzi monitorujących zewnętrznych. Natychmiast wysłaliśmy członków naszego zespołu operacji w Centrum Danych do obiektu, aby rozpocząć proces przywracania usług. Niedługo potem opublikowaliśmy post statusu, aby pomóc klientom śledzić wysiłki związane z przywracaniem usług.
Gdy zrozumieliśmy pełny zakres tej awarii, cały nasz zespół wykonawczy został wezwany i postawiony w stan gotowości, podczas gdy każdy specjalista z naszego zespołu Infrastruktury (zarówno ci lokalni w centrum danych, jak i ci pracujący zdalnie) został wezwany, aby przywrócić systemy do działania.
W pewnym momencie podczas tej odpowiedzi, system kontroli dostępu budynku również stracił zasilanie, co stanowiło pewne wyzwanie dla naszego zespołu, aby uzyskać dostęp. Gdy pełne zasilanie zostało przywrócone do naszej części centrum danych o 6:08, redundancja, którą wbudowaliśmy w naszą własną wewnętrzną infrastrukturę zasilania, działała zgodnie z przeznaczeniem i oczekiwaniami.
Sprzątanie
Nieoczekiwane twarde restarty i utrata zasilania – na dowolną skalę – mogą powodować zarówno awarie sprzętu, jak i nieoczekiwane zachowania oprogramowania. Jak można się było spodziewać, obserwowaliśmy dużo tego drugiego.
Chociaż pojedynczy komputer stacjonarny lub laptop może łatwo poradzić sobie z niespodziewaną utratą zasilania, niestety nie jest to rzeczywistość w kontekście dużego centrum danych. Z tysiącami serwerów i dziesiątkami przełączników zainstalowanych w tej lokalizacji, było to staranne działanie (dobrze udokumentowane i wykonane), aby przywrócić systemy do pracy, przetestować każdy z nich pod kątem anomalnego zachowania i ostatecznie podjąć potrzebne działania korygujące.
Chociaż żadne dane klientów nigdy nie były zagrożone, musieliśmy wymienić kilka dysków twardych i kości RAM w naszej flocie serwerów. Nieoczekiwane odcięcie zasilania spowodowało również, że niektóre przełączniki sieciowe powróciły do starszych wersji swojego oprogramowania układowego, co wymagało aktualizacji i przywrócenia z wcześniej zapisanych konfiguracji.
Po długim dniu sprzątania i wielu godzinach pracy naszych zespołów technicznych, udało nam się ostatecznie uznać wszystkie główne systemy za przywrócone, a prace kontynuowaliśmy w nocy, aby zidentyfikować i naprawić wszelkie dodatkowe systemy, które wymagały uwagi. Udało nam się rozwiązać ten incydent o 16:49 w czwartek, nieco poniżej 12 godzin od początkowej przerwy w dostawie prądu.
Wielu naszych klientów odzyskało pełną funkcjonalność usługi w ciągu godziny. Inni musieli czekać znacznie dłużej. To był naprawdę dzień, w którym wszyscy musieliśmy stawić czoła wyzwaniom w centrum danych, i doceniamy cierpliwość oraz wyrozumiałość, którą wielu z Was okazało w swoich wiadomościach do naszego zespołu wsparcia.
Następne Kroki
Rozmawiamy w tym tygodniu z Flexential, aby zrozumieć, gdzie wystąpiła awaria i jakie są ich plany, aby zapobiec temu konkretnemu scenariuszowi w przyszłości.
Jeśli kiedykolwiek napotkasz problemy ze swoimi stronami hostowanymi przez DreamHost i podejrzewasz, że przyczyną może być szersza awaria systemu, upewnij się, że pierwszym miejscem do sprawdzenia informacji będzie https://www.dreamhoststatus.com/. Aktualizacje dotyczące statusu naszego systemu są również publikowane na @dhstatus na X.
Przepraszamy
Jeśli byłeś dotknięty wydarzeniami z ostatniego czwartku, przyjmij nasze szczere przeprosiny.
Rozumiemy, że wybraliś DreamHost, a nie centrum danych, jako swojego zaufanego partnera online. Nie powinieneś martwić się o to, kto świadczy usługi dla Twojej strony internetowej „dalej w górę rzeki”. Chociaż chcieliśmy wyjaśnić tę sytuację, rozumiemy, że odpowiedzialność kończy się na nas.
Przepraszamy za absolutne niedogodności, które to spowodowało dla Twoich stron, Twoich firm i Twojej reputacji online. Zrobimy wszystko, co w naszej mocy, aby wydarzenie takie jak to nie miało miejsca ponownie.