Ankündigungen

Über letzten Donnerstag…

Über letzten Donnerstag…

Letzte Woche erlebte DreamHost einen weitreichenden Systemausfall, der den Service für eine große Anzahl unserer Kunden beeinträchtigte, deren Dienste in unserem „PDX1“ Datenzentrum gehostet wurden. Viele unserer Systeme waren nicht erreichbar, und weniger als die Hälfte der Websites unserer Kunden erlebten Ausfallzeiten.

Der Service wurde innerhalb von 12 Stunden größtenteils wiederhergestellt, und jetzt, da sich der Staub gelegt hat, möchten wir Ihnen ein Update darüber geben, was passiert ist, warum es passiert ist und was unsere Pläne sind, um zu verhindern, dass es wieder vorkommt.

Was ist passiert?

Kurz gesagt: Am Morgen des Donnerstag, 2. November, verlor eines der Datenzentren, das eine große Anzahl unserer Server beherbergt, die Stromversorgung und seine redundanten Stromsysteme versagten.

Dies sollte nicht passiert sein. Unser Datenzentrum in Hillsboro, Oregon („PDX1“) wird von Flexential betrieben, einem bewährten Anführer im Bau, Management und Betrieb von Datenzentren. Flexential ist verantwortlich für die Stromversorgung unserer Server in dieser Einrichtung.

Zu ihrem Verdienst folgt ihr Betriebsplan für den Umgang mit Stromproblemen den branchenüblichen Best Practices und ihre redundanten Stromsysteme sind ein Schlüsselelement für das, was nach allen Berichten eine hochmoderne Einrichtung ist. Allerdings haben die Ereignisse der letzten Woche gezeigt, dass die Realität eines unerwarteten Stromereignisses unvorhergesehene Auswirkungen haben kann und einen Dominoeffekt auslösen kann, der sich im gesamten Internet ausbreiten kann.

Redundante Systeme

Eine standardmäßige und häufige Konfiguration für Stromredundanz in den meisten Datenzentren besteht darin, zwei vollständig redundante Stromsysteme einzubauen. Jedes System bezieht seinen Strom von einem Versorgungsunternehmen über einen einzigartigen, redundanten Weg. Jedes System enthält auch seine eigene Bank von USVs (unterbrechungsfreie Stromversorgungen – auch „Notfallbatterien“ genannt) und eine Flotte von Dieselgeneratoren befindet sich vor Ort, um die gesamte Einrichtung bei Bedarf mit Strom zu versorgen.

Während ein vollständiger Bericht von Flexential noch bevorsteht, was wir von unserer Seite sahen, war ein teilweiser Verlust der Stromversorgung, gefolgt von einem kompletten Verlust der Stromversorgung für unsere Serverflotte. Wir möchten klarstellen – dies hätte eine „unmögliche“ Bedingung sein sollen und wir hatten alle Zusicherungen, dass dies der Fall war, einschließlich einer 100% Stromverfügbarkeits-Servicegarantie (SLA). Diese Stromsysteme werden regelmäßig getestet und unterliegen regelmäßiger, geplanter Wartung, um sicherzustellen, dass sie wie vorgesehen funktionieren.

Während eines typischen Stromausfalls im Datenzentrum (geplant oder ungeplant) schalten sich die USV-Batterien automatisch ein, gerade lange genug, damit die Anlage ihre dieselbetriebenen Generatoren aktivieren kann.

Es ist unklar, warum oder wie das UPS-System ausfiel, die Generatoren ausfielen oder wie beide dieser automatisierten, redundanten, unabhängigen Stromsysteme gleichzeitig so spektakulär versagen konnten. Wir glauben, dass dies eine Kombination aus einem Versorgungsausfall sowie einem Generator- und UPS-Ausfall war. Eine vollständige Untersuchung läuft und wir erwarten in Kürze Ergebnisse.

Unabhängig von der Ursache lag unser Fokus und unsere Priorität während dieses Ereignisses darauf, unsere Maschinen wieder in Betrieb zu nehmen und den Service für unsere Kunden wiederherzustellen.

Unsere Antwort

Wir wurden zuerst um 4:41 Uhr Ortszeit am Donnerstag, den 2. November, durch unsere eigenen externen Überwachungstools auf einen Ausfall aufmerksam gemacht. Wir haben sofort Mitglieder unseres Datenzentrum-Betriebsteams entsandt, um den Prozess der Wiederherstellung der Dienste zu beginnen. Kurz darauf haben wir einen Statusbeitrag veröffentlicht, um Kunden dabei zu helfen, den Fortschritt der Wiederherstellungsbemühungen zu verfolgen.

Nachdem wir das volle Ausmaß dieses Ausfalls erkannt hatten, wurde unser gesamtes Führungsteam alarmiert und in Bereitschaft versetzt, während jeder Spezialist unseres Infrastrukturteams (sowohl vor Ort im Datenzentrum als auch diejenigen, die aus der Ferne arbeiteten) herangezogen wurde, um die Systeme wieder in Betrieb zu nehmen.

Zu einem bestimmten Zeitpunkt während dieser Antwort verlor auch das Zugangskontrollsystem des Gebäudes den Strom, was es für unser Team zu einer Herausforderung machte, Zutritt zu erhalten. Als um 6:08 Uhr endlich der volle Strom in unseren Bereich des Datenzentrums wiederhergestellt wurde, funktionierte die Redundanz, die wir in unsere eigene interne Strominfrastruktur eingebaut hatten, wie geplant und erwartet.

Die Säuberung

Unerwartete harte Neustarts und Stromausfälle – in jeder Größenordnung – können sowohl Hardwareausfälle als auch unerwartetes Verhalten in Software verursachen. Wie erwartet, haben wir reichlich von beidem gesehen.

Während ein einzelner Desktop-PC oder Laptop möglicherweise problemlos von einem unerwarteten Stromausfall erholen kann, ist dies leider nicht die Realität im Kontext einer großen Datenzentrum-Installation. Mit Tausenden von Servern und Dutzenden von Schaltern an diesem Standort war es ein sorgfältiger Prozess (gut dokumentiert und ausgeführt), um die Systeme wieder online zu bringen, jedes von ihnen auf anomales Verhalten zu testen und letztendlich die erforderlichen Korrekturmaßnahmen zu ergreifen.

Obwohl keine Kundendaten jemals gefährdet waren, mussten wir mehrere Festplatten und RAM-Sticks in unserer Serverflotte austauschen. Der unerwartete Stromausfall führte auch dazu, dass einige Netzwerk-Switches auf ältere Versionen ihrer Firmware zurückgesetzt wurden, was Upgrades und Wiederherstellungen von zuvor gespeicherten Konfigurationen erforderte.

Nach einem langen Tag der Aufräumarbeiten und vielen langen Stunden, die von unseren technischen Teams geleistet wurden, konnten wir schließlich alle Hauptsysteme als wiederhergestellt kennzeichnen, und wir arbeiteten weiter in die Nacht hinein, um zusätzliche Systeme zu identifizieren und zu reparieren, die Aufmerksamkeit benötigten. Wir haben diesen Vorfall um 16:49 Uhr am Donnerstag gelöst, knapp 12 Stunden nach der anfänglichen Stromunterbrechung.

Viele unserer Kunden sahen den Dienst in weniger als einer Stunde vollständig wiederhergestellt. Andere mussten viel länger warten. Es war wirklich ein Tag, an dem alle verfügbar waren, für uns im Datenzentrum, und wir schätzen die Geduld und Gnade, die viele von Ihnen in Ihren Nachrichten an unser Support-Team gezeigt haben.

Nächste Schritte

Wir führen diese Woche Gespräche mit Flexential, um zu verstehen, wo die Fehler aufgetreten sind und welche Pläne sie haben, um genau dieses Szenario in Zukunft zu verhindern.

Wenn Sie jemals Probleme mit Ihren bei DreamHost gehosteten Seiten haben und vermuten, dass eine umfassendere Systemstörung die Ursache sein könnte, stellen Sie sicher, dass https://www.dreamhoststatus.com/ Ihre erste Anlaufstelle für Informationen ist. Updates zu unserem Systemstatus werden auch auf @dhstatus auf X veröffentlicht.

Es tut uns leid

Wenn Sie von den Ereignissen letzten Donnerstag betroffen waren, bitten wir Sie aufrichtig um Entschuldigung.

Wir wissen, dass Sie sich für DreamHost und nicht für ein Datenzentrum entschieden haben, um Ihr vertrauenswürdiger Online-Partner zu sein. Sie sollten sich keine Sorgen darüber machen müssen, wer die Dienste für Ihre Website „weiter stromaufwärts“ bereitstellt. Obwohl wir Klarheit in dieses Ereignis bringen wollten, verstehen wir, dass die Verantwortung letztendlich bei uns liegt.

Es tut uns leid für die absoluten Unannehmlichkeiten, die dies für Ihre Websites, Ihre Geschäfte und Ihren Online-Ruf verursacht hat. Wir werden alles in unserer Macht Stehende tun, um sicherzustellen, dass ein solches Ereignis nicht wieder vorkommt.