Aankondigingen

Over Vorige Donderdag…

Over Vorige Donderdag…

Vorige week ondervond DreamHost een uitgebreide systeemstoring die invloed had op de dienstverlening voor een groot aantal van onze klanten met diensten gehost in ons “PDX1” datacenter. Veel van onze systemen waren onbereikbaar, en minder dan de helft van de sites van onze klanten had last van uitvaltijden.

De service was grotendeels hersteld binnen 12 uur, en nu het stof is neergedaald willen we je een update geven over wat er gebeurd is, waarom het gebeurd is, en wat onze plannen zijn om te voorkomen dat het opnieuw gebeurt.

Wat Is Er Gebeurd?

Kortom: Op de ochtend van donderdag 2 november verloor een van de datacenters die een groot aantal van onze servers huisvest stroom en de redundante stroomsystemen faalden.

Dit had niet mogen gebeuren. Ons datacenter in Hillsboro, Oregon (“PDX1”) wordt beheerd door Flexential, een bewezen leider in datacenterconstructie, -beheer en -operaties. Flexential is verantwoordelijk voor het leveren van stroom aan onze servers in deze faciliteit.

Hun operationele plan voor het omgaan met stroomproblemen volgt de beste praktijken uit de industrie en hun redundante stroomsystemen zijn een essentieel onderdeel van wat, volgens alle berichten, een ultramoderne faciliteit is. Echter, zoals de gebeurtenissen van vorige week hebben aangetoond, kan de realiteit van een onverwachte stroomstoring onvoorziene implicaties hebben en een domino-effect veroorzaken dat over het hele internet kan weerkaatsen.

Redundante Systemen

Een standaard en veelvoorkomende configuratie voor stroomredundantie binnen de meeste datacenters is het opzetten van twee volledig redundante stroomsystemen. Elke systeem haalt zijn stroom van een nutsbedrijf via een uniek, redundant pad. Elk systeem bevat ook zijn eigen bank van UPSs (onderbrekingsvrije voedingen – ook wel “noodbatterijen” genoemd) en een vloot van dieselgeneratoren staat klaar op locatie om de gehele faciliteit van stroom te voorzien indien nodig.

Hoewel er nog een volledig rapport van Flexential aanstaande is, zagen wij vanaf onze kant een gedeeltelijk verlies van stroom gevolgd door een volledig verlies van stroom naar onze servervloot. We willen duidelijk zijn – dit had een “onmogelijke” situatie moeten zijn en we hadden alle garanties dat dit zo was, inclusief een 100% stroom beschikbaarheid service level agreement (SLA). Deze stroomsystemen worden regelmatig getest en ondergaan regelmatig, gepland onderhoud om te garanderen dat ze zullen functioneren zoals bedoeld.

Tijdens een typische stroomuitval in het datacenter (gepland of ongepland), komen de UPS-batterijen automatisch in actie, net lang genoeg voor het faciliteit om zijn dieselgeneratoren te activeren.

Het is onduidelijk waarom of hoe het UPS-systeem heeft gefaald, de generatoren faalden, of hoe beide van deze geautomatiseerde, redundante, onafhankelijke stroomsystemen zo spectaculair tegelijkertijd konden falen. We geloven dat dit een combinatie was van een nutsvoorziening falen alsook een falen van de generator en UPS. Een volledig onderzoek is gaande en we verwachten op korte termijn resultaten te ontvangen.

Ongeacht de oorzaak, was onze focus en prioriteit tijdens dit evenement om onze machines weer online te brengen en de service aan onze klanten te herstellen.

Onze Reactie

We werden voor het eerst gewaarschuwd voor een storing om 4:41 uur lokale tijd op donderdag 2 november, via onze eigen externe monitoringtools. We hebben onmiddellijk leden van ons Data Center Operations team naar de faciliteit gestuurd om het proces van het weer online brengen van diensten te beginnen. We hebben kort daarna een statusbericht gepubliceerd om klanten te helpen de voortgang van de herstelinspanningen te volgen.

Toen we de volledige omvang van deze storing begrepen, werd ons gehele directieteam gealarmeerd en op de hoogte gebracht, terwijl elke specialist van ons Infrastructuurteam (zowel lokaal bij het datacenter als degenen die op afstand werken) werd ingeschakeld om de systemen weer online te brengen.

Op een gegeven moment tijdens deze reactie verloor het toegangscontrolesysteem van het gebouw ook stroom, waardoor het een uitdaging was voor ons team om toegang te krijgen. Toen om 6:08 uur de volledige stroomvoorziening naar ons deel van het datacenter eindelijk hersteld was, functioneerde de redundantie die we in onze eigen interne stroominfrastructuur hadden ingebouwd zoals ontworpen en verwacht.

De Schoonmaak

Onverwachte harde herstarts en stroomuitval – op elke schaal – kunnen zowel hardwarefalen als onverwacht gedrag in software veroorzaken. Zoals verwacht zagen we volop van beide.

Hoewel een enkele desktop-pc of laptop wellicht probleemloos kan herstellen van een onverwacht stroomverlies, is dat helaas niet de realiteit binnen de context van een grote datacenterinstallatie. Met duizenden servers en tientallen switches op deze locatie, was het een zorgvuldig proces (goed gedocumenteerd en uitgevoerd) om systemen weer online te brengen, elk van hen te testen op afwijkend gedrag en uiteindelijk de nodige corrigerende maatregelen te nemen.

Hoewel klantgegevens nooit in gevaar zijn geweest, moesten we wel meer dan een paar harde schijven en RAM-sticks vervangen in onze servervloot. De onverwachte stroomonderbreking zorgde er ook voor dat sommige netwerkschakelaars terugvielen op oudere versies van hun firmware, wat upgrades en herstellingen van eerder opgeslagen configuraties noodzakelijk maakte.

Na een lange dag van opruiming en vele uren werk door onze technische teams, konden we eindelijk alle belangrijke systemen als hersteld markeren, en we werkten door tot in de nacht om eventuele andere systemen die aandacht nodig hadden te identificeren en te repareren. We hebben dit incident opgelost om 16:49 op donderdag, net iets minder dan 12 uur vanaf de initiële stroomstoring.

Veel van onze klanten zagen hun diensten binnen een uur volledig hersteld. Anderen moesten veel langer wachten. Het was echt een dag waarop iedereen moest aanpakken in het datacenter, en we waarderen het geduld en de gratie die velen van jullie hebben getoond in jullie berichten aan ons ondersteuningsteam.

Volgende Stappen

We zijn deze week in gesprek met Flexential om te begrijpen waar de storing(en) plaatsvonden en wat hun plannen zijn om dit exacte scenario in de toekomst te voorkomen.

Als je ooit problemen ondervindt met je DreamHost-gehoste sites en vermoedt dat een bredere systeemuitval de oorzaak kan zijn, zorg dan dat https://www.dreamhoststatus.com/ je eerste stop is voor informatie. Updates over onze systeemstatus worden ook gedeeld op @dhstatus op X.

Het Spijt Ons

Als je vorige donderdag door de gebeurtenissen bent getroffen, bieden we je onze oprechte excuses aan.

We beseffen dat je voor DreamHost hebt gekozen, niet voor een datacenter, om jouw betrouwbare online partner te zijn.  Je zou je geen zorgen moeten maken over wie diensten levert aan jouw website “verder stroomopwaarts”.  Hoewel we duidelijkheid wilden bieden over dit voorval, begrijpen we dat de verantwoordelijkheid bij ons ligt.

Het spijt ons zeer voor het enorme ongemak dat dit heeft veroorzaakt voor jouw sites, jouw bedrijven en jouw online reputatie. We zullen alles in ons vermogen doen om ervoor te zorgen dat een dergelijk voorval niet opnieuw plaatsvindt.