Annunci

A Proposito di Giovedì Scorso…

A Proposito di Giovedì Scorso…

La settimana scorsa DreamHost ha riscontrato un’interruzione generalizzata del sistema che ha impattato il servizio per un grande numero dei nostri clienti con servizi ospitati nel nostro data center “PDX1”. Molti dei nostri sistemi erano irraggiungibili e meno della metà dei siti dei nostri clienti ha sperimentato periodi di inattività.

Il servizio è stato ripristinato in gran parte entro 12 ore e ora che la situazione si è stabilizzata, volevamo fornirti un aggiornamento su cosa è successo, perché è successo e quali sono i nostri piani per evitarne il ripetersi.

Cosa È Successo?

In breve: La mattina di giovedì 2 novembre, uno dei data center che ospita un grande numero dei nostri server ha perso alimentazione e i suoi sistemi di alimentazione ridondanti non hanno funzionato.

Questo non avrebbe dovuto accadere. Il nostro Data Center a Hillsboro, Oregon (“PDX1”) è gestito da Flexential, un leader comprovato nella costruzione, gestione e operazioni di Data Center. Flexential è responsabile della fornitura di energia ai nostri server in questo impianto.

A loro merito, il loro piano operativo per gestire i problemi di alimentazione segue le migliori pratiche del settore e i loro sistemi di alimentazione ridondanti sono un elemento chiave di quello che è, secondo tutti i conti, un impianto all’avanguardia. Tuttavia, come hanno dimostrato gli eventi della scorsa settimana, la realtà di un evento di interruzione di corrente imprevisto può avere implicazioni impreviste e un effetto a catena che può riverberarsi in tutto Internet.

Sistemi Ridondanti

Una configurazione standard e comune per la ridondanza di alimentazione nei data center è quella di costruire due sistemi di alimentazione completamente ridondanti. Ogni sistema ottiene la sua energia da un’utilità tramite un percorso ridondante unico. Ogni sistema contiene anche una propria banca di UPS (alimentatori ininterrotti – noti anche come “batterie di emergenza”) e una flotta di generatori diesel è presente in loco per alimentare l’intero impianto se necessario.

Mentre è in arrivo un rapporto completo da Flexential, quello che abbiamo osservato da parte nostra è stata una perdita parziale di energia seguita da una perdita completa di energia per la nostra flotta di server. Vogliamo essere chiari – questa avrebbe dovuto essere una condizione “impossibile” e avevamo tutte le garanzie che lo fosse, inclusa una garanzia di disponibilità energetica del 100% (SLA). Questi sistemi energetici vengono testati regolarmente e sottoposti a manutenzione programmata regolare per assicurare che funzionino come previsto.

Durante un tipico blackout del data center (pianificato o non pianificato), le batterie UPS entrano in azione automaticamente giusto il tempo necessario per attivare i generatori alimentati a diesel della struttura.

Non è chiaro perché o come il sistema UPS sia fallito, i generatori abbiano fallito, o come entrambi questi sistemi di alimentazione automatici, ridondanti e indipendenti siano riusciti a fallire così spettacolarmente allo stesso tempo. Crediamo che ciò sia stato il risultato di un guasto della rete elettrica così come di un fallimento del generatore e dell’UPS. È in corso un’indagine completa e ci aspettiamo di ricevere i risultati a breve.

Indipendentemente dalla causa, il nostro obiettivo e la nostra priorità durante questo evento era riattivare le nostre macchine e ripristinare il servizio per i nostri clienti.

La Nostra Risposta

Siamo stati allertati per la prima volta a un’interruzione alle 4:41 del mattino ora locale di giovedì 2 novembre, tramite i nostri strumenti di monitoraggio esterni. Abbiamo immediatamente inviato membri del nostro team di operazioni del Data Center presso l’impianto per iniziare il processo di ripristino dei servizi. Abbiamo pubblicato un post di stato poco dopo per aiutare i clienti a seguire gli sforzi di ripristino del servizio.

Una volta resoci conto dell’intera portata di questo guasto, tutto il nostro team esecutivo è stato contattato e messo in allerta, mentre ogni specialista del nostro team di Infrastruttura (sia quelli locali al data center che quelli che lavorano da remoto) è stato coinvolto per riattivare i sistemi.

In un certo momento durante questa risposta, anche il sistema di controllo accessi dell’edificio ha perso energia, rendendo un po’ difficile per il nostro team accedere. Quando l’energia è stata finalmente ripristinata completamente alla nostra parte del datacenter alle 6:08 del mattino, la ridondanza che avevamo integrato nella nostra infrastruttura energetica interna ha funzionato come previsto e come progettato.

La Pulizia

Riavvii improvvisi e interruzioni di corrente – a qualsiasi livello – possono causare sia guasti hardware che comportamenti imprevisti nel software. Come previsto, abbiamo assistito a entrambi i fenomeni.

Sebbene un singolo PC desktop o laptop possa recuperare con grazia da una perdita di energia improvvisa, sfortunatamente questa non è la realtà nel contesto di un’installazione di un grande Data Center. Con migliaia di server e decine di switch installati in questa località, è stato un processo accurato (ben documentato ed eseguito) per riportare i sistemi online, testare ciascuno di essi per comportamenti anomali e, infine, prendere le azioni correttive necessarie.

Anche se nessun dato cliente è mai stato a rischio, abbiamo dovuto sostituire più di qualche hard disk e modulo di RAM nel nostro parco server. Il taglio di corrente improvviso ha anche causato il ritorno di alcuni switch di rete a versioni più vecchie del loro firmware, richiedendo aggiornamenti e ripristini da configurazioni precedentemente salvate.

Dopo una lunga giornata di pulizia e molte ore di lavoro da parte dei nostri team tecnici, siamo finalmente riusciti a segnalare tutti i principali sistemi come ripristinati e abbiamo continuato a lavorare durante la notte per identificare e riparare eventuali sistemi aggiuntivi che necessitavano di attenzione. Abbiamo risolto questo incidente alle 16:49 di giovedì, poco meno di 12 ore dall’inizio dell’interruzione di corrente.

Molti dei nostri clienti hanno visto il servizio completamente ripristinato in meno di un’ora. Altri hanno dovuto attendere molto più tempo. È stata veramente una giornata di massimo impegno per noi nel Data Center, e apprezziamo la pazienza e la cortesia che molti di voi hanno dimostrato nei vostri messaggi al nostro team di supporto.

Prossimi Passi

Siamo in conversazione con Flexential questa settimana per capire dove sono avvenuti i guasti e quali sono i loro piani per evitare che questo scenario si verifichi in futuro.

Se mai dovessi riscontrare problemi con i tuoi siti ospitati da DreamHost e sospetti che la causa possa essere un’interruzione più ampia del sistema, assicurati di fare di https://www.dreamhoststatus.com/ la tua prima tappa per informazioni. Gli aggiornamenti sullo stato del nostro sistema sono anche pubblicati su @dhstatus su X.

Ci Dispiace

Se sei stato colpito dagli eventi dello scorso giovedì, accetta le nostre sincere scuse.

Ci rendiamo conto che hai scelto DreamHost, non un data center, per essere il tuo partner online di fiducia.  Non dovresti preoccuparti di chi fornisce servizi al tuo sito web “più a monte”.  Anche se volevamo fornire chiarezza su questo evento, comprendiamo che la responsabilità finale è nostra.

Ci scusiamo per l’assoluto disagio che questo ha causato ai tuoi siti, alle tue attività e alla tua reputazione online. Faremo tutto il possibile per assicurarci che un evento del genere non si ripeta.