À propos de jeudi dernier…

La semaine dernière, DreamHost a connu une panne système généralisée qui a affecté le service pour un grand nombre de nos clients avec des services hébergés dans notre centre de données “PDX1”. De nombreux systèmes étaient inaccessibles, et moins de la moitié des sites de nos clients ont connu des périodes d’indisponibilité.

Le service a été largement rétabli dans les 12 heures, et maintenant que les choses se sont calmées, nous voulons te fournir une mise à jour sur ce qui s’est passé, pourquoi cela s’est passé, et quels sont nos plans pour éviter que cela se reproduise.

Que S’est-Il Passé ?

En bref : Le matin du jeudi 2 novembre, l’un des centres de données qui héberge un grand nombre de nos serveurs a perdu de l’énergie et ses systèmes de puissance redondants ont échoué.

Cela ne devrait pas être arrivé. Notre centre de données à Hillsboro, Oregon (« PDX1 ») est géré par Flexential, un leader éprouvé dans la construction, la gestion et les opérations de centres de données. Flexential est responsable de fournir de l’énergie à nos serveurs dans cette installation.

À leur crédit, leur plan opérationnel pour faire face aux problèmes d’électricité suit les meilleures pratiques de l’industrie et leurs systèmes d’alimentation redondants sont une composante clé de ce qui est, selon tous les comptes, une installation de pointe. Cependant, comme les événements de la semaine dernière l’ont montré, la réalité d’un événement de panne électrique imprévu peut avoir des implications imprévues et un effet d’entraînement qui peut se répercuter sur Internet.

Systèmes Redondants

Une configuration standard et courante pour la redondance électrique dans la plupart des centres de données consiste à construire deux systèmes d’alimentation entièrement redondants. Chaque système obtient son énergie d’un service public via un chemin redondant unique. Chaque système contient également sa propre banque de UPS (alimentations sans interruption – également connues sous le nom de « batteries de secours ») et une flotte de générateurs diesel est présente sur place pour alimenter l’ensemble de l’installation si nécessaire.

Bien qu’un rapport complet de Flexential soit à venir, ce que nous avons constaté de notre côté était une perte partielle de puissance suivie d’une perte totale de puissance pour notre flotte de serveurs. Nous voulons être clairs – cela aurait dû être une condition « impossible » et nous avions toutes les assurances que c’était le cas, y compris un accord de niveau de service (SLA) de disponibilité de puissance à 100%. Ces systèmes d’alimentation sont testés régulièrement et subissent une maintenance régulière et planifiée pour garantir qu’ils fonctionneront comme prévu.

Lors d’une panne de courant typique dans un centre de données (planifiée ou imprévue), les batteries UPS se déclenchent automatiquement juste assez longtemps pour que l’installation active ses générateurs diesel.

Il n’est pas clair pourquoi ou comment le système UPS a échoué, les générateurs ont échoué, ou comment ces deux systèmes de puissance automatisés, redondants et indépendants ont réussi à échouer de manière si spectaculaire en même temps. Nous pensons que cela a été une combinaison d’une panne de service public ainsi que d’une panne de générateur et d’UPS. Une enquête complète est en cours et nous nous attendons à recevoir les résultats prochainement.

Peu importe la cause, notre priorité durant cet événement était de remettre nos machines en ligne et de restaurer le service pour nos clients.

Notre Réponse

Nous avons été alertés pour la première fois d’une panne à 4h41 heure locale le jeudi 2 novembre, via nos propres outils de surveillance hors site. Nous avons immédiatement dépêché des membres de notre équipe des opérations du centre de données sur le site pour commencer le processus de remise en ligne des services. Nous avons publié un article de statut peu de temps après pour aider les clients à suivre les efforts de restauration des services.

Dès que nous avons pris conscience de l’ampleur de cette panne, toute notre équipe exécutive a été alertée et mise en état d’alerte, tandis que chaque spécialiste de notre équipe d’Infrastructure (tant ceux situés localement au centre de données que ceux travaillant à distance) a été mobilisé pour remettre les systèmes en ligne.

À un certain moment lors de cette réponse, le système de contrôle d’accès du bâtiment a également perdu de l’énergie, ce qui a rendu un peu difficile pour notre équipe d’entrer. Lorsque l’énergie a finalement été entièrement restaurée dans notre partie du centre de données à 6h08, la redondance que nous avions intégrée à notre propre infrastructure énergétique interne a fonctionné comme prévu et attendu.

Le Nettoyage

Les redémarrages durs inattendus et les pertes de puissance – à n’importe quelle échelle – peuvent provoquer des pannes matérielles ainsi que des comportements inattendus dans les logiciels. Comme prévu, nous avons observé les deux.

Alors qu’un seul ordinateur de bureau ou ordinateur portable peut se remettre élégamment d’une perte de courant inattendue, ce n’est malheureusement pas la réalité dans le contexte d’une grande installation de centre de données. Avec des milliers de serveurs et des dizaines de commutateurs installés à cet endroit, c’était un processus soigneux (bien documenté et exécuté) pour remettre les systèmes en ligne, tester chacun d’eux pour un comportement anormal, et finalement prendre les mesures correctives nécessaires.

Bien que aucune donnée client n’ait jamais été menacée, nous avons dû remplacer plusieurs disques durs et barrettes de RAM dans notre flotte de serveurs. La coupure de courant inattendue a également provoqué le retour à des versions antérieures du firmware de certains commutateurs réseau, nécessitant des mises à jour et des restaurations à partir de configurations précédemment enregistrées.

Après une longue journée de nettoyage et de nombreuses heures de travail de nos équipes techniques, nous avons finalement pu marquer tous les systèmes principaux comme restaurés, et nous avons continué à travailler dans la nuit pour identifier et réparer tout système supplémentaire nécessitant de l’attention. Nous avons résolu cet incident à 16h49 le jeudi, juste moins de 12 heures après la perturbation initiale de l’alimentation.

De nombreux clients ont vu leur service entièrement rétabli en moins d’une heure. D’autres ont dû attendre beaucoup plus longtemps. C’était véritablement une journée où tout le monde a mis la main à la pâte dans le centre de données, et nous apprécions la patience et la compréhension que beaucoup d’entre vous ont montrées dans vos messages à notre équipe de Support.

Prochaines Étapes

Nous sommes en conversation avec Flexential cette semaine pour comprendre où les défaillances ont eu lieu et quelles sont leurs plans pour éviter que ce scénario exact se reproduise à l’avenir.

Si tu rencontres des problèmes avec tes sites hébergés par DreamHost et que tu soupçonnes une panne de système plus large, assure-toi de faire de https://www.dreamhoststatus.com/ ton premier arrêt pour les informations. Les mises à jour sur notre état de système sont également publiées sur @dhstatus sur X.

Nous sommes désolés

Si tu as été impacté par les événements de jeudi dernier, nous te présentons nos sincères excuses.

Nous réalisons que tu as choisi DreamHost, et non un centre de données, pour être ton partenaire en ligne de confiance. Tu ne devrais pas avoir à te soucier de qui fournit des services à ton site web « plus en amont ». Bien que nous voulions apporter de la clarté sur cet événement, nous comprenons que la responsabilité s’arrête chez nous.

Nous sommes désolés pour le désagrément total que cela a causé à vos sites, à vos entreprises et à votre réputation en ligne. Nous ferons tout ce qui est en notre pouvoir pour garantir qu’un tel événement ne se reproduise pas.