Zurück

Erklärungen zu dem Vorfall der letzten Nacht

on 

Von 2:00 AM bis 09:30 AM MESZ waren GoodBarber und WMaker stark beeinträchtigt.
Unser fünfköpfiges Serverteam (Greg, Pierre-Laurent, Sébastien, Jérôme und Dumè) war die ganze Woche über in Paris, um neue Geräte in einem zweiten Datenzentrum, Global Switch, am Stadtrand von Paris in Betrieb zu nehmen. Dies ist Teil eines Projekts zur Erweiterung unserer Infrastruktur, das seit mehreren Monaten von unserem Technischen Team initiiert wurde und über das wir nach Abschluss der vollständigen Implementierung berichten werden. Diese Maßnahme steht nicht im Zusammenhang mit dem Problem, das wir heute Nacht hatten.

Paradoxerweise hat jedoch die Anwesenheit unserer Ingenieure in Paris unsere Interventionsmöglichkeiten stark eingeschränkt, da sie während des Vorfalls auf dem Rückweg nach Ajaccio waren. Um den Eingriff bei Global Switch durchführen zu können, mussten wir außerdem einen Teil unseres Alarmsystems aussetzen. Dies führte zu einer Zeitauswahl von mehreren Zeitauswahlen, um die Fehlfunktion zu identifizieren. Unsere Kunden im Pazifikraum haben uns über private Nachrichten auf Facebook und Twitter auf das Problem aufmerksam gemacht.

Parallel zu der Intervention bei Global Switch führten wir einen Routinebesuch in unserem Rechenzentrum DC1 durch, das sich im 19. Bei der Inspektion einer Maschine stellten wir fest, dass APC-21, eines der Stromverwaltungssysteme (PDU), eine Fehlfunktion im Bereich des Fernmanagementsystems hatte.

Wir bestellten bei unserem Lieferanten eine neue Hardware und installierten sie, um APC-21 zu ersetzen. Wir schlossen alle Geräte, die von APC-21 versorgt wurden, mit Ausnahme von Switch-Nas11 an die neue Hardware, APC-24, an.

Die PDUs sind Systeme, die so konzipiert sind, dass sie die Maschinen auch dann noch mit Strom versorgen, wenn ihr Managementsystem auf H.S. umgestellt wird. Wenn wir dies getan hätten, hätte dies zu einer erheblichen Downtime geführt. Es kam nicht in Frage, diese Art von Manipulation im Eifer des Gefechts vorzunehmen, ohne den Eingriff zu planen und unsere Nutzer zu informieren.

In der Nacht stellte APC-21 aus bislang unbekannten Gründen die Stromversorgung von switch-nas11 ein. Als der Techniker von OVH kam, um die Stromversorgung von switch-nas11 von APC-21 auf APC-24 umzustellen, bootete der Switch nicht. Es handelt sich um einen Cisco-Switch. Dieses Gerät ist für seine Zuverlässigkeit bekannt. Wir haben noch keine Erklärung für die Fehlfunktion.

Wir wiesen den Techniker an, einen Ersatz-Switch zu verwenden, der im Rack bereitstand. Die Installation dieses Switches verlängerte den Eingriff, da zunächst alle Maschinen neu verdrahtet werden mussten. Als der Backup-Switch eingeschaltet wurde, stellten wir ein Problem mit zwei Netzwerkkarten des Hauptservers (Master Sql) fest. In einem zweiten Schritt mussten wir alle Routingregeln neu schreiben. Es ist sehr wahrscheinlich, dass das Problem mit APC-21 zu den kaskadierenden Ausfällen von switch-nas11 und den beiden Netzwerkkarten geführt hat.

Seit 9:30 Uhr sind alle Dienste wieder in Betrieb. Wenn wir APC-21 gestern Morgen nicht ersetzt hätten, hätte der Ausfall über Nacht noch schlimmere Folgen haben können. Ein großer Teil des Schrankes wäre plötzlich nicht mehr versorgt worden. Dies hätte verheerende Folgen haben können (vorübergehender Datenverlust, ausgefallene Maschinen, ...) und zu einer noch längeren Downtime führen können (Ersatz von Maschinen, Neukonfiguration, Wiederaufnahme von Datenbackups, ...).

Wir werden in den kommenden Wochen einen zusätzlichen Eingriff planen, um den Bestand an Backup-Material im Schrank wieder aufzubauen. Wir werden auch die Gelegenheit nutzen, um den Austausch der Hardware der gleichen Generation, die heute Nacht defekt war, zu planen.