Unternehmen

Weitere Zusammenarbeit mit OVH wird geprüft

Am 10.03.2021 kam es bei unserem Hosting-Provider OVH zu einem Brand im Rechenzentrum am Standort Straßburg, wo wir einen Teil der easy.CLOUD hosten. Die easy Marketing GmbH wird die weitere Zusammenarbeit mit OVH prüfen.

Markus Wigbels
Geschäftsführer
veröffentlicht am 17.03.2021

Am 10.03.2021 kam es bei unserem Hosting-Provider OVH zu einem Brand im Rechenzentrum am Standort Straßburg, wo wir einen Teil der easy.CLOUD hosten. Die easy Marketing GmbH wird die weitere Zusammenarbeit mit OVH prüfen.

Der Brand brach um 1:45 Uhr aus und endete gegen 5 Uhr morgens mit der völligen Zerstörung des Rechenzentrums SBG2. In Folge des Brandes und der Brandlöscharbeiten war es für die Feuerwehr notwendig, den kompletten Standort Straßburg versorgungslos zu schalten. Kurz nach Ausbruch des Brandes wurde daraufhin sämtliche Strom- und Netzwerkinfrastruktur am gesamten Standort abgeschaltet.

Im betroffenen Rechenzentrum SBG2 waren sieben Server der easy.CLOUD gehostet. Diese sind durch den Brand völlig zerstört worden. Im benachbarten Rechenzentrum SBG3 liegen drei weitere Server, die zwar unbeschädigt, aber durch die Sicherheitsmaßnahmen voraussichtlich bis zum 22.03.2021 netzwerk- und stromlos geschaltet sind. 

Daten- und Ausfallsicherheit unserer Dienste

Durch unsere mehrfach redundant ausgelegte Plattform-Infrastruktur ist es zu keinerlei Datenverlust gekommen. Gemäß unserer Tier-3-Philosophie ist jeder Kunde zwar dediziert, aber in mindestens zwei deutlich räumlich getrennten und auch netzwerkredundanten Rechenzentren gehostet. Kunden in SBG2 sind beispielsweise ebenso am OVH-Standort RBX4 in Roubaix gehostet. Durch das Netzwerk-Peering bei OVH sind trotz der Entfernung von über 500 Kilometern sehr gute Echtzeit-Replikationen der Plattformen möglich. 

Zusätzlich zur Live-Redundanz wird in einem dritten Rechenzentrum, in LIM1 (Limburg bei Frankfurt), einmal täglich um 2 Uhr nachts in der traffic-armen Zeit ein Full-Backup aller Daten angelegt. Zusätzlich legen wir einmal im Monat im easy.HEADQUARTER in Dortmund ein weiteres Full-Backup an. Die Daten liegen bei uns verschlüsselt auf einem NAS-System in einem Brandschutztresor. Die Daten sind also zu jederzeit sicher. 

Netzwerkstörung durch Stromabschaltung

Da die Feuerwehren der Präfektur Bas-Rhin und des Bundeslandes Baden-Württemberg für den Personen- und Gebäudeschutz während der Löscharbeiten allerdings den kompletten Standort Straßburg stromlos geschaltet haben, kam es zusätzlich zum Brand zu einer Netzwerkstörung. Das betraf 15% aller durch uns bei OVH gemieteten IP-Adressen und Load Balancer. Die Netzwerk-Infrastruktur steht dabei in Straßburg ein Stück weit von den Servern entfernt und ist dreifach strom- und netzwerkredundant ausgelegt. 

Durch die Abschaltung mussten wir schnell eingreifen. Wir haben bei 5 unserer Kunden direkt einen IP-Wechsel in der Domain vorgenommen, um möglichst schnell wieder online zu kommen. Da zu der Zeit nicht absehbar war, wann das OVH-Netzwerk wieder online geschaltet wird, hatten wir uns zu diesem Schritt entschieden. So konnten wir die Plattformen pragmatisch und schnell wieder in einen voll funktionierenden Zustand versetzen. Das war in großen Teilen bereits um 9:30 morgens am selben Tag umgesetzt, in kleinen Teilen etwas später.

 Auslösung der Meldekette und Maßnahmen

Der Vorfall wurde um 1:45 Uhr bereits sehr zeitnah durch unser Administratoren-Team festgestellt. Durch den Ausfall der Plattformen um 1:42 Uhr wurde die Meldekette in Alarmbereitschaft versetzt und der bereitschaftshabende Systemadministrator erfolgreich alarmiert. Durch die transparente Kommunikation durch den Hoster OVH wurde kurz danach auch schon die Geschäftsführung alarmiert, die ebenso ein Bestandteil in der Meldekette ist. 

Um 2:20 Uhr wurde mit der Benachrichtigung der Kunden zum Domainumzug für die betroffenen IPs und Load Balancer begonnen. Da das Frontend zum Umzug möglicher Floating-IPs nicht verfügbar ist, wurde eine Ersatzlösung über APIs erstellt, die bis 3:43 Uhr morgens umgezogen wurden. Es konnte allerdings nicht jede IP umgezogen werden. 

Um 4:43 Uhr wurde mit der Bestellung und Einrichtung von Ersatzservern an anderen Standorten (Roubaix, Warschau und Gravelines) begonnen, um fehlende Redundanzen direkt zu ersetzen.  

Gleichzeitig wurde gegen 4:30 Uhr mit der Auslösung der erweiterten Kundenmeldekette für die betroffenen Services begonnen, um den Vorfall möglichst transparent zu kommunizieren. 

Um 5:20 Uhr war das Feuer laut OVH-Meldung dann vollständig gelöscht. Glücklicherweise sind bei diesem Unglück keine Menschen zu Schaden kommen. Dafür ist aber die gesamte technische Infrastruktur in SBG2 – inklusive Servern, unterbrechungsfreier Stromversorgung sowie den Netzwerkräumen von SBG2 und SGB1 – den Flammen zum Opfer gefallen.  

Da die Prüfung der Redundanzen unser easy.SERVICES zwischen 4:00 Uhr und 6:00 Uhr keine Auffälligkeiten aufgezeigt hatten, wurden bis 11 Uhr morgens gemeinsam mit unseren Kunden die Domains umgezogen. Dass das so schnell funktionierte, haben wir unseren Kunden zu verdanken. Ab Mittag waren sämtliche Services dann wieder verfügbar. Weitere Nacharbeiten, gerade im Processing-Bereich, haben wir sofort begonnen. 

Am 14.03.2021 um 16:58 haben wir den Incident dann als abgeschlossen angesehen. 

Schlussfolgerung

Um die Tragweite und die Schlüsse aus dem Brand zu bewerten, ist es derzeit noch zu früh. Wir sehen OVH bisher als sehr professionellen und kompetenten Partner an, der uns eine extrem zuverlässige Hardware anbietet. Tests mit anderen Hostern in anderen Rechenzentren haben nicht annähernd die Zuverlässigkeit, Bandbreite und den Service geboten, den uns OVH bereitstellt. Im Sinne unserer Kunden prüfen wir immer wieder andere Lösungen, aber bis zu diesem Vorfall stand OVH bei uns aus vielen Gründen stets an der Spitze. In 8 Jahren haben wir nur 11 generelle Supportanfragen stellen müssen – bei über 70 von uns in Anspruch genommenen Services. Einige unserer OVH-Server laufen bereits seit 7 Jahren. OVH hat ein sehr zuverlässiges Interface, besitzt eine vollumfängliche API zum Steuern unserer Cloudserver und gibt sich bei Neuerungen und Vorschlägen immer innovativ. 

Dennoch sehen wir es als unsere Pflicht an zu hinterfragen, was genau zu diesem Brand geführt hat. Statements des OVH-Inhabers, Octave Klaba, suggerieren einen Brand in einer USV, die einen Tag zuvor umfangreich durch einen OVH-externen Dienstleister gewartet wurde. Die genaue Ermittlung der Brandursache dauert aber noch an.  

Wir tun alles dafür, unsere Services größtmöglich online zu behalten und immer den besten Dienstleister für das Hosting zu wählen. Die Kriterien sind dabei neben Datensicherheit auch Zuverlässigkeit, Support, Innovation und Netzwerklatenz. Das sehen wir bei OVH bisher alles gegeben. Dennoch werden wir prüfen, ob und was wir noch verbessern können, um solche Probleme in Zukunft zu umgehen. Wir prüfen derzeit das Hosten der Netzwerk-Infrastruktur bei einem anderen Dienstleister, um nach Tier-4 im Falle eines größeren Incidents auf einen anderen Provider ausweichen zu können. Hierbei sind jedoch einige Dinge zu prüfen: Zum Beispiel die Kompatibilität zur DSGVO (Privacy Shield) oder die möglichen Beeinflussungen im Tracking (A-Record in Domains vs CNAME oder Anycast-IPs in Domains). Sollten sich Änderungen in der Plattformstruktur ergeben, werden wir Sie darüber informieren. 

In Vertretung für das gesamte easy.TEAM:

Markus Wigbels, Geschäftsführer
Daniel Steinweg, Head of IT-Operations