In der Nacht vom 9. auf den 10. März ist bei unserem Provider OVH ein Rechenzentrum abgebrannt, wodurch einige unserer Services für etwa 15% unserer Kunden den Tag über temporär nicht erreichbar waren.
Daraufhin haben wir direkt heute Nacht angefangen, alle betroffenen Services auf neue Server umzuziehen, wodurch wir die Downtime so gering wie möglich halten konnten. Über den Tag sind die einzelnen Services ab 10 Uhr sukzessive wieder online gegangen und seit 15:48 Uhr sind alle unsere Services wieder ausnahmslos erreichbar.
Wir sind froh, dass bei diesem Unfall keine Personen zu Schaden gekommen sind und wir bedanken uns bei all unseren Kundinnen und Kunden für das uns entgegengebrachte Verständnis am heutigen Tag. Eine Gefahr für Datenverluste besteht nicht.
In der Historie unten ist nachzuverfolgen, welche Schritte wir wann und wie eingeleitet haben, um die Systeme so schnell wie möglich wieder ans Laufen zu bekommen.
Historie:
Uhrzeit |
Kürzel |
Nachricht |
10.03.21 15:48 |
mw |
Wir sind wieder komplett online. Jetzt bauen wir die Redundanzen weiter auf und beginnen, die Plattformen wieder regulär zu monitoren. Einzelne Plattformen könnten auf Grund von notwendigen DNS-Änderungen sporadisch noch nicht erreichbar sein. Der Grund ist hier die Topologie von DNS. |
10.03.21 15:19 |
mw |
Bis auf eine Ausnahme sind wir wieder zu 100% online. Die letzte Ausnahme wird noch im Laufe des Nachmittags wieder online gehen. |
10.03.21 13:23 |
mw |
Es gibt mittlerweile einen Plan, wie die Rechenzentren SBG1, SBG3, SBG4 und SBG5 wieder ans Netz genommen werden. Laut Aussage des CEOs von OVH gibt es einen Plan für die nächsten 1-2 Wochen: https://twitter.com/olesovhcom/status/1369621032131264514 |
10.03.21 12:17 |
mw |
Laut Aussage vom Hoster OVH kann SBG3 und SBG4, welches nicht vom Brand betroffen ist, wieder online genommen werden. Allerdings gibt es noch keinen Zeithorizont. Wir arbeiten weiter mit Hochdruck daran, Ersatz für die Loadbalancer zu besorgen, die durch den Stromausfall in Folge des Brandes offline sind. |
10.03.21 10:05 |
mw |
Wir haben im Development einen Weg gefunden, die Loadbalancer-APIs auf einem direkteren Wege anzusteuern. Somit kommt nun ein System nach dem Anderen wieder online. Mittlerweile sind von 7 Nodes, die offline waren, 3 wieder online. |
10.03.21 09:13 |
mw |
Dadurch, dass die Loadbalancer-APIs alle überlastet sind, kommt es bei der Einrichtung noch zu Verzögerungen. Vereinzelt sind Systeme aber wieder stabil online. |
10.03.21 08:08 |
mw |
Die Ersatzsysteme sind alle online, die DNS-Einträge der Kundenapplikationen müssen durch die Kunden allerdings umgestellt werden. Wir kommunizieren das granular zum Kunden. |
10.03.21 07:33 |
mw |
SBG1, SBG3 und SBG4 werden laut OVH heute nicht mehr restartet. Quelle: https://twitter.com/olesovhcom/status/1369535787570724864. Somit ist ein Domain-Umzug zwingend notwendig. |
10.03.21 07:10 |
mw |
Es sind beim Hoster sehr viele Services ausgefallen: http://travaux.ovh.net/ Ebenso der IP-Umzug. Wir sprechen die Kunden weiter an und forcieren einen Domain-Umzug |
10.03.21 06:38 |
mw |
Umzug der IP-Adressen dauert derzeit sehr, sehr lange und führt in vielen Fällen zu Fehlern |
10.03.21 06:08 |
ds |
Individuelle Strategien zum Umzug der betroffenen Domains werden gerade kommuniziert |
10.03.21 05:20 |
mw |
Feuer ist gelöscht, keine Menschen zu Schaden gekommen. Datacenter SBG2 ist durch das Feuer zerstört, Datacenter SBG1 teilweise zerstört (Quelle Twitter - CEO von OVH: https://twitter.com/olesovhcom/status/1369478732247932929) |
10.03.21 04:43 |
ds |
5 Ersatzserver wurden in den Datacenters GRA1, RBX5 und WSW1 bestellt |
10.03.21 04:12 |
mw |
Auslösung der erweiterten Kunden-Meldekette |
10.03.21 03:43 |
ds |
Ende Umzug der möglichen Failover-IPs, nicht alle Failover-IPs konnten umgezogen werden, da Fehler beim Provider |
10.03.21 03:15 |
ds |
Beginn des Umzuges der Failover-IPs im Load Balancer |
10.03.21 02:44 |
mw |
Desaster Recovery Plan vollständig in Kraft |
10.03.21 02:24 |
mw |
Isolation der betroffenen Services beendet |
10.03.21 02:20 |
tg |
Benachrichtigung einzelner Kunden mit Load Balancer im betroffenen Datacenter |
10.03.21 02:15 |
mw |
MW und TG wurden in Meldekette benachrichtigt und haben zusammen mit DS erste Services über Failover-Nodes online gebracht |
10.03.21 02:02 |
ds |
Telefonischer Kontakt zum OVH-Support, welche ein größeres Problem in SBG2 beschreiben |
10.03.21 01:45 |
ds |
Registrieren erster Downtimes, prüfen erster Schritte sowie Tickets |