Unternehmen

Alle easy.SERVICES wieder erreichbar

Nach einem Brand in einem Rechenzentrum waren wenige unserer Services für etwa 15% unserer Kunden vorrübergehend nicht erreichbar. Seit 15:48 Uhr sind unsere Dienste ohne Ausnahme wieder nutzbar.

Kevin Lenk
Head of Social Media & Content Creation
veröffentlicht am 10.03.2021

In der Nacht vom 9. auf den 10. März ist bei unserem Provider OVH ein Rechenzentrum abgebrannt, wodurch einige unserer Services für etwa 15% unserer Kunden den Tag über temporär nicht erreichbar waren. 

Daraufhin haben wir direkt heute Nacht angefangen, alle betroffenen Services auf neue Server umzuziehen, wodurch wir die Downtime so gering wie möglich halten konnten. Über den Tag sind die einzelnen Services ab 10 Uhr sukzessive wieder online gegangen und seit 15:48 Uhr sind alle unsere Services wieder ausnahmslos erreichbar.

Wir sind froh, dass bei diesem Unfall keine Personen zu Schaden gekommen sind und wir bedanken uns bei all unseren Kundinnen und Kunden für das uns entgegengebrachte Verständnis am heutigen Tag. Eine Gefahr für Datenverluste besteht nicht.

In der Historie unten ist nachzuverfolgen, welche Schritte wir wann und wie eingeleitet haben, um die Systeme so schnell wie möglich wieder ans Laufen zu bekommen.

Historie:

Uhrzeit

Kürzel

Nachricht

10.03.21 15:48

mw

Wir sind wieder komplett online. Jetzt bauen wir die Redundanzen weiter auf und beginnen, die Plattformen wieder regulär zu monitoren. Einzelne Plattformen könnten auf Grund von notwendigen DNS-Änderungen sporadisch noch nicht erreichbar sein. Der Grund ist hier die Topologie von DNS.

10.03.21 15:19

mw

Bis auf eine Ausnahme sind wir wieder zu 100% online. Die letzte Ausnahme wird noch im Laufe des Nachmittags wieder online gehen. 

10.03.21 13:23

mw

Es gibt mittlerweile einen Plan, wie die Rechenzentren SBG1, SBG3, SBG4 und SBG5 wieder ans Netz genommen werden. Laut Aussage des CEOs von OVH gibt es einen Plan für die nächsten 1-2 Wochen: https://twitter.com/olesovhcom/status/1369621032131264514

10.03.21 12:17

mw

Laut Aussage vom Hoster OVH kann SBG3 und SBG4, welches nicht vom Brand betroffen ist, wieder online genommen werden. Allerdings gibt es noch keinen Zeithorizont. Wir arbeiten weiter mit Hochdruck daran, Ersatz für die Loadbalancer zu besorgen, die durch den Stromausfall in Folge des Brandes offline sind.

10.03.21 10:05

mw

Wir haben im Development einen Weg gefunden, die Loadbalancer-APIs auf einem direkteren Wege anzusteuern. Somit kommt nun ein System nach dem Anderen wieder online. Mittlerweile sind von 7 Nodes, die offline waren, 3 wieder online. 

10.03.21 09:13

mw

Dadurch, dass die Loadbalancer-APIs alle überlastet sind, kommt es bei der Einrichtung noch zu Verzögerungen. Vereinzelt sind Systeme aber wieder stabil online. 

10.03.21 08:08

mw

Die Ersatzsysteme sind alle online, die DNS-Einträge der Kundenapplikationen müssen durch die Kunden allerdings umgestellt werden. Wir kommunizieren das granular zum Kunden.

10.03.21 07:33

mw

SBG1, SBG3 und SBG4 werden laut OVH heute nicht mehr restartet. Quelle: https://twitter.com/olesovhcom/status/1369535787570724864. Somit ist ein Domain-Umzug zwingend notwendig.

10.03.21 07:10

mw

Es sind beim Hoster sehr viele Services ausgefallen: http://travaux.ovh.net/ Ebenso der IP-Umzug. Wir sprechen die Kunden weiter an und forcieren einen Domain-Umzug

10.03.21 06:38

mw

Umzug der IP-Adressen dauert derzeit sehr, sehr lange und führt in vielen Fällen zu Fehlern

10.03.21 06:08

ds

Individuelle Strategien zum Umzug der betroffenen Domains werden gerade kommuniziert

10.03.21 05:20

mw

Feuer ist gelöscht, keine Menschen zu Schaden gekommen. Datacenter SBG2 ist durch das Feuer zerstört, Datacenter SBG1 teilweise zerstört (Quelle Twitter - CEO von OVH: https://twitter.com/olesovhcom/status/1369478732247932929)

10.03.21 04:43

ds

5 Ersatzserver wurden in den Datacenters GRA1, RBX5 und WSW1 bestellt

10.03.21 04:12

mw

Auslösung der erweiterten Kunden-Meldekette

10.03.21 03:43

ds

Ende Umzug der möglichen Failover-IPs, nicht alle Failover-IPs konnten umgezogen werden, da Fehler beim Provider

10.03.21 03:15

ds

Beginn des Umzuges der Failover-IPs im Load Balancer

10.03.21 02:44

mw

Desaster Recovery Plan vollständig in Kraft

10.03.21 02:24

mw

Isolation der betroffenen Services beendet

10.03.21 02:20

tg

Benachrichtigung einzelner Kunden mit Load Balancer im betroffenen Datacenter

10.03.21 02:15

mw

MW und TG wurden in Meldekette benachrichtigt und haben zusammen mit DS erste Services über Failover-Nodes online gebracht

10.03.21 02:02

ds

Telefonischer Kontakt zum OVH-Support, welche ein größeres Problem in SBG2 beschreiben

10.03.21 01:45

ds

Registrieren erster Downtimes, prüfen erster Schritte sowie Tickets