VNX-Ausfall sorgt für fünf Tage IT-Chaos in Schweden

18.01.2012 ubr

VNX-Ausfall sorgt für fünf Tage IT-Chaos in Schweden

Aus dem Tal der Leidenden: Der schwedische Telko-Anbieter Tieto erlitt mit seiner VNX-Lösung von EMC Schiffbruch und sorgte für fünf Tage lang andauerndes IT-Chaos bei mehreren Kunden. Fragwürdig ist hierbei aber nicht nur die EMC-Leistung, sondern die Strategie des Telko-Anbieters und seiner Kunden.

Es ist ja oft so, dass man von den Ausfällen eingesetzter Systeme kaum etwas mitbekommt. Mit der Presse will in einem solchen Fall sowieso keiner reden. Der Leidensdruck in diesem Fall muss aber so groß gewesen sein, dass es doch bekannt wurde. Bereits am 25.11.2011 fiel ein EMC VNX-System beim schwedischen Telko-Anbieter Tieto aus, was zur Folge hatte, dass eine Bank, eine Apotheke, Webseiten mehrerer Schulen und des TÜV für mehrere Tage ausfielen, ebenso die Webseiten verschiedener Kommunen.

Das Debakel begann mit dem Ausfall der VNX beim Provider, der Cache fiel aus und die originalen Daten auf den Festplatten wurden korrumpiert, genauso wie die Kopie der Daten. Eine gut informierte Quelle erklärte, dass ein Legato Networker Backup von virtuellen Maschinen auf Bandmedien nicht mehr lesbar war. Das rührt daher, dass die Version des eingesetzten Legato Networker nicht kompatibel mit Windows 2008 R2 ist. Aus diesem Grund konnte Tieto das Backup von Band auf die virtuellen Server zurücklesen. Schwedische Medien berichteten, dass ein Upgrade für den Cache der NS480 schief ging. Wir vermuten, dass dies online versucht wurde, wofür das Ganze nicht wirklich ausgelegt ist. Besser ist es immer noch, das System auszuschalten, zumindest, wenn es um den Cache – sprich Hauptspeicher – geht

Das führte dazu, dass sich Fahrzeughalter nicht beim TÜV registrieren konnten, medizinische Rezepte nicht abgearbeitet werden konnten, ebenso waren andere IT-, Kommunal-, Universitäts- und Schulseiten paralysiert. Weder EMC noch Tieto wollten (natürlich) den Sachverhalt kommentieren.

Dafür meldete sich ein anderer Leidtragender zu Wort. Bo Andersson, CIO der SBAB Bank, die stark betroffen war, äußerte seinen Unmut: »Sie müssen die Tragweite dieses Ausfalls verstehen«, sagte Anderson. »Eine Stunde offline zu sein, ist schon schlimm; vier Stunden Ausfall ist eine Katastrophe für uns. Eigentlich müsste ein Notfall-Plan greifen. Aber nach Hundert Stunden Stillstand, finde ich keine Worte mehr.«

Hier sei ein Einschub erlaubt. Die Bank hatte einen Vertrag mit Tieto abgeschlossen, der ihnen 99,8 Prozent Verfügbarkeit garantiert. Wer rechnen kann, dem fällt auf, dass hierbei ein Tag – ein ganzer 24-Stunden-Tag – Ausfall verschmerzbar ist. Natürlich keine hundert Stunden, aber seien wir mal ehrlich: ein Tag Ausfall für eine Bank ist nicht akzeptabel. Da hätte man sich bei Tieto schon mit Redundanzen absichern müssen. Das gleiche gilt übrigens für das Rechenzentrum Tietos. Ich war der Überzeugung, dass gerade Telko-Anbieter irgendwo ein zweites Rechenzentrum stehen haben, zu dem dann ein Schwenk erfolgt, wenn die Kacke am Dampfen ist. Das soll nicht vom Ausfall der EMC VNX ablenken, es soll nur verdeutlichen, dass wir noch meilenweit entfernt sind von wirklich sicheren Cloud-Angeboten.

Und so muss EMC bei seiner Unified-Lösung ebenso Hausaufgaben machen wie Tieto bei seinen Absicherungen und Backups oder die Kunden bei ihren Sicherungs- bzw. Ausfall-Strategien. Hier hat sich keiner der beteiligten mit Ruhm bekleckert, auch nicht die Leidtragenden.

In diesem Sinne,
mit sicher, vierfach daheim gespeicherten Grüßen,
Ulrike Rieß.