Die Storage-Blogisten
SSDs im Feldversuch

SSDs im Feldversuch Fünf Mitglieder des Redaktions-Teams statten ihren Produktiv-PC und ihre Notebooks mit einer SSD bzw. einer Hybrid-Disk aus. In der Praxis müssen die Produkte in verschiedenen Systemen bestehen und die unterschiedlichen Erwartungen an die neue Technik erfüllen.

Chef Blog

Chef Impressionen aus dem Redaktionsalltag und subjektive Randbetrachtungen der IT- und Storage-Branche.

Ulrikes Blog

Ulrike Aus der Storage-Welt.

Engelberts Blog

Engelbert Storage ist Vieles - aber nicht alles. Es gibt noch Security, Netzwerke, Displays, Drucker, Autos, Frauen, Politiker, Kies - kurz: ein Leben neben den elektronischen Daten.

Hubert Speicherwischer

Hubert Es heißt ja, dass wir angeblich ja nur 10% unseres geistigen Potenzials nutzen. Interessant wäre, wer das denn wie herausgefunden hat? Und vor allem: Was machen wir mit den restlichen 90%? Auf jeden Fall scheinen wir im Kopf genug Speicher zu haben, es hapert lediglich am Speichermanagement?

IT & Co

In diesem Blog berichtet das Team von speicherguide.de von den Erlebnissen und Erfahrungen aus den Bereichen Business- und Heimelektronik, Software und Telekommunikation. Kurz gesagt, über alles was nicht primär mit Speicher zu tun hat, uns aber trotzdem erfreut oder nervt ...

18.01.2012 (ubr) Drucken
(4.7 von 5)

VNX-Ausfall sorgt für fünf Tage IT-Chaos in Schweden

Aus dem Tal der Leidenden: Der schwedische Telko-Anbieter Tieto erlitt mit seiner VNX-Lösung von EMC Schiffbruch und sorgte für fünf Tage lang andauerndes IT-Chaos bei mehreren Kunden. Fragwürdig ist hierbei aber nicht nur die EMC-Leistung, sondern die Strategie des Telko-Anbieters und seiner Kunden.

Es ist ja oft so, dass man von den Ausfällen eingesetzter Systeme kaum etwas mitbekommt. Mit der Presse will in einem solchen Fall sowieso keiner reden. Der Leidensdruck in diesem Fall muss aber so groß gewesen sein, dass es doch bekannt wurde. Bereits am 25.11.2011 fiel ein EMC VNX-System beim schwedischen Telko-Anbieter Tieto aus, was zur Folge hatte, dass eine Bank, eine Apotheke, Webseiten mehrerer Schulen und des TÜV für mehrere Tage ausfielen, ebenso die Webseiten verschiedener Kommunen.

Das Debakel begann mit dem Ausfall der VNX beim Provider, der Cache fiel aus und die originalen Daten auf den Festplatten wurden korrumpiert, genauso wie die Kopie der Daten. Eine gut informierte Quelle erklärte, dass ein Legato Networker Backup von virtuellen Maschinen auf Bandmedien nicht mehr lesbar war. Das rührt daher, dass die Version des eingesetzten Legato Networker nicht kompatibel mit Windows 2008 R2 ist. Aus diesem Grund konnte Tieto das Backup von Band auf die virtuellen Server zurücklesen. Schwedische Medien berichteten, dass ein Upgrade für den Cache der NS480 schief ging. Wir vermuten, dass dies online versucht wurde, wofür das Ganze  nicht wirklich ausgelegt ist. Besser ist es immer noch, das System auszuschalten, zumindest, wenn es um den Cache – sprich Hauptspeicher – geht

Das führte dazu, dass sich Fahrzeughalter nicht beim TÜV registrieren konnten, medizinische Rezepte nicht abgearbeitet werden konnten, ebenso waren andere IT-, Kommunal-, Universitäts- und Schulseiten paralysiert. Weder EMC noch Tieto wollten (natürlich) den Sachverhalt kommentieren.

Dafür meldete sich ein anderer Leidtragender zu Wort. Bo Andersson, CIO der SBAB Bank, die stark betroffen war, äußerte seinen Unmut: »Sie müssen die Tragweite dieses Ausfalls verstehen«, sagte Anderson. »Eine Stunde offline zu sein, ist schon schlimm; vier Stunden Ausfall ist eine Katastrophe für uns. Eigentlich müsste ein Notfall-Plan greifen. Aber nach Hundert Stunden Stillstand, finde ich keine Worte mehr.«

Hier sei ein Einschub erlaubt. Die Bank hatte einen Vertrag mit Tieto abgeschlossen, der ihnen 99,8 Prozent Verfügbarkeit garantiert. Wer rechnen kann, dem fällt auf, dass hierbei ein Tag – ein ganzer 24-Stunden-Tag – Ausfall verschmerzbar ist. Natürlich keine hundert Stunden, aber seien wir mal ehrlich: ein Tag Ausfall für eine Bank ist nicht akzeptabel. Da hätte man sich bei Tieto schon mit Redundanzen absichern müssen. Das gleiche gilt übrigens für das Rechenzentrum Tietos. Ich war der Überzeugung, dass gerade Telko-Anbieter irgendwo ein zweites Rechenzentrum stehen haben, zu dem dann ein Schwenk erfolgt, wenn die Kacke am Dampfen ist. Das soll nicht vom Ausfall der EMC VNX ablenken, es soll nur verdeutlichen, dass wir noch meilenweit entfernt sind von wirklich sicheren Cloud-Angeboten.

Und so muss EMC bei seiner Unified-Lösung ebenso Hausaufgaben machen wie Tieto bei seinen Absicherungen und Backups oder die Kunden bei ihren Sicherungs- bzw. Ausfall-Strategien. Hier hat sich keiner der beteiligten mit Ruhm bekleckert, auch nicht die Leidtragenden.

In diesem Sinne,
mit sicher, vierfach daheim gespeicherten Grüßen,
Ulrike Rieß. Kommentare:
20.01.2012 - justbond

Wie heißts so schön in manchen Rechenzentren: Backup ist was für Mädchen, Recovery ist was für Männer. Würde sagen: Da ist wohl beides in Schweden eingetroffen.... :(

19.01.2012 - Joe Storage

Wie Frau Rieß schon sehr richtig schreibt - niemand hat sich in dieser Situation mit Ruhm bekleckert. Nicht eine Bank, die allen Ernstes für ihre Daten lediglich 99,8 Prozent Verfügbarkeit geordert hat. Und dann, wenn der höchstwahrscheinlich nach dem billigsten - nicht preiswertesten - Anbieter eingekaufte Speicher verwunderlicherweise länger steht als vermutet, noch nicht einmal einen Notfallplan mit Schwenk in ein anderes RZ oder andere primitivste Maßnahmen vorweisen kann. Und nicht der Outsourcing-Anbieter, der offensichtlich noch nie die vorhandene Sicherungssoftware getestet hat. Wie anders wäre es zu erklären, daß erst im K-Fall offensichtlich wird, daß bestimmte Versionen nicht zueinander passen? Hier hat niemand seine Hausaufgaben gemacht, also sollte sich auch niemand allzu weit mit weinerlichen Äußerungen aus dem Fenster hängen. Daß ein Array bei was für einem Upgrade auch immer ausfällt, damit muß man als RZ-Betreiber rechnen. Daß ein solcher Ausfall zu solch desaströsen Zuständen führt, ist vor allem für den IT-Anbieter peinlich.

18.01.2012 - Bombastus

fatal! offensichtlich legen nicht alle TelCos die gleichen Verfügbarkeitsmaßstäbe an. War nun ein Fehler in der VNX ursächlich? Alles Andere wären dann "nur" Folgen.

18.01.2012 - Jobe

mhmm Shit happens everyday and everywhere ;) Hier wird deutlich wie wichtig getesteste Notfallplaene sind. Etwas verwundert bin ich bezueglich der Typenbezeichnungen, war es nun eine VNX oder eine NS480 oder waren beide Systeme verbogen worden?


Kommentar schreiben


Artikel bewerten: