Anzeige

Was tun bei NAND-Chip-Ausfall auf Storage-Blade?

Leserfrage: Es gibt Hersteller, die bieten enorme Speicherdichte, indem sie viele MLC-NAND-Chips auf einem Storage-Blade unterbringen. Damit lässt sich leicht eine Kapazität von 500 TByte auf einer Höheneinheit unterbringen. Was ist allerdings, wenn ein einzelner Chip auf einem Blade defekt ist und ausfällt? Greift dann das normale RAID? Muss man das gesamte Blade austauschen oder geh ein Chip-Austausch? Gibt es Sicherungsmechanismen, die hier besser greifen als die, die wir von herkömmlichen HDD-Speichersystemen kennen? Wie ist das, wenn multiple Chips versagen? Kann man versichern, dass es nicht zu einem Datenverlust kommt?

Anzeige

Antwort Doc Storage:

Im Falle des Verlustes eines einzelnen Halbleiters passiert bei solchen modernen, massiv mit Flash-Speichern ausgestatteten nichts. Die meisten dieser Arrays verfügen über mindestens zwei unabhängige Sicherungsmechanismen. Zum einen wird ein RAID-artiger Schutz über mehrere Speicherbausteine eines Modules gelegt, zum zweiten wiederum mehrere Module zu einer weiteren RAID-Gruppe zusammengefasst. Diese Vorgehensweise schützt sowohl vor dem Verlust einzelner Speicherbausteine als auch vor dem ganzer Baugruppen. Sobald also ein Speicherträger defekt ist, lässt sich dieser wie eine defekte Platte in einer RAID-Gruppe austauschen, ohne Daten zu verlieren. Wenn mehrere Chips oder Komponenten versagen, kommt es wie bisher auch darauf an, wie viele Prüfsummen unabhängig voneinander im entsprechenden Inertial erzeugt wurden. Bei nur einer Prüfsumme (RAID 5) kann eben nur eine, bei zweien (RAID 6) zwei Komponenten ohne Datenverlust ausfallen und so fort.

Darüber hinaus rüsten viele Halbleiterproduzenten ihre SSD-Komponenten mit weiteren internen ECC-Fehlererkennungs- und -korrekturmaßnahmen aus, die dafür sorgen, dass die geschriebenen Daten auch den vom Rechner übertragenen Informationen entsprechen. Die Prüfsummen dieser Algorithmen werden lokal auf einem Chip, physikalisch über mehrere Chips oder logisch über voneinander getrennte Halbleiter erzeugt, so dass auch hier unabhängig voneinander errechnete Tests existieren.

Und um nochmals mit einem der am weitesten verbreiteten Gerüchte der EDV aufzuräumen: Niemand kann versichern oder garantieren, dass es in einem von Menschen entworfenen und gebauten System nicht zu Fehlern oder Datenverlusten kommt. Man kann sogar statistisch recht genau vorhersagen, wann es zu entsprechenden Vorfällen kommen wird. Hersteller, die etwas anderes behaupten, so zum Beispiel die berühmt-berüchtigten »100 Prozent Verfügbarkeit«, sollte man mit hoher Vorsicht betrachten. So etwas kann es gar nicht geben, ob man es nun in die Werbung schreibt oder nicht. Das Bollwerk aus ECC, multidimensionalem RAID, Replikation, Fernspiegelung, Backup und Archiv kann es dem Verlustteufel nur so schwer wie möglich, aber Fehler eben nur annähernd unmöglich machen. Alles andere ist Humbug und leere Werbeversprechen.

Gruß
Doc Storage

Anzeige