18.05.2018 (Doc Storage)
4.3 von 5, (4 Bewertungen)

HDD-Ausfall im Desktop-NAS: Was tun?

  • Inhalt dieses Artikels
  • HDD-Ausfall im RAID: Der ungünstigste Fall
  • HDD-Ausfall im RAID: Der günstigste Fall

Leserfrage: Ich habe eine Black Armor 400 mit vier Slots a 2-TByte-HDDs von Seagate im RAID-10-Verbund – gehabt. Platte 1 und 2 sind ausgestiegen, aber unverändert vorhanden. Platte 3 und 4 sind »good«. Das Black-Armor-Display sagt, »contact Support, can restore«, hat nichts geholfen, außer, dass ich die Finger von den Platten gelassen habe.

Hatte brandneu Barracudas mit 2 TByte in Slot 1 und 2, System hochgefahren, alle vier Slots »good«, aber nur Slot 3 und 4 zeigen das richtige Volume »DataVolume« an. Über die OS-Oberfläche kann ich die Original Struktur der Shares sehen. Weiter geht es nicht. Auf dem NAS befinden sich alle Daten einer Rechtsanwaltskanzlei.

Ich lasse über die »defekten« Platten 1 und 2 Seagate File Recovery laufen, um zu schauen, ob die Daten da vorhanden sind. Dauert elend lange, über neun Stunden für die erste Platte.

Vorher habe ich versucht, einzeln Slot 2 mit einer werksneuen Barracuda zu bestücken, geht bis »claim« und kurzzeitig kommt das Symbol für resync, letztlich geschieht das aber nicht. Auch, wenn er alle vier Slots (2 neue Platten in 1 und 2) als good erkennt. Slot 1 und 2 aber als »unassigned« deklariert.

Irgendwie habe ich die Hoffnung, dass man die Slots 1 und 2 einbinden kann und das System sich erholt, besonders, weil es im Display ja sagt »can restore«. Hätten Sie Ideen zur Hilfe?

Antwort Doc Storage:

Ich will nicht nerven, aber ich muss es mal wieder schreiben: Es kommt darauf an.

Zunächst einmal – und vor allem – kommt es darauf an, wie Sie das RAID-10-Laufwerk eingerichtet haben. Hier gibt es bei einem System mit vier Laufwerken nicht viele, aber dennoch mehr als eine Möglichkeit. Zunächst einmal müssen Sie hierfür ja wie bekannt zwei RAID-1-Volumen anlegen (mehr gehen ja mit vier Laufwerken nicht). Diese können demnach aus Nummer 1+2, 1+3 und 1+4 bestehen, das zweite dann aus den restlichen beiden. Betrachten müssen wir alle möglichen drei Fälle, die dann unterschiedliche Auswirkungen auf die Datenrettung haben.

HDD-Ausfall im RAID: Der ungünstigste Fall

Fall 1 (RAID 1 aus 1+2 und 3+4, dann Striping über beide RAID-1-Gruppen): Wenn Ihnen wie beschrieben die Laufwerke 1 und 2 ausgefallen sind, haben Sie nun das größte Problem. Die Daten sind lediglich zwischen 1+2 und 3+4 geschützt, und weil die gesamten Inhalte des Dateisystems über beide Gruppen verteilt werden, haben Sie nun zunächst die Hälfte der gespeicherten Informationen verloren. Es wird Ihnen möglich sein, Dateien zu öffnen, die klein genug sind, um auf lediglich einer Gruppe »gelandet« zu sein, das kommt allerdings auf die für die Verteilung gewählte Zylindergröße an. Sie müssen also schon einiges Glück haben, damit das passiert. In allen anderen Fällen werden die Dateien vielleicht noch angezeigt, können aber entweder gar nicht geöffnet werden oder enthalten lediglich bis zur Hälfte der eigentlichen Informationen.

Nun kommt es weiter darauf an, ob die Platten 1 und 2 »lediglich« logische oder – schlimmer – doch mechanische Fehler oder einen Schaden an der Logik haben. Im Falle eines logischen Fehlers könnte File-Recovery helfen, tatsächlich den größten (eben nicht betroffenen) Teil der Daten wieder lesbar zu machen und die Platten dann wieder in den RAID-10-Verbund einzuschließen. Dass das Ganze in Ihrem Falle, also mit 2-TByte-Laufwerken, neun Stunden dauert, ist nicht außergewöhnlich, da es sich hierbei größtenteils um einen mechanischen Vorgang handelt.

Sollten die Platten »einen mitbekommen« haben, also eine mechanische Beschädigung einer oder mehrerer interner Scheiben aufweisen, wird der Einsatz von File-Recovery nur dort etwas helfen, wo eben diese Beschädigung nicht Dateien betroffen hat. Diese werden dann nicht mehr wiederhergestellt werden können. Ob die Laufwerke bei einer solchen Beschädigung überhaupt noch einmal eingesetzt werden können, kommt auf die Größe der Beschädigung an. Sollte es Ihnen aber tatsächlich gelingen, diese noch einmal zum Laufen zu bringen und in den RAID-10-Verbund einzubinden, ist ein sofortiges Voll-Backup angeraten, gefolgt vom Einsetzen neuer Laufwerke in 1 und 2. Da hier die Daten wie beschrieben nicht mehr vorhanden sind, sollten Sie den RAID-10-Verbund komplett neu einrichten und das Backup zurückspielen.

Eine weitere Möglichkeit ist wie erwähnt ein Fehler in der Laufwerkslogik, also in der Elektronik. Hier werden Sie kaum Chancen haben, die Festplatten selbst noch einmal zum Laufen zu bekommen. Die einzige Möglichkeit wäre hier das Aufsuchen eines einschlägigen Unternehmens, welche die Magnetplatten aus dem beschädigten Laufwerk aus- und in ein Ersatzgehäuse einbauen kann. Diese so reparierten Platten sollten dann im RAID -10 wieder lauffähig gemacht werden können.

HDD-Ausfall im RAID: Der günstigste Fall

Fall 2 (RAID 1 aus 1+3 und 2+4, dann Striping über beide RAID-1-Gruppen): Dies ist – wenn man das in dem Falle noch sagen darf – einer der günstigeren Fehler, da aus beiden RAID-1-Gruppen nur jeweils ein Laufwerk betroffen ist, also eine vollständige Kopie der Inhalte noch auf dem jeweils anderen vorliegt. Hier sollte es genügen, die betroffenen Platten herauszunehmen und durch ein entsprechend gleich großes Modell zu ersetzen. Da es sich bei dem Black Armor 400 nicht um ein Modell mit besonders großer interner Bandbreite handelt, sollten Sie dies nacheinander tun, also zunächst Laufwerk 1 und dann Laufwerk 2 wiederherstellen. Und ja – diese Wiederherstellung kann schon einmal zehn Stunden dauern, also nicht ungeduldig werden.

In diesem Falle lohnt es auch nicht, sich den Kopf darüber zu zerbrechen, ob es sich um einen logischen, mechanischen oder elektronischen Fehler handelt. Die Suche nach dem Fehler dauert meist länger und ist kostenträchtiger als das einfache Ersetzen der Platten.

Fall 3 (RAID 1 aus 1+4 und 2+3, dann Striping über beide RAID-1-Gruppen): Dieser Fall kann wie Fall 2 betrachtet werden, da aus den RAID-1-Gruppen nur jeweils ein Laufwerk betroffen ist. Einfach die Platten nacheinander ersetzen, auf die Wiederherstellung warten und alles sollte wieder gut sein.

Wie Sie sehen, ist das alle nicht so einfach, leider. Vor allem dann, wenn eine komplette RAID-1-Gruppe des RAID-10-Verbundes betroffen ist.

Ich will nicht zynisch klingen, aber hier haben wir wieder ein gutes Beispiel, wieso JEDER, so klein sein Array auch sein mag, regelmäßig eine Datensicherung vornehmen sollte. In diesem Falle könnten Sie mit heiterer Gelassenheit einfach neue Platten einsetzen, das gesamte Gerät initialisieren, die Daten zurückspielen und weitermachen...

Gruß
Doc Storage

Stellen Sie Ihre Frage
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Stellen Sie Ihre Frage an: DocStorage@speicherguide.de
Kommentare (1)
18.05.2018 - hugo.bergmann

...ja, ja gut wer ein lokales Backup hat....RDX lässt grüßen!
bit.ly/2lekuws


Mehr von Doc. tec. Storage 22.02.2019 Welcher RAID-Level für welche Anwendung?

Gibt es eigentliche eine Faustregel, welches RAID-Level für welche Anwendung am besten geeignet ist? Ich denke da zum Beispiel an Datenbanken mit sehr vielen Zugriffen bei relativ kleinen Datenmengen oder an Webserver und als Extrem auf der anderen Seite Bild-Datenbanken, Audio-Server beim Rundfunk, Video-Archive mit sehr hohen Datenvolumen.


15.02.2019 Was sagt DWPD über SSDs aus?

Im Zusammenhang mit (Enterprise-)SSDs wird oft die Qualitätsgröße DWPD (Drive Writes Per Day) genutzt. Meist wird die Angabe auch für einen Zeitraum von fünf Jahren spezifiziert. Was sagt DWPD genau aus und mit welcher Standard-Lebensdauer darf man rechnen?


08.02.2019 Unterschiede der Performance-States von SSDs

Gängige Meinung: SSDs sind schnell. In der Praxis gibt es aber dann doch einige Unterschiede, so sind vielen die verschiedenen Performance-States von SSDs und Flash-Speichern nicht bekannt: FOB, steady, burst and transition. Was steckt genau dahinter?


01.02.2019 BSI empfiehlt 200-km-Distanz – 200 km ERNSTHAFT!?

Kurz vor Weihnachten veröffentlichte das BSI neue Kriterien für georedundante RZs. Darin wird der bisher empfohlene Mindestabstand von fünf auf 200 Kilometer hochgesetzt. Aus Praxissicht laut Doc Storage »vollkommener Blödsinn«.


31.01.2019 Nervfaktor digitale Transformation – ein Rant

Die digitale Transformation bzw. Digitalisierung verfolgt uns nun schon geraume Zeit. Mit dem Faktor Mensch kommt nun nochmal ein neues Trendthema hinzu. Doc Storage hat hier eine klare Meinung: »alles Blödsinn – es nervt«. Nichts von dem, was heute diskutiert wird, ist neu und Menschen waren schon immer der Kern eines jeden Geschäftsbetriebs – selbst in der IT.


25.01.2019 SSDs: Was ist mit den Schreibzyklen, wenn SSDs fast voll sind?

Moderne SSDs sorgen mit der Wear-Leveling-Funktion automatisch dafür, dass möglichst gleichmäßig über alle Sektoren geschrieben wird. Wie verhält es sich mit den spezifizierten Schreibzyklen, wenn die SSD nahezu voll ist?

powered by
Boston Server & Storage Solutions Datacore Software
Fujitsu Technology Solutions GmbH Unitrends
N-TEC GmbH FAST LTA AG