18.05.2018 (Doc Storage)
4.3 von 5, (3 Bewertungen)

HDD-Ausfall im Desktop-NAS: Was tun?

  • Inhalt dieses Artikels
  • HDD-Ausfall im RAID: Der ungünstigste Fall
  • HDD-Ausfall im RAID: Der günstigste Fall

Leserfrage: Ich habe eine Black Armor 400 mit vier Slots a 2-TByte-HDDs von Seagate im RAID-10-Verbund – gehabt. Platte 1 und 2 sind ausgestiegen, aber unverändert vorhanden. Platte 3 und 4 sind »good«. Das Black-Armor-Display sagt, »contact Support, can restore«, hat nichts geholfen, außer, dass ich die Finger von den Platten gelassen habe.

Hatte brandneu Barracudas mit 2 TByte in Slot 1 und 2, System hochgefahren, alle vier Slots »good«, aber nur Slot 3 und 4 zeigen das richtige Volume »DataVolume« an. Über die OS-Oberfläche kann ich die Original Struktur der Shares sehen. Weiter geht es nicht. Auf dem NAS befinden sich alle Daten einer Rechtsanwaltskanzlei.

Ich lasse über die »defekten« Platten 1 und 2 Seagate File Recovery laufen, um zu schauen, ob die Daten da vorhanden sind. Dauert elend lange, über neun Stunden für die erste Platte.

Vorher habe ich versucht, einzeln Slot 2 mit einer werksneuen Barracuda zu bestücken, geht bis »claim« und kurzzeitig kommt das Symbol für resync, letztlich geschieht das aber nicht. Auch, wenn er alle vier Slots (2 neue Platten in 1 und 2) als good erkennt. Slot 1 und 2 aber als »unassigned« deklariert.

Irgendwie habe ich die Hoffnung, dass man die Slots 1 und 2 einbinden kann und das System sich erholt, besonders, weil es im Display ja sagt »can restore«. Hätten Sie Ideen zur Hilfe?

Antwort Doc Storage:

Ich will nicht nerven, aber ich muss es mal wieder schreiben: Es kommt darauf an.

Zunächst einmal – und vor allem – kommt es darauf an, wie Sie das RAID-10-Laufwerk eingerichtet haben. Hier gibt es bei einem System mit vier Laufwerken nicht viele, aber dennoch mehr als eine Möglichkeit. Zunächst einmal müssen Sie hierfür ja wie bekannt zwei RAID-1-Volumen anlegen (mehr gehen ja mit vier Laufwerken nicht). Diese können demnach aus Nummer 1+2, 1+3 und 1+4 bestehen, das zweite dann aus den restlichen beiden. Betrachten müssen wir alle möglichen drei Fälle, die dann unterschiedliche Auswirkungen auf die Datenrettung haben.

HDD-Ausfall im RAID: Der ungünstigste Fall

Fall 1 (RAID 1 aus 1+2 und 3+4, dann Striping über beide RAID-1-Gruppen): Wenn Ihnen wie beschrieben die Laufwerke 1 und 2 ausgefallen sind, haben Sie nun das größte Problem. Die Daten sind lediglich zwischen 1+2 und 3+4 geschützt, und weil die gesamten Inhalte des Dateisystems über beide Gruppen verteilt werden, haben Sie nun zunächst die Hälfte der gespeicherten Informationen verloren. Es wird Ihnen möglich sein, Dateien zu öffnen, die klein genug sind, um auf lediglich einer Gruppe »gelandet« zu sein, das kommt allerdings auf die für die Verteilung gewählte Zylindergröße an. Sie müssen also schon einiges Glück haben, damit das passiert. In allen anderen Fällen werden die Dateien vielleicht noch angezeigt, können aber entweder gar nicht geöffnet werden oder enthalten lediglich bis zur Hälfte der eigentlichen Informationen.

Nun kommt es weiter darauf an, ob die Platten 1 und 2 »lediglich« logische oder – schlimmer – doch mechanische Fehler oder einen Schaden an der Logik haben. Im Falle eines logischen Fehlers könnte File-Recovery helfen, tatsächlich den größten (eben nicht betroffenen) Teil der Daten wieder lesbar zu machen und die Platten dann wieder in den RAID-10-Verbund einzuschließen. Dass das Ganze in Ihrem Falle, also mit 2-TByte-Laufwerken, neun Stunden dauert, ist nicht außergewöhnlich, da es sich hierbei größtenteils um einen mechanischen Vorgang handelt.

Sollten die Platten »einen mitbekommen« haben, also eine mechanische Beschädigung einer oder mehrerer interner Scheiben aufweisen, wird der Einsatz von File-Recovery nur dort etwas helfen, wo eben diese Beschädigung nicht Dateien betroffen hat. Diese werden dann nicht mehr wiederhergestellt werden können. Ob die Laufwerke bei einer solchen Beschädigung überhaupt noch einmal eingesetzt werden können, kommt auf die Größe der Beschädigung an. Sollte es Ihnen aber tatsächlich gelingen, diese noch einmal zum Laufen zu bringen und in den RAID-10-Verbund einzubinden, ist ein sofortiges Voll-Backup angeraten, gefolgt vom Einsetzen neuer Laufwerke in 1 und 2. Da hier die Daten wie beschrieben nicht mehr vorhanden sind, sollten Sie den RAID-10-Verbund komplett neu einrichten und das Backup zurückspielen.

Eine weitere Möglichkeit ist wie erwähnt ein Fehler in der Laufwerkslogik, also in der Elektronik. Hier werden Sie kaum Chancen haben, die Festplatten selbst noch einmal zum Laufen zu bekommen. Die einzige Möglichkeit wäre hier das Aufsuchen eines einschlägigen Unternehmens, welche die Magnetplatten aus dem beschädigten Laufwerk aus- und in ein Ersatzgehäuse einbauen kann. Diese so reparierten Platten sollten dann im RAID -10 wieder lauffähig gemacht werden können.

HDD-Ausfall im RAID: Der günstigste Fall

Fall 2 (RAID 1 aus 1+3 und 2+4, dann Striping über beide RAID-1-Gruppen): Dies ist – wenn man das in dem Falle noch sagen darf – einer der günstigeren Fehler, da aus beiden RAID-1-Gruppen nur jeweils ein Laufwerk betroffen ist, also eine vollständige Kopie der Inhalte noch auf dem jeweils anderen vorliegt. Hier sollte es genügen, die betroffenen Platten herauszunehmen und durch ein entsprechend gleich großes Modell zu ersetzen. Da es sich bei dem Black Armor 400 nicht um ein Modell mit besonders großer interner Bandbreite handelt, sollten Sie dies nacheinander tun, also zunächst Laufwerk 1 und dann Laufwerk 2 wiederherstellen. Und ja – diese Wiederherstellung kann schon einmal zehn Stunden dauern, also nicht ungeduldig werden.

In diesem Falle lohnt es auch nicht, sich den Kopf darüber zu zerbrechen, ob es sich um einen logischen, mechanischen oder elektronischen Fehler handelt. Die Suche nach dem Fehler dauert meist länger und ist kostenträchtiger als das einfache Ersetzen der Platten.

Fall 3 (RAID 1 aus 1+4 und 2+3, dann Striping über beide RAID-1-Gruppen): Dieser Fall kann wie Fall 2 betrachtet werden, da aus den RAID-1-Gruppen nur jeweils ein Laufwerk betroffen ist. Einfach die Platten nacheinander ersetzen, auf die Wiederherstellung warten und alles sollte wieder gut sein.

Wie Sie sehen, ist das alle nicht so einfach, leider. Vor allem dann, wenn eine komplette RAID-1-Gruppe des RAID-10-Verbundes betroffen ist.

Ich will nicht zynisch klingen, aber hier haben wir wieder ein gutes Beispiel, wieso JEDER, so klein sein Array auch sein mag, regelmäßig eine Datensicherung vornehmen sollte. In diesem Falle könnten Sie mit heiterer Gelassenheit einfach neue Platten einsetzen, das gesamte Gerät initialisieren, die Daten zurückspielen und weitermachen...

Gruß
Doc Storage

Stellen Sie Ihre Frage
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Stellen Sie Ihre Frage an: DocStorage@speicherguide.de
Kommentare (1)
18.05.2018 - hugo.bergmann

...ja, ja gut wer ein lokales Backup hat....RDX lässt grüßen!
bit.ly/2lekuws


Mehr von Doc. tec. Storage 13.07.2018 High-Performance-Storage im Eigenbau

Mit welchem Aufwand könnte man ein RAID-System zu Höchstleistungen bringen? Wie lässt sich mit Bordmitteln ein hochperformantes Speichersystem Marke Eigenbau zusammenstellen? Eine Frage, die unseren Doc durchaus angespornt hat…


22.06.2018 Was ist iSER im Vergleich zu iSCSI und FCoE?

Die SNIA vergleicht in einem Webcast iSCSI mit FCoE und iSER. Was bitte ist iSER? Ist das eine iSCSI-Erweiterung oder eine eigenständige Technologie? Ab wann ist hier mit Produkten zu rechnen?


15.06.2018 Was ist ein Host-Memory-Buffer (HMB)?

HMB steht für Host-Memory-Buffer. Was ist das genau? Neue M.2-SSDs erreichen damit angeblich schnelle Transferraten und hohe IOPS. Kann man HMB losgelöst von NVMe betrachten oder gehören die beiden Techniken zusammen?


08.06.2018 Was ist ein Treewalk?

Im Interview mit Qumulo wird davon gesprochen, dass Dateisysteme einen sogenannten Treewalk durchführen. Dieser soll nicht unbedingt nötig sein. Doch was genau ist ein Treewalk? Was ist das Problem daran und was wäre die Lösung?


25.05.2018 Rant zur DSGVO/GDPR: Der größte Blödsinn des Jahrhunderts

»Die DSGVO/GDPR ist der größte Blödsinn des Jahrhunderts«, schimpft Doc Storage. »Die Menschen in der produktiven EDV haben dies gebraucht wie Fußpilz oder einen Tinnitus.« Die IT war zwar nicht dafür verantwortlich, musste und muss es aber nun ausbaden…


18.05.2018 HDD-Ausfall im Desktop-NAS: Was tun?

Im 4-Bay-NAS-System eines Lesers sind im RAID-10-Verbund zwei Festplatten ausgestiegen. Das System meint, ein Restore sei möglich. Mit Bordmitteln scheint das NAS aber nicht mehr zum Leben zu erwecken sein. Doc Storage beschreibt, anhand der geschilderten Angaben, die verschiedenen Möglichkeiten.

powered by
TIM DCP Datacore Software
N-TEC GmbH Unitrends
Fujitsu Technology Solutions GmbH