Backgrounder: Disk-Backup

24.06.2010 ubr

Backgrounder: Disk-Backup

Beim Disk-Backup geht es kaum mehr um das Ob, sondern vielmehr um das Wie. Zahlreiche Funktionen wie Deduplizierung, CDP oder Replikation erweitern und optimieren die Sicherung auf Festplatte. Die zu lösenden Probleme sind nach wie vor zu kurze Sicherungsfenster, Datenwachstum und Kosten.

Plattensicherungen haben sich in vielen Unternehmen zum integralen Teil des Desaster-Recovery entwickelt. Oft wird in der IT-Abteilung nicht mehr diskutiert, auf welchem Medium gesichert werden soll, sondern vielmehr wie und mit welchen Funktionen. Zu den allgemeinen Möglichkeiten der Festplatten-Sicherung kamen in den letzten Jahren weitere Eigenschaften bzw. Optionen hinzu. Mit Snapshots, Clones, Replikation, Continuous-Data-Protection oder Deduplizierung kann der Anwender nun wählen, wie effizient und umfangreich er seine Plattenlösung gestalten möchte.

Moderne Technik für bekannte Probleme

Disk-Speichersystem
(Bild: HDS)

Selbst mit den modernsten Backup-Mitteln stehen die IT-Verantwortlichen nach wie vor den alt bekannten Problemen gegenüber. Die treibende Kraft dabei sind die steigenden Datenbestände, die in erster Linie dazu führen, dass die Zeitfenster zu klein werden. Laut IDC soll das weltweite Datenwachstum zu 35 ZByte an Informationen führen. Damit verbunden ist ein entsprechender Verwaltungsaufwand. In vielen IT-Abteilungen fehlt bereits jetzt die Zeit, das Knowhow oder schlicht das Personal, um dieser Herausforderung gerecht zu werden. Darüber hinaus kann sich kaum eine Firma längere Ausfallzeiten leisten. Die Toleranz hierbei wird von den geschäftskritischen Daten bestimmt. Stehen diese auf Grund eines Systemausfalls oder einer fehlerhaften Sicherung nicht zur Verfügung, so kann es zu Verlusten im Geschäft kommen. Nicht zuletzt stellt der Kostendruck eine enorme Herausforderung dar. EDV-Manager müssen nicht nur mit stagnierenden Budgets hantieren, sondern auch darlegen, was die IT dem Geschäftsprozess bringt. Stets gilt es den Spagat zu schaffen zwischen höchster Datensicherheit und möglichst geringen Kosten.

Mit Disk-Backups lassen sich diese täglichen Herausforderungen an Mensch und Maschine meistern. Hundertprozentige Sicherheit wird wohl nie erreicht werden, aber eine Erleichterung und Optimierung bei der Datensicherheit sowie wirksame Recovery-Konzepte können umgesetzt werden. Automatismen, regelbasierte Backups und neu aufkommende Technologien sorgen für verwaltbare und überschaubare Datenbestände.

Vor- und Nachteile von Disk-Backup

Die Sicherung von Daten auf Festplatten ist nichts Neues mehr. Externe Festplatten mit bis zu zwei TByte sind ebenso selbstverständlich geworden wie Speichersysteme mit vielen Funktionen, die bislang nur im Enterprise-Bereich zu finden waren. Die zahlreichen Vorteile der Plattentechnologie haben dazu geführt, dass fürs Backup vermehrt darauf zurückgegriffen wird. Ein Vorteil ist die hohe Speicherdichte. Kein anderes Medium hat sich kapazitär so drastisch weiter entwickelt wie die Festplatte. Momentan können bis zu zwei Terabyte auf einer Disk gesichert werden. Bänder können hier noch nicht anknüpfen. Derzeit ist LTO-5 mit 1,6 Terabyte das dichteste Bandmedium. Auch sind die Entwicklungszyklen bei Bandtechnologien länger. Bei Anschaffung einer neuen Bandgeneration ist die Migration alter Datenbestände meist aufwändiger als bei den Festplatten, denn bei denen reicht oft das Einfügen neuer Platten und ein automatischer Rebuild oder das Replizieren der Daten auf ein neues System. Bänder müssen neu beschrieben werden. Zwar gibt es hier Rückwärtskompatibilität, oft aber nur zu den letzten beiden Generationen.

Ein weiterer großer Vorteil von Disk-Backup ist das Wegfallen manueller Eingriffe durch Automatismen und regelbasierte Speicherprozesse. Bänder erfordern meist manuelles Wechseln oder Auslagern, Einlegen oder Spulen. Das gilt vor allem im Falle einer Wiederherstellung, wo zügige Rücksicherung erwünscht ist. In diesem Zusammenhang sind auch die Parallelzugriffe bei Disk-Systemen von Vorteil. Einige Bandlösungen verfügen über Multistream-Funktion, die auch parallele Abrufe ermöglichen, die Zugriffszeiten lassen dann aber oft zu wünschen übrig. Ein anderer Vorteil der Disk-Technologie ist heutzutage schon mehr als selbstverständlich geworden: RAID-Schutz. Damit wird garantiert, dass bei einem Plattenausfall kein Datenverlust entsteht. Dank RAID 6 können sogar zwei Drives ausfallen, ohne dass zwangsläufig Daten verloren gehen.

Für ein optimales Recovery lassen sich auch zwei Standorte mit Disk-Systemen ausstatten und mittels Replikation mit dem gleichen Datenbestand beschreiben. Fällt dann beispielsweise ein gesamtes System aus, erfolgt ein Schwenk auf das Zweitsystem: Datenverlust so gut wie ausgeschlossen, ebenso Ausfallszeiten. RAID und schnelle Replikation lassen sich so nur mit festplattenbasierten Geräten umsetzen. Generell profitiert jeder Anwender von der Funktionsvielfalt, die man mit Disk-Systemen und somit fürs Backup nutzen kann. Deduplizierung und CDP seien hier nur stellvertretend genannt.

Allerdings gibt es auch einige Nachteile der Festplatten. So sind Bandmedien meist robuster und vor allem langlebiger als Festplatten. Beim Investitionsvergleich ist das Plattenlaufwerk auch nach wie vor etwas teurer. Rechnet man von den Straßenpreisen ausgehend einmal um, kommt man bei einer 2-Terabyte-Platte auf 0,1 Euro pro GByte. Bei LTO-5 auf etwa 0,07 Euro. Generell sind auch die Systeme mit Disks teurer in der Anschaffung als Autoloader oder Librarys. Allerdings ist hier kein Eins-zu-Eins-Vergleich möglich, da Kapazität und Funktionalität bei Plattensystemen meist höher sind.

Der wohl größte Nachteil der Festplatten liegt in ihren Betriebskosten. Vor allem der Aufwand für Strom und Kühlung ist enorm. Bänder sind hier genügsamer, weil nicht alle Medien ständig unter Strom sind. Zwar gibt es bei Festplatten Funktionen wie »Massive Array of Idle Disks« (MAID), die Kosten lassen sich aber nur reduzieren und nicht eliminieren. Darüber hinaus muss der EDV-Verantwortliche mit doppelten Kosten rechnen, wenn er höhere Sicherheit durch einen zweiten Festplatten-Standort erreichen will. Ein entsprechender Kosten-Nutzen-Vergleich kann helfen, die richtige Backup-Lösung zu wählen.

Klassische Disk-Backup-Optionen

Mittlerweile existieren Szenarien und Methoden, die sich als Grundlagen bei der Sicherung etabliert haben. Dazu gehören zum einen die Anschlussarten Direct-Attached-Storage (DAS) und Storage-Attached-Network (SAN), zum anderen die Sicherungsverfahren der Vollsicherung sowie des inkrementellen und des differenziellen Backup.

DAS-Konfiguration
(Grafik: speicherguide.de)

Die Datensicherung in einer DAS-Konfiguration bedeutet, dass der Backup-Server und das Speichersystem direkt verbunden sind. Der Backup-Server ist meist mit produktiven Rechnern über ein LAN verbunden, es erfolgt aber nur eine Sicherung der Daten, die auf dem direkt angeschlossenen System liegen. Die dafür genutzten Schnittstellen sind USB, FireWire, eSAS oder iSCSI. Werden die Daten innerhalb eines SAN gespeichert, so können mehrere Rechner angebunden sein. Die Datenübertragung geschieht über das Netzwerk: entweder mit iSCSI oder Fibre-Channel (FC) oder Fibre-Channel-over-Ethernet (FCoE). Über dieses Netzwerk gelangen die Informationen nach vorher festgelegten Regeln automatisch aufs Backup-System – mittels Software-Agenten oder Datei-System-Kopien. In beiden Fällen lässt sich eine nachgelagerte Sicherung vom Disk-Speicher auf andere Medien realisieren, beispielsweise auf Band oder optische Datenträger.

SAN-Konfiguration
(Grafik: speicherguide.de)

Vollsicherung, inkrementelle und differenzielle Sicherung sind die wohl meist genutzten Verfahren. Eine Vollsicherung ist eine Kopie des gesamten Datenbestandes. Bei der derzeitigen großen Informationsschwemme und den Vorgaben, diese zu sichern, genügt meist die Zeit nicht, um sie in kurzen Abständen durchzuführen. Viele Firmen machen eine solche Vollsicherung nur noch an den Wochenenden, wenn das produktive Geschäftsleben zum Stillstand kommt. Eine Nacht innerhalb der Arbeitswoche reicht hier nicht mehr aus. Institutionen, die rund um die Uhr arbeiten, müssen auf andere Sicherungsprozesse zurückgreifen, beispielsweise über geplante Auszeiten einzelner Abteilungen. Dadurch, dass alle Daten auf die Platte geschrieben werden, benötigt die Vollsicherung den meisten Speicherplatz und den größten Zeitaufwand. Allerdings gestaltet sich die Wiederherstellung kürzer als bei anderen Sicherungen. Da dieses Backup alle Daten enthält, muss nur eine Sicherung durchsucht werden. Der Restore erfolgt somit von einem Ort aus.

Um entstehende Datenlücken zu schließen, die innerhalb einer Woche entstehen, kommen inkrementelle und differenzielle Backups zum Einsatz. Bei einer inkrementellen Sicherung werden nur die neuen und geänderten Inhalte gesichert. Das Sicherungsintervall hängt dabei von den internen Prozessen ab. Datenbanken werden zum Beispiel mehrfach am Tag gespeichert, während der Exchange-Server nur einmal am Tag einer Sicherung bedarf. Dieses Backup bezieht sich immer auf die vorangegangene Vollsicherung und auf vorher gespeicherte Inkremente. Ohne diesen Bezug ist die einzelne inkrementelle Sicherung unbrauchbar. Da hierbei nur Veränderungen und Neues auf das Disk-System kommen, sind weniger Speicherplatz und auch weniger Zeit erforderlich. Dafür ist die Wiederherstellung meist länger, da mehrere Backups durchsucht und von ihnen wiederhergestellt werden muss.

Sicherungsmethoden
(Grafik: speicherguide.de)

Eine Differenzialsicherung funktioniert ähnlich und legt auch nur neue und geänderte Inhalte ab. Sie bezieht sich dabei aber ausschließlich auf die vorherige Vollsicherung. Ohne diese ist sie unbrauchbar. Die Methode nutzt mehr Speicherplatz als eine inkrementelle Sicherung, aber weniger als eine vollständige Kopie aller Daten. Ebenso verhält es sich bei den Sicherungszeiten, die kürzer als bei einer Vollsicherung und länger als bei Inkrementen sind. Für die Wiederherstellung gilt: Der Administrator durchsucht zwar mehr als ein Backup, meist aber nicht so viele wie bei inkrementellen Sicherungen. Somit sind die Restores schneller als bei inkrementell, aber langsamer als bei der Vollkopie.

Mit diesen Verfahren lässt sich ein grundsolides Backup-Szenario entwickeln und aufsetzen. Arbeitsprozesse, unterschiedlich wichtige Daten und die Menge an digitalen Informationen zwangen die IT-Branche allerdings zum Umdenken. Denn diese Methoden reichen nun oft nicht mehr aus, um zufriedenstellend alles zu sichern und entsprechende Geschäftssicherheit zu gewährleisten. Um entstehende Backup-Lücken zu schließen, stehen nun weitere Optionen zur Verfügung.

Replikation als Netz und doppelter Boden

Um ein größeres Maß an Sicherheit zu erreichen, kann sich der Administrator der Replikation bedienen – also einer Eins-zu-Eins-Kopie seines gesamten Datenbestandes oder bestimmter Datensätze. Auch hier gibt es mit Snapshots, Clones sowie synchroner oder asynchroner Fernspiegelung mehrere Möglichkeiten.

Ein lokaler Snapshot ist quasi ein Foto, das den momentanen Zustand eines logischen Laufwerks zu einem bestimmten Zeitpunkt abbildet. Alle Änderungen, die danach passieren, speichert das System in einem separaten Plattenbereich. Benötigt der IT-Manager den Ursprungszustand, so kann er ihn problemlos zurückkopieren. Der Snapshot verweist immer auf die Originalphysik, also greifen Anwendungen auf die physikalischen Originallaufwerke zu. Somit eignet sich ein Snapshot nicht als Quelle für nachgelagerte Backups, zum Bespiel auf optische Medien oder Band. Im Gegensatz zum Snapshot ist der lokale Clone eine direkte physikalische Kopie eines vollständigen logischen Laufwerks zu einem bestimmten Zeitpunkt. Die Kopie wird losgelöst vom Original als eigenständiges Laufwerk gesichert. Änderungen, die am Original erfolgen, beeinflussen nicht die Kopie. Anwendungen können somit auf zwei getrennte physikalische Laufwerke zugreifen. Fällt das Original aus, kann die Kopie als Backup-Quelle dienen. Damit lässt sich dann der Zustand herstellen, der vor der Trennung von Original und Kopie bestand.

Bei einer synchronen Fernspiegelung schreibt das Backup die Daten zunächst in ein lokales und danach in ein entfernt stehendes System. Die eigentliche Datensicherung ist erst beendet, wenn auch der zweite Schreibprozess abgeschlossen ist und das Ausfallsystem alle Daten hat. Dadurch sind die Inhalte beider Disk-Arrays immer identisch. Entfernungen von über 10 Kilometer kann diese Methode nicht abdecken, da die Latenzzeiten zu groß würden. Der Datentransfer passiert üblicherweise über Fibre-Channel oder 10-Gbit/s-Ethernet. Das zu sichernde Produktivsystem wartet mit weiteren Prozessen so lange, bis der Schreibvorgang auch auf der zweiten Maschine abgeschlossen ist. Bei einer asynchronen Fernspiegelung sichert beispielsweise ein Server seine Daten auf dem lokalen Speichersystem. Nachdem er von diesem Backup-Gerät ein entsprechendes Signal erhält, ist für den Server die Datensicherung abgeschlossen und er ist wieder produktiv. Daraufhin sendet das lokale System die Informationen an das zweite Backup-System. Dadurch sind die Inhalte allerdings nie identisch, da in der Zwischenzeit bereits weitere Änderungen am ersten Backup-Rechner erfolgen können. Da sich dieses Verfahren auch für größere Entfernungen eignet, wird es hier häufig genutzt. Als Übermittlungsstrecken dienen hier Dark-Fibre oder IP-Verbindungen.

CDP schließt Backup-Lücken

Um auch die Zeitpunkte zu sichern, die zwischen Vollsicherungen oder inkrementellen und differenziellen Backups liegen, kann der Administrator Continuous-Data-Protection (CDP) einsetzen. CDP verfolgt alle vorgenommenen Änderungen und speichert sie zusätzlich zum Backup-System in einem Journal. Die Funktion selbst wird als Software angeboten. Allerdings sollte die CDP-Sicherung nicht auf das gleiche System wie das Backup abgelegt werden, sondern auf zusätzliche Storage-Hardware. Für die Aufzeichnung der Daten sorgt ein Splitter. Im Journal abgelegt wird neben den Metadaten – wer kreierte wann auf welchem Rechner den I/O – auch der eigentliche Datensatz. Der Splitter kann sich an unterschiedlichen Punkten befinden. Operiert er im Produktivsystem selbst, so sendet er die Informationen direkt an Backup-System und Journal. Befindet sich der Splitter als Netzwerkkarte im SAN-Switch, so gehen die Daten zunächst an diesen Switch, der dann die Weiterleitung an beide Seiten übernimmt. Ist der Splitter im Speichersystem integriert, so registriert er die Schreibprozesse, sichert sie und gibt sie ins Journal. Je mehr Daten das Journal umfasst, umso größer ist der Zeitraum, den man damit absichert. Der IT-Administrator kann dann zu jedem beliebigen Zeitpunkt oder Zustand eines Volume zurückkehren. Das ist machbar, da CDP auf I/O-Ebene funktioniert und somit wesentlich granularer ist als Snapshots oder Clones. Um das CDP besser in das Desaster-Recovery integrieren zu können, muss man zwei wichtige Punkte für das Unternehmen analysieren: Recovery-Point-Objective und Recovery-Time-Objective.

Bei Recovery-Point-Objective (RPO) gilt es festzustellen, welche Datenmenge im Störungsfall verloren gehen darf. Die Firma muss also eine Datenmenge definieren oder besser gesagt den Zeitraum, der zwischen der letzten Sicherung und einem Systemausfall höchstens liegen darf. Dementsprechend oft werden dann CDP-Sicherungen durchgeführt. Kann sich das Unternehmen, beispielsweise eine Online-Bank oder eine Web-Hosting-Gesellschaft keinerlei Datenverlust leisten, so liegt der RPO-Wert bei Null. Bei Recovery-Time-Objective (RTO) handelt es sich um die Zeit, die vom Moment des Störfalls bis zur vollständigen Wiederherstellung der Geschäftsprozesse vergehen darf. Dazu gehört dann auch, je nach Schwere und Umfang der Störung, beispielsweise das Aufstellen und Konfigurieren von neuer Hardware, das Installieren der Anwendungen und das Zurückholen der Daten. Es beschreibt die Zeit vom Schaden bis zur Wiederaufnahme der üblichen Geschäftsprozesse. Auch hier bedeutet die Zahl Null, dass Systeme und Daten unverzichtbar sind. Ein Ausfall von mehreren Tagen ist sicher noch tolerierbar, mehrere Wochen sollten allerdings in keinem Unternehmen hingenommen werden.

Mit Deduplizierung Speichersysteme besser nutzen

Deduplizierung ist ein Verfahren, das das Backup effizienter macht und Speicherplatz besser nutzt. Es gibt zwei Arten der Deduplikation: zum einen die Inline-Methode und zum anderen das Post-Process-Verfahren. Das Grundprinzip ist bei beiden das gleiche: Es geht um die Eliminierung sämtlicher Datenredundanzen.

Die so genannte Inline-Deduplizierung prüft die Daten auf Redundanzen, während sie vom Rechner zum Speichersystem transportiert werden. Blöcke oder Dateien, die bereits im Speicher existieren, werden durch einen Platzhalter ersetzt. Ruft der Anwender diese Informationen ab, so greift das System auf die erstmalig gesicherten Versionen zu. Damit lässt sich je nach Datentyp bis zu 90 Prozent Speicherkapazität sparen. Speicher muss für die einmalig gespeicherten Daten und die Links zur Verfügung stehen. Das Inline-Verfahren stellt höhere Anforderungen an die CPU, so dass es hier zu Einschränkungen kommen kann. Das Verfahren lohnt sich für Replikationen an einen anderen Standort, da nach der Deduplizierung nur noch die Bandbreite für den reduzierten Datenstrom benötigt wird. Zudem braucht der Anwender weniger Speicherplatz. Der Nachteil ist, dass der kombinierte Dedup-Speicher-Prozess länger dauert als der des Post-Process-Verfahrens.

Deduplizieren mit dem Post-Process-Verfahren bedeutet, dass die Daten erst überprüft werden, nachdem sie auf dem Disk-System abgelegt wurden. Auch hier ersetzt man die Dubletten durch Links bzw. Platzhalter. Der Zugriff erfolgt wie beim Inline-Verfahren auf die erstgespeicherten Daten. Die Platzersparnis ist auch vergleichbar und kann bis zu 90 Prozent erreichen. Zunächst benötigt man aber den vollen Speicherplatz, da die Reduktion erst nach der Sicherung erfolgt. Allerdings verläuft die Datensicherung schneller als beim Inline-Verfahren, da die Daten im Originalformat zunächst auf Festplatte geschrieben und erst dann dedupliziert werden.

Die Genauigkeit der Deduplizierung lässt sich auf unterschiedliche Arten einstellen. Dabei gibt es Anwendungen, die auf Datei-Ebene nach Redundanzen suchen. Wieder andere prüfen Dateifragmente oder Byte-Ketten. Ein weiteres Verfahren sucht sogar zunächst nur nach Ähnlichkeiten, um die Rechenprozesse zu beschleunigen. Einzelne Blöcke sind natürlich häufiger zu finden als ganze Dateien. Die besten Reduktionsraten erreicht man, je detaillierter bzw. je tiefer man die Informationen prüft. Generell lohnt sich Deduplizierung für fast alle Backup-Umgebungen, aber sicher besonders für große Datenbestände mit vielen wiederkehrenden Mustern. Generell erreicht man den höchsten Deduplizierungsfaktor bei der ersten Sicherung, danach nimmt diese Rate eher ab.

Mit VTL-Backup in Archivrichtung erweitern

Eine Virtual-Tape-Library (VTL) ist ein festplattenbasierendes Speichersystem, das einzelne Tape-Drives oder Bandbibliotheken simuliert und als erste Instanz für ein Backup dienen kann. Die VTLs stellen sich den Anwendungen als echte Bänder dar und erlauben so eine schnelle Sicherung mit den Randparametern der Bandtechnologie. Die Anzahl der Slots oder Laufwerke legt der Administrator fest und wird nur von den physischen Limitierungen des Systems begrenzt. Virtuelle Bänder können von der VTL direkt auf reale Bänder geschrieben werden, ohne dass die Backup-Software oder ein Server an diesem Vorgang beteiligt ist. Eine VTL eignet sich zum Beispiel als eine Art Zwischenspeicher vor Band-Archiven.

VTLs lassen sich optimal zur Umsetzung von Backup-to-Disk-to-Tape einsetzen. Hier kommen zwei Geräte zum Einsatz: das Disk-System und das Band-System. In dieser Kombination erhält der Anwender einen guten Investitionsschutz und kann seine Bandbibliothek oder sein Laufwerk mit der optimalen Schreibrate bedienen. Starts, Stopps oder Spulen entfallen. Das Backup kann von der VTL in einem Prozess auf die Bänder transportiert werden. Zudem kann der Administrator auswählen, welche Daten zusätzlich auf Band vorgehalten werden sollen. Nicht alle Informationen der VTL müssen den Weg aufs Band finden, was wiederum den Backup-Prozess optimiert und die Bandmedien effizient ausnutzt.

Mehr als dummer Speicher

Disk-Backup ist mehr als nur ein Plattengrab für Informationen. Durch täglich neue Herausforderungen hat es sich zum hochfunktionellen Prozess entwickelt, der Verwaltung, Sicherung und Speicherung der digitalen Informationen optimieren soll. Allerdings verlangt dies auch den IT-Abteilungen mehr ab. Es muss mehr geplant und den eigenen Anforderungen entsprechend ein Backup-Konzept aufgestellt, umgesetzt und vor allem getestet werden. Denn bei allen Vorteilen, ein Restore kann nur so gut sein wie das ihm zu Grunde liegende Backup. Ein Test einer Ausfall- oder Notsituation muss erfolgen, damit der Erfolg der Datensicherung gewährleistet ist.