Datendeduplizierung auch archivtauglich

26.03.2009 ubr

Datendeduplizierung auch archivtauglich

Datendeduplizierung gewährleistet die effiziente Nutzung von Speicherplatz und erfährt eine breite Marktakzeptanz. Durch den vermehrten Einsatz von Festplatten in Archiven lassen sich die Vorzüge dieses Verfahrens nun auch hier nutzen. Aber auch Kombinationen von Disk- und Bandspeicher profitieren.

von Ulrike Rieß

Das Konzept der Datendeduplizierung ist nicht neu, gewinnt in den letzten Monaten aber wieder deutlich an Aufmerksamkeit und Wichtigkeit. Schon im August 2006 erschien eine Studie der Clipper Group, »The Evolution of Backups – Part Two – Improving Capacity«, in der die Autorin Dianne McAdam propagiert, dass Deduplizierung der nächste evolutionäre Schritt bei Sicherungstechnologien sei. Auch die Redaktion von speicherguide.de beschäftigte sich bereits mit diesem Thema und startete 2008 ein Langzeitexperiment (Testlabor speicherguide.de). Da Festplattensysteme wie VTLs auch verstärkt im Archivumfeld genutzt werden, hilft der Einsatz dieses Verfahrens auch bei der Langzeitaufbewahrung

Die Einschätzung der Clipper Group hat noch immer Gültigkeit, denn die Beseitigung mehrfach vorhandener Daten in sekundären Archivspeichern kann die Medienkosten deutlich reduzieren, die Verwaltung vereinfachen und die erforderliche Bandbreite zum Replizieren von Daten minimieren. Doch obwohl das Konzept der Datendeduplizierung sehr viele Vorteile verspricht, wurde eine breite Umsetzung durch die hohen Kosten für die erforderliche Rechenleistung gebremst. Die Einsparungen an Speicherressourcen standen in der Vergangenheit für viele Unternehmen nicht im Verhältnis zu den Kosten. Doch seit Hardware zunehmend kostengünstiger wird, ist der Weg für den breiten Einsatz geebnet.

Auch für Archive spielt dies nun eine Rolle, denn durch virtuelle Bandbibliotheken, die oftmals Bandmedien vorgelagert sind, lassen sich nun effiziente Langzeitsicherungen umsetzen. Oftmals fungiert auch eine Virtual-Tape-Library (VTL) selbst als Archiv, wenn sie mittels Deduplizierung längere Nutzungszyklen erreicht.

Kriterien für Datendeduplizierung

Da die Datenmengen auf Sekundärspeichern exponentiell wachsen, benötigen Unternehmen eine Möglichkeit zur effektiven Reduzierung. Durch die Eliminierung duplizierter Daten und die Sicherstellung, dass Datenarchive so kompakt wie möglich sind, können Unternehmen mehr Daten länger online halten, und das zu deutlich geringeren Kosten. Es gibt acht Schlüsselkriterien, die man bei der Evaluierung von Deduplizierungslösungen berücksichtigen sollte:
1. Konzentration auf das dringlichste Problem
2. Integration in die vorhandene Umgebung
3. VTL-Fähigkeit
4. Einfluss der Deduplizierung auf die Backup-Performance
5. Skalierbarkeit
6. Unterstützung verteilter Topologien
7. Echtzeit-Sicherung der Archive
8. Effizienz und Wirksamkeit

Konzentration auf das dringlichste Problem

Unterschiede der einzelnen Backup-Verfahren.
QuelleEnterprise Strategy Group (ESG)

Die erste Überlegung für eine Deduplizierung sollte auf die Kernproblematik gerichtet sein: Backup-Daten auf Sekundärspeichern. Bei Backup-Daten können die Speicherplatzanforderungen ohne Dedup um ein Vielfaches höher sein.

Integration in die vorhandene Umgebung

Eine effektive Deduplizierungslösung sollte sich möglichst nahtlos in eine vorhandene Infrastruktur einfügen. Viele Unternehmen entscheiden sich für virtuelle Bandbibliotheken zur Verbesserung der Qualität ihrer Backups, ohne störende Eingriffe in Richtlinien, Verfahren oder Software. Damit ist eine VTL-basierte Deduplizierung die beste Möglichkeit, um diese Technologie mit möglichst wenigen Eingriffen zu implementieren. Außerdem konzentriert man sich dabei auf das größte Vorkommen duplizierter Daten – nämlich Backups. Lösungen, die proprietäre Appliances erfordern, sind tendenziell weniger kosteneffektiv als solche, die mehr Offenheit und Flexibilität bieten. Darüber hinaus lässt sich das Archiv somit leichter bedienen. Unnötige Redundanzen werden vermieden und der Datenstrom kann optimal auf das Archiv abgestimmt werden, beispielsweise beim Einsatz von Bandtechnologien. Die VTL fungiert hier also als Pufferspeicher und nutzt Deduplizierung, um die Archivkapazitäten optimal zu nutzen und den Datenstrom aufs Nötigste zu begrenzen.

VTL-Fähigkeit

Wenn eine Technologie zur Datendeduplizierung aufbauend auf einer VTL implementiert wird, müssen die Fähigkeiten der VTL im Rahmen der Evaluierung berücksichtigt werden. Es ist unwahrscheinlich, dass die durch die Deduplizierung erzielten Einsparungen die Schwierigkeiten aufwiegen, die durch den Einsatz einer nicht dem Standard entsprechenden VTL verursacht werden. Das gilt ebenso für die dahinter liegende Archivlösung, die eine Anbindung an VTLs gewährleisten muss.

Einfluss der Deduplizierung auf die Performance

Es ist zu berücksichtigen, wo und wann die Datendeduplizierung stattfindet. Obgleich manche Lösungen eine Deduplizierung während der Datensicherung versuchen, verarbeitet dieses Inline-Verfahren den Stream bei dessen Eintritt in die Deduplizierungsanwendung, wodurch die Performance von der Kapazität der einzelnen Node abhängt. Dieser Ansatz kann die Sicherung verlangsamen, Zeitfenster gefährden und die VTL-Performance insgesamt um bis zu 60 Prozent verringern. Im Vergleich dazu umgehen Lösungen zur Datendeduplizierung, die nach dem Abschluss von Speichervorgängen oder gleichzeitig zur Sicherung ausgeführt werden, dieses Problem und beeinträchtigen somit nicht die Performance. Dieses Post-Processing verarbeitet die Daten durch Auslesen aus dem VTL-Speicher, nachdem sie auf Festplatte zwischengespeichert wurden. So ist gewährleistet, dass die Backups nicht durch die VTL oder Speichereinschränkungen verlangsamt werden. Die Performance für das Archiv lässt sich dadurch optimieren, da alle Redundanzen eliminiert wurden. Das Archivieren kann zudem in einem Schritt erfolgen und muss nicht in mehrfachen Ansätzen erfolgen.

Skalierbarkeit

Datendeduplizierung im Cluster-Umfeld

Da die Lösung zur längerfristigen Datenspeicherung eingesetzt wird, bildet die Skalierbarkeit in Hinblick auf Kapazität und Performance eine wichtige Rolle. Dabei sollten Wachstumsprognosen für mindestens fünf Jahren berücksichtigt werden. Beispielsweise erfüllt ein Clustering-Ansatz die Anforderungen eines steigenden Kapazitätsbedarfs – selbst für Umgebungen mit vielen Petabyte an Daten – ohne die Deduplizierungseffizienz oder System-Performance zu beeinträchtigen. Durch Clustering lassen sich VTLs optimal verwalten und auf logischer Ebene als ein einziges Datenarchiv einsetzen. Das Clustering stellt außerdem eine hochverfügbare Umgebung bereit, in der die VTL und die Deduplizierungs-Nodes durch Failover-Unterstützung abgesichert werden.

Unterstützung verteilter Topologien

Datendeduplizierung bietet nicht nur einzelnen Rechenzentren, sondern auch Unternehmen mit Filialen und Geschäftsstellen Vorteile. Eine Lösung, die eine Replizierung sowie mehrere Deduplizierungsebenen umfasst, kann die Vorteile dieser Technologie am besten ausschöpfen. Beispielsweise sollte ein Unternehmen mit einer Zentrale, drei regionalen Niederlassungen und einer Einrichtung für das Disaster-Recovery (DR) in der Lage sein, eine Deduplizierung in den Niederlassungen zu implementieren, um eine effiziente lokale Speicherung und Replizierung an die Zentrale zu erleichtern. Die Lösung muss der Zentrale mit nur minimaler Bandbreite eine Überprüfung ermöglichen, ob die entfernten Daten bereits im zentralen Archiv enthalten sind. Nur die ausschließlich vorhandenen Daten der jeweiligen Standorte sollten an die Zentrale und anschließend an den DR-Standort repliziert werden, um die erforderliche Bandbreite möglichst gering zu halten.

Echtzeit-Sicherung der Archive

Der Zugriff auf das deduplizierte Datenarchiv stellt eine kritische Anforderung dar und darf nicht durch einen »Single Point of Failure« gefährdet werden. Eine robuste Lösung zur Datendeduplizierung sollte daher eine Spiegelung zum Schutz vor lokalen Speicherausfällen umfassen, ebenso wie eine Replizierung zum Schutz in Notfällen. Zwar lässt das die Investitionskosten höher ausfallen, der Grad der Sicherheit steigt aber entsprechend, was für Archive in Branchen wie Versicherung, Finanzen, Medizin oder Behörden ein entscheidendes Kriterium ist. Da sämtliche Redundanzen entfernt wurden, ist es wichtig, die Verfügbarkeit der Daten auf jeden Fall zu garantieren.

Effizienz und Wirksamkeit

Dateibasierte Deduplizierungsansätze reduzieren die Anforderungen an die Speicherkapazität nicht so stark wie Ansätze mit einer Datenanalyse unterhalb der Dateiebene, also auf Blockebene. Die meisten unterhalb der Dateiebene ablaufenden Deduplizierungsprozesse verwenden daher eine Art von Segmentierung zur Unterteilung großer Datenmengen. Dabei werden beispielsweise virtuelle Bandkassetten in kleinere Teile aufgeteilt, die nach duplizierten Daten durchsucht werden. Größere Datensegmente können zwar schneller verarbeitet werden, doch lässt sich bei ihnen eine Duplizierung schlechter feststellen. Wenn die Segmentierung am Anfang eines Bandes (oder Datenstreams bei anderen Implementierungen) erfolgt, kann der Deduplizierungsprozess durch die von der Backup-Software erzeugten Metadaten fehlgeleitet werden, selbst wenn die Datei nicht verändert wurde. Wenn die Lösung dagegen die Metadaten isolieren und nach einer Duplizierung in den eigentlichen Datendateien sucht, werden viel mehr duplizierte Daten gefunden. Die Kombination dieser Verfahren kann zu einer Steigerung deduplizierten Daten um 30 bis 40 Prozent führen.

Fazit

Da die Menge gespeicherter Datenvolumen auf Grund der Anforderungen von Anwendungen und gesetzlichen Vorgaben ständig zunimmt, entwickelt sich auch die Datendeduplizierung rasch zu einer geschäftskritischen Technologie. »Beachtet ein Unternehmen alle relevanten Punkte für die Wahl einer Deduplizierungslösung sind nicht nur enorme Einsparungspotenziale möglich, sondern auch neue oder zusätzliche Strategien für das Archiv oder Backup, wie beispielsweise das Online-Backup von verteilten Unternehmenseinheiten«, erklärt Guy Berlo, Vice President Central European Sales & Operations bei Falconstor. »Beispielsweise bietet FalconStor mit »FDS« (File Deduplications System) eine Deduplizierungstechnologie, welche nicht nur die wichtigsten acht Grundanforderungen erfüllt, sondern sich auch in die neuesten Technologien, wie beispielsweise virtuelle Server- und Speicherumgebungen, nahtlos einfügt. So kann ein Unternehmen die Vorteile der Deduplizierung mit den Vorteilen anderer sinnvoller Technologien kombinieren um seine gesamte Rechenzentrumsstruktur zu optimieren und zu konsolidieren.«

Zusätzlich dazu profitieren Anwender auch im Archivierungsbereich von dieser Technologie, nicht nur wenn sie VTL als Archiv einsetzen. Bei dahinter liegenden Archivlösungen wie optischen oder Band-Systemen lassen sich Datenströme und Sicherungsprozesse optimieren. Die Geräte lassen sich zudem besser ausnutzen, Archivprozesse besser planen und in die interne Strategie einbinden.