Auswahlkriterien für Daten-Deduplizierungs-Lösungen

30.07.2009 ubr

Auswahlkriterien für Daten-Deduplizierungs-Lösungen

Bei der Planung von Deduplizierung kann die Beachtung von Schlüsselkriterien helfen, die richtige Entscheidung zu treffen. Werden diese acht Punkte bedient, kann das Dedup-Tool effizient und nutzbringend arbeiten und eine hohe Reduktionsrate erreichen.

Deduplizierung gehört fast zum guten Ton bei Datensicherungen mit Festplatten. Am Markt gibt es unterschiedliche Lösungen, die in verschiedenen Umgebungen auch andere Nutzwerte erreichen. Bevor sich ein Unternehmen für einen Anbieter entscheidet, sollte es einige Hauptkriterien der Deduplizierung ins Auge fassen und prüfen.

Kostendruck treibt Deduplizierung an

Spätestens seit der Finanzkrise im Herbst 2008 haben Unternehmen in jedem Industriesektor strikte Ausgabenkontrollen auf Grund zu erwartender Umsatzrückgänge eingeführt. Jede IT-Abteilung steht seitdem unter starkem Druck und die Marschrichtung für die Zukunft lautet: Ausgaben reduzieren, Betriebskosten senken und Energie sparen.

Ergebnisse unterschiedlicher Backup-Methoden

Das zwingt IT-Profis, nach Technologien zu suchen, die zu besserer Effizienz und einem höheren ROI (Return on Investment) führen. Das Konzept der Deduplizierung erwies sich von Anfang an als ein viel versprechender Ansatz. Deduplizierung wird von vielen Firmen bereits umgesetzt und als der nächste Entwicklungsschritt im Bereich Backup-Technologien angesehen. Die Vorteile sind offensichtlich und praktikabel: Eliminierung von doppelten Daten in sekundären Speicherarchiven senkt Kosten, strafft Management-Aufgaben und minimiert die für das Replizieren der Daten notwendige Bandbreite. Deduplizierung kann die Effizienz optimieren und Geld einsparen.

Viele Hersteller bieten Lösungen für Deduplizierung an, so dass es für Unternehmen nicht einfach ist, den richtigen Anbieter und die richtige Lösung zu finden. Jeder Anbieter behauptet von sich, über den besten Ansatz zu verfügen und überlässt es dem Kunden festzulegen, welche Faktoren für sein Geschäft am wichtigsten sind. Es ist eine Reihe von Schlüsselfaktoren zu beachten, um mit Hilfe der Daten-Deduplizierung eine kosteneffektive, hochleistungsfähige und skalierbare Datenspeicherung zu realisieren.

Acht Kriterien für eine robuste Daten-Deduplizierung

Bei der Auswahl einer Lösung zur Daten-Deduplizierung sind in der Regel acht Hauptkriterien zu berücksichtigen:

1. Die Hauptprobleme adressieren

Zunächst muss die Frage gestellt werden, ob die Lösung den Bereich mit dem größten Problem berührt, nämlich Sicherungsdaten im sekundären Speicher. Sicherungsdubletten können dazu führen, dass die Speicheranforderungen um ein Vielfaches größer sind, als es bei einer Eliminierung dieser Daten der Fall wäre. Über mehrere Server und mehrere Standorte hinweg betrachtet kann die Speicherreduzierung durch Deduplizierung enorme Auswirkungen haben.

2. Anpassung an bestehende Ausstattung

Eine effektive Daten-Deduplizierung sollte möglichst nicht die täglichen Vorgänge und Abläufe stören. Viele Unternehmen verlassen sich auf virtuelle Bandbibliotheken (VTLs), um die Qualität ihres Backups ohne störende Änderungen der Richtlinien, Vorgänge oder der Software zu verbessern. Andere hingegen setzen auf Disk-to-Disk-Backup. Hierfür benötigt man eine Deduplizierungs-Lösung, die eine Netzwerkschnittstelle zur Backup-Anwendung darstellt. Deduplizierung in diesem Prozess vereinfacht und erweitert das Disk-to-Disk-Backup und die Datensicherung kann ohne Störung der Abläufe vollzogen werden.

3. Fähigkeiten der VTL

Wenn die Deduplizierung in einer Umgebung mit virtueller Bandbibliothek eingesetzt werden soll, sind deren Fähigkeiten beim Auswahlprozess zu berücksichtigen. Es ist unwahrscheinlich, dass die Vorteile der Deduplizierung die Schwierigkeiten überwiegen, die durch den Einsatz einer nicht standardmäßigen VTL verursacht wurden. Sowohl Funktionalität, Leistung, Stabilität und Support einer VTL als auch die Deduplizierungs-Erweiterungen sind wesentliche Faktoren, die berücksichtigt werden müssen.

4. Auswirkung auf Sicherungsleistung

Ebenfalls essenziell ist es, wo und wann die Daten-Deduplizierung im Verhältnis zum Backup-Prozess stattfindet. Einige Lösungen führen eine Deduplizierung durch, während die Daten gesichert werden. Bei dieser so genannten Inline-Methode wird der Backup-Stream verarbeitet, sobald er in die Deduplizierungs-Anwendung gelangt. Dieser Ansatz kann die Datensicherung verlangsamen, Backup-Fenster einschränken und die VTL-Leistung abbauen.

Im Vergleich dazu vermeidet Deduplizierung, die nach der Sicherung ansetzt, diese Probleme und wirkt sich nicht ungünstig darauf aus. Bei dieser Post-Processing-Methode werden die Sicherungsdaten durch Lesen des Backup-Repository und nach Zwischenspeicherung auf Disk verarbeitet.

5. Skalierbarkeit

Skalierbarkeit hinsichtlich Kapazität und Leistung ist besonders wichtig, da die Lösung einer langfristigen Datensicherung dienen soll. Deshalb sollten Unternehmen Wachstumserwartungen der kommenden fünf Jahre und darüber hinaus berücksichtigen. Eine Deduplizierungs-Lösung sollte eine Architektur bereitstellen, die sowohl die geschäftliche Lage bei Implementierung als auch beim langfristigen Wachstum berücksichtigt.

6. Unterstützung für verteilte Topologien

Daten-Deduplizierung bietet nicht nur Vorteile beim Einsatz in einem einzelnen Rechenzentrum, sondern auch in Unternehmen mit mehreren Standorten. Eine Lösung, die sowohl Replikation als auch verschiedene Ebenen der Deduplizierung mit umfasst, kann das Maximum aus dieser Technologie herausholen. So sollte beispielsweise ein Fertigungsunternehmen mit mehreren Standorten und einer sicheren Einrichtung für Disaster-Recovery in der Lage sein, Deduplizierung in den regionalen Standorten zu implementieren, um effizient die lokale Datensicherung und Replikation zur Zentrale zu ermöglichen. Nur gleiche Daten für alle Standorte sollten für die Zentrale und danach für den DR-Standort repliziert werden, um einen hohen Bedarf an Bandbreiten zu vermeiden.

7. Verfügbarkeit eines Deduplizierungs-Repository

Es ist besonders wichtig, ein hochverfügbares Deduplizierungs-Repository zu erstellen. Da der Reduzierungsvorgang eine große Datenmenge in einem Verzeichnis konsolidiert, muss die Risikotoleranz hinsichtlich eines Datenverlusts sehr gering sein. Der Zugriff auf ein dedupliziertes Daten-Repository ist unabdingbar und sollte nicht durch eine einzige Fehlerquelle gefährdet sein. Eine robuste Daten-Deduplizierung umfasst die Spiegelung, um vor lokalen Speicherfehlern zu schützen, und die Replikation als Schutz vor Komplettausfällen.

8. Effizienz und Effektivität

Ebenso wie Ansätze, die Daten von Sub-Files oder Block-Level analysieren, reduziert ein auf Daten basierender Deduplizierungs-Ansatz nicht die Anforderungen an Speicherkapazität. Nehmen wir beispielsweise eine Veränderung und Speicherung einer einzigen Zeile in einer Präsentation mit vier MByte: bei einer auf File basierenden Lösung muss die gesamte Datei gespeichert werden, so dass sich der erforderliche Speicher verdoppelt. Wenn die Präsentation dann noch an mehrere Personen geschickt wird, vervielfacht sich der negative Effekt.

Wenn die Lösung die Daten trennen und nach Dubletten in Segmenten unterschiedlicher Größe (Chunks) innerhalb der tatsächlichen Dateien suchen kann, ist die Chance der Entdeckung von Dubletten sehr viel höher. Einige Lösungen können sogar die Größe der Chunks justieren – auf Grund von Informationen, die aus den Datenformaten gewonnen werden. Mit Hilfe dieser Technik kann die auffindbare Menge an Dubletten um 30 bis 40 Prozent gesteigert werden. Dies hat eine sehr große Auswirkung auf die Kosteneffektivität der Lösung.

Die Gesamtlösung im Blick behalten

Cluster-Lösung für Deduplizierung

Da das gespeicherte Datenvolumen ständig steigt, während gleichzeitig die IT-Ausgaben in den Unternehmen sinken, wird Daten-Deduplizierung sehr schnell zu einer entscheidenden Technologie. Sie ist eine effiziente Methode, das Datenvolumen drastisch zu senken, Speicheranforderungen zu kürzen und die Kosten für den Datenschutz und Datenverlustrisiken zu minimieren.

Obwohl die Vorteile der Deduplizierung recht groß sind, sollten sich Unternehmen durch den Rummel um diese Technologie nicht blenden lassen. Unabhängig davon, welcher Ansatz verfolgt wird, die Menge an möglicherweise deduplizierten Daten ist abhängig von der Natur der Daten und den Richtlinien zum Schutz dieser Daten. Um die maximalen Vorteile der Deduplizierung herauszuholen zu können dürfen sich Organisationen nicht auf pure Statistiken, wie beispielsweise die theoretischen Reduzierungsquoten, verlassen. Firmen müssen Lösungen wählen, die auf einem umfangreichen Anforderungskatalog mit quantitativen und qualitativen Faktoren beruhen.