Effizienz ohne Deduplizierung?

01.06.2012 ubr

Effizienz ohne Deduplizierung?

Deduplizierung und Kompression haben es von der neuen Technologie zum Standard geschafft. Fast jeder setzt entsprechende Systeme ein. IT-Manager sollten jedoch hinterfragt, ob sich die Anschaffung und der Betrieb einer zusätzlichen Schicht im Speichernetz tatsächlich lohnen.

Ulrike Rieß

Deduplizierung machte den Anfang, die Kompression und intelligente/dynamische Datenplatzierung zogen nach. Immer mehr Daten im Speichernetz durchlaufen einen Reduzierungsprozess, ob nun auf Basis von gefundenen Redundanzen oder mit Hilfe von altgedienten Algorithmen. Vor wenigen Jahren begann die technische Entwicklung dieser Geräteklassen mit neuem Speicheransatz. Mit ihrer Hilfe sollen und können mehrfach abgelegte Dateien oder Dateifragmente aufgespürt und durch ein einziges tatsächlich abgespeichertes Element ersetzt werden. Alle anderen nochmals gespeicherten Elemente derselben Art werden mit wesentlich platzsparenden Zeigern verbunden, den so genannten »Pointern«.

Wirklich neu war der Ansatz allerdings nicht, da er bereits in ähnlicher Form in Objektspeichern vorkam und vorkommt. Hersteller von Deduplizierungslösungen versprechen nicht nur verlockende Reduzierungsraten von bis zu 95 Prozent des genutzten Speichers, sondern mehr oder weniger die eierlegende Wollmilchsau in Sachen Speichereffizienz. Allerdings müssen für solch hohe Reduzierungsraten auch entsprechende Voraussetzungen geschaffen werden, die dieser oftmals nicht so offen legt. Je nach Datenbeschaffenheit, Anwendungen und internen Prozessbedingungen erreichen viele IT-Verantwortliche nur ein Drittel oder ein Viertel der versprochenen Reduzierungen in ihrer Speicherumgebung. Deshalb sollte sich der IT-Leiter durchaus die Frage stellen, ob er nicht ähnliche oder bessere Effizienzergebnisse erhält, wenn er andere Methoden umsetzt.

Speicherguide.de beschäftigt sich hier mit drei Hauptargumenten der Hersteller für Deduplizierung und Co und stellt Überlegungen an, ob diese wirklich berechtigt sind.

Plattenplatz sparen

Das Argument: »Durch diese Technologien kann wertvoller Speicherplatz eingespart und anderen Anwendungen freigegeben werden.« Dies stimmt jedoch nur bedingt. Zwar lässt sich zunächst physikalisch genutzter Speicherplatz reduzieren. Allerdings empfehlen die Hersteller solcher Systeme selbst, Deduplizierung oder Kompression nur für ruhende, also wenig oder gar nicht mehr genutzte Daten im Array zu nutzen. Diese liegen bei Anwendung moderner Multi-Tiering-Software sowieso irgendwo auf SATA-Platten, verschwenden also kaum noch allzu wertvollen Speicherplatz. Man sollte tatsächlich einmal gegenrechnen, was teurer kommt: die Anschaffung eines weiteren Systems zur Datenreduzierung oder der Einsatz weniger hochkapazitiver SATA-Laufwerke im bestehenden Array. Plattenplatz sparen heißt nicht gleich mehr Effizienz. Wer bestehende Systeme beispielsweise mit 3-TByte-SATA-Drives ausstatten kann, kommt – trotz Hochwasserpreise – häufiger günstiger weg als mit einem dedizierten Dedup-System.

Kleinere Datenmenge, kleineres Backup-Fenster

Das Argument: »Durch diese Technologien kann die Menge der zu sichernden Daten reduziert und das benötigte Backup-Fenster verkleinert werden.« Das ist sicher richtig und für viele ein wichtiges Argument. Allerdings lässt sich hier ketzerisch fragen, ob diese Strategie heute noch für viele Unternehmen ein effizienter und nützlicher Weg ist. Viele Anwender haben durchaus das Problem, im Notfall kaum noch etwas mit dem tagtäglich mühsam angefertigten Backup anfangen zu können. Hier könnte es durchaus preiswerter und effizienter sein, statt eines teuren zusätzlichen Gerätes, auf weitere Platten im bereits vorhandenen System zurückzugreifen. Hierauf lassen sich Snapshots oder besser Clones der Produktivlaufwerke ablegen und zur entsprechenden Zeit vom Betrieb abkoppeln. Mit dieser Kopie hat man nicht nur alle Zeit der Welt, um das Backup anzufertigen; die Daten liegen im sofort brauchbaren Format vor und können im Notfall direkt an die Produktionsrechner angekoppelt werden. Weiterer Vorteil: Der IT-Verantwortliche braucht zur Wiederherstellung der Daten weder eine teure Backup-Software noch eine entsprechend teuer geschulte Mannschaft. Das kann der Speicheradministrator mit seinen gewohnten Werkzeugen gleich mit erledigen.

Dieser Herangehensweise stehen sicher viele gegenüber, für die das Backup einfach zum IT-Alltag gehört und sei es aus Routine. »Ich will mein Backup, ich brauche mein Backup, ich hatte immer ein Backup und ich will immer ein Backup haben« ist hier meist der Tenor, oft von Vertretern der Tape-Fraktion geäußert. Auch das Clones und Snapshots ein Backup nicht ersetzen, da häufig auf ein und demselben Rechner gespeichert, ist ein Gegenargument. Snapes und Clones sind wirklich kein Backup, aber das macht sie nicht zwangsweise schlechter. Die Effizienz entsteht dadurch, dass eben keine eigene Software, eigene Mannschaft und eigene hochkomplexe Verfahren benötigt wird, die im Notfall zu komplex, aufwendig und riskant sein könnte. Auch Medienbrüche sind nicht zu fürchten. Wer schnell und sicher zurückkommen will, sollte Clones oder Snaps und eine Spiegelung auf ein in einem entfernten Standort platziertes zweites System einsetzen, ohne Deduplizierung.

Zweigstellendaten schneller speichern

Das Argument: »Durch diese Technologien können die aus Zweigstellen zur zentralen DV geschickten Daten reduziert und damit Bandbreite geschont, Übertragungen beschleunigt und Backup-Fenster verkürzt werden.« Auch diese Aussage ist korrekt. Es erhebt sich aber durchaus die berechtigte Frage, warum der Betreiber nicht alle wichtigen und somit zu sichernden Daten gleich im zentralen Rechenzentrum abgelegt hat und auf diese über entsprechende Leitungen zugreifen muss. Vielleicht sollten wichtige oder geschäftsrelevante, also offensichtlich Backup-würdige Informationen nicht außerhalb des zentralen Standorts liegen. Hier ist eventuell eine Prüfung der grundsätzlichen Konzepte notwendig. Es kann eine preiswerte Alternative sein, über Terminals in Echtzeit auf zentrale Datenbestände zuzugreifen als Daten auch nur teilweise in Geschäftsstellen zu transportieren, über Tag zu bearbeiten und dann wieder zurückzuschicken.

Prüft die »Lohnt’s sich’s?«-Frage

Angesichts dieser Feststellungen sollten sich IT-Verantwortliche vor dem Einsatz von Deduplizierung oder Kompression eine Frage stellen: Lohnt es sich wirklich, den Preis für diese Systeme zu investieren, um die billigste Ressource im Speichersystem, nämlich die hochkapazitive Festplatte, zu schonen? Im Zeitalter von 2- oder gar 3-TByte-Laufwerken kann diese Frage getrost verneint werden. Schon zumal dann der bremsende Effekt der Anwendung der entsprechenden Algorithmen wegfällt. Deduplizierung und Kompression lohnt sich wirklich nur dort, wo viele Daten über entsprechend dünne Leitungen von Geschäftsstellen oder anderen entfernten Installationen eingeholt werden müssen. Den Standplatz im zentralen Rechenzentrum hingegen wird man zunehmend hinterfragen müssen.

Weitere Infos