30.10.2015 (Doc Storage)
4.1 von 5, (9 Bewertungen)

Ist Deduplikation auf Flash-Systemen sinnvoll?

Leserfrage: Im Vergleich zu Disk-Arrays sind Flash-Systeme in der Regel mit weniger Speicherkapazität ausgestattet. Daher macht es eventuell Sinn das zu speichernde Volumen zu reduzieren. Bewährte Methoden sind beispielsweise Deduplikation und Kompression. Eignen sich diese Datenreduktionsmethoden wirklich für All-Flash-Systeme oder sollte man sie eher vermeiden?

Antwort Doc Storage:

Grundsätzlich muss vorausgeschickt werden, dass auf jeglichem Flash-Medium, egal ob Standard-SSD oder PCI-Flash, jeder schreibende I/O, der vermieden werden kann, ein guter I/O ist. Dies trägt deutlich zur Haltbarkeit und damit zur Langzeitnutzung der Medien bei. Wenn man sich unter dieser Voraussetzung die verschiedenen Optionen ansieht, kommt man zu den folgenden Schlüssen:

Deduplikation nach dem Ablegen auf dem Medium: Hierbei werden die Daten zunächst im Original auf den Zieldatenträger geschrieben. Erst dann durchsucht ein Algorithmus die bereits gespeicherten Informationen auf Dubletten, um diese dann möglicherweise durch Zeiger auf die Originale zu ersetzen und die vorher gespeicherten Daten anschließend zu löschen, um den Speicherplatz wieder freizugeben. Dies ist die schlechteste Art mit Flash-Speichern umzugehen.

Die einzelnen Zellen werden zunächst vollgeschrieben, um sie dann wieder zu löschen. Zwar ergibt dies je nach Datenart eine Reduktion des benötigten Speicherplatzes um bis 90 Prozent, allerdings ohne die Zellen zu schonen. Das System wird die geringste Lebensdauer von allen haben. Dasselbe gilt für Systeme, die Daten nicht deduplizieren, sondern nach dem Speichern komprimieren. Auch hierbei werden wesentlich mehr Zellen benutzt, als später von den eigentlichen Daten belegt werden.

Deduplikation im Datenstrom: Das System analysiert die zu schreibenden Daten bereits vor dem Ablegen in den Zellen und schreibt tatsächlich nur neue, aber keine bereits vorhandenen Informationen. Es werden so nur Zellen beschrieben, die auch von späteren reduzierten Daten belegt werden. Die beste Art mit Flash-Speichern zu arbeiten, platzsparend und ressourcen-schonend. Wie bereits im vorigen Fall gilt dies auch für Arrays, die im Datenstrom komprimieren und dann speichern.

Ein wesentlicher Unterschied zwischen Deduplikation und Kompression liegt im Umgang mit den gespeicherten Daten beim Auslesen. In deduplizierten Systemen können Informationen einfach ausgelesen werden, da diese ja mindestens einmal vollständig und unmodifiziert vorliegen. In Systemen mit Kompression müssen die gespeicherten Informationen ausgelesen und mithilfe des genutzten Algorithmus in ihr Original verwandelt werden. Dies kann entweder im Hauptspeicher des Arrays geschehen, was die Zellen des Flash-Speichers schont, oder aber das Betriebssystem entpackt die Daten auf einen anderen Bereich des Speichermediums und gibt sie dann zum Lesen frei. Wie man sich denken kann, ist dies wiederum eine der schlechtesten Arten, mit SSDs bzw. Flash umzugehen.

Auch hier gibt es bei allen theoretischen Betrachtungen, was denn das preiswerteste, das ressourcen-schonendste oder das schnellste Verfahren ist, eine Tatsache, um die kein Hersteller (und die werden mit Sicherheit zahlreich über mich herfallen) herumkommt, der großflächig Werbung mit Deduplikation und/oder Kompression in SSD- bzw. Flash-Arrays macht: Diese Medien werden wesentlich schneller deutlich größer als alle schnellen Festplatten und nähern sich in ihrem Preis auch immer weiter diesen Regionen an. Bald wird es sich gar nicht mehr lohnen, überhaupt Festplatten einzusetzen.

Man versucht also mit einem Riesenaufwand bei Algorithmen und Caching, für teures Geld die billigste Ressource im gesamten System, also die SSD- oder Flash-Speicher, »besser« auszunutzen. Und das mit Verfahren, die mit Sicherheit keines dieser Systeme schneller macht. Ich erinnere mich gern an einen Kollegen, der immer zu sagen pflegte »nichts wird dadurch schneller, dass man es zweimal macht.« Und egal ob Deduplikation oder Kompression, dies erhöht die Anzahl der I/Os im System enorm. Dabei ist es einerlei, ob nun gegen die Speichermedien oder im Cache. Von der zusätzlichen Belastung der CPUs möchte ich gar nicht reden.

Also, egal über welche Lösung Sie nachdenken – die schnellste ist immer noch diejenige, die die Daten unbehandelt auf die Medien lässt.

Gruß
Doc Storage

Stellen Sie Ihre Frage
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Stellen Sie Ihre Frage an: DocStorage@speicherguide.de
Kommentare (3)
02.11.2015 - bernd.schaub

Schöner Beitrag! Offline Deduplikation macht großen Speicheranbietern hierbei deshalb Probleme, weil diese teils alte bzw. eingeschränkte Hardware einsetzen oder in einer sturen Firmenphilosophie stecken geblieben sind. In dem Segment wo Höchstleistung gebraucht wird, ist Technik und Logik wichtiger als ein Name!

30.10.2015 - G. Vay

Was ist mit der Geschwindigkeit, wenn die De-/Komprimierung in Hardware gegossen oder die Storage-CPU hinreichend darauf ausgelegt ist?

Das kostet zwar Strom aber keine Performance...

30.10.2015 - H. Brummer

Es kann doch nicht sein, dass in einem Magic Quadrant für All-flash arrays dedup/compresssion praktisch das Ausschlußkriterioum ist um in den Top 5 zu landen, dass aber Performance-Werte überhaupt nicht berücksichtigt werden.

Endlich mal jemand der sich dem "dedup/compression" Diktat der sogenannten Industrianalysten entgegenstellt.

Chapeau!


Mehr von Doc. tec. Storage 22.04.2022 RAID: Systemwechsel ohne Datenverlust möglich?

Lässt sich ein RAID in einer anderen Umgebung in Betrieb nehmen, zum Beispiel weil der dazugehörige PC kaputt ist? Doc Storage sieht hier nur einen kleinen Handlungsspielraum, um einen Datenverlust zu vermeiden.


08.04.2022 Die fünf populärsten Backup-Methoden im Überblick

Unternehmensdaten sind mehr denn je bedroht. Daten werden immer wichtiger und die Anforderungen an die Datensicherung steigen und so weiter und so fort. Was sollen wir tun? Auf welche Backup-Methode sollen wir setzen? Die jeweiligen Anbieter propagieren natürlich ihrem Portfolio entsprechend. Die einen sind für Tape oder die Cloud, die anderen für Disk-Systeme. Was empfehlen Sie wofür?


01.04.2022 Backups sind für Disaster-Recovery nutzlos

Zurzeit haben es alle wichtig mit Backup & Gedöns. Der World Backup Day soll Aufmerksamkeit erzeugen. Auf Backup spezialisierte Anbieter und vor allem Security-Experten werden nicht müde, vor Ransomware und Cyberattacken zu warnen und Backups als Lebensversicherung hervorzuheben. Alles richtig, laut Doc Storage helfen Backups im Katastrophenfall aber nichts. Zudem sind viele gängige Thesen nur Worte, die Praxis sieht meist anders aus…


11.02.2022 Unterschiede zwischen Backup und Archiv

Eine immer wiederkehrende Diskussion dreht sich um das Thema Archivierung vs. Backup. Die landläufige Meinung lautet oft genug: Ein Archiv ist eigentlich nur ein Backup, welches länger aufbewahrt wird. Warum ersetzt ein Backup kein Archiv, wie ist Ihre Meinung?


14.01.2022 Speichermarkt 2022 – Versuch eines Ausblickes

Doc Storage wagt einen Ausblick auf das Storage-Jahr 2022. Für ihn stehen aber nicht die üblichen Anbieterthemen im Fokus, sondern vielmehr strukturelle Entwicklungen in den Rechenzentren. Aus seiner Sicht ist es unumgänglichen künftig verstärkt auf Tape zu setzen, genauso wie die Rückkehr lokaler Speichersysteme. Auch in der Cloud sieht er Potenzial, aber nicht so, wie es die einschlägigen Marktauguren vorhersagen.


10.12.2021 Externes USB-Laufwerk verliert Dateien – warum?

Von einer externen USB-Festplatte verschwinden plötzlich Dateien. Auch der Austausch gegen eine neue SSD bringt keine entscheidende Verbesserung. Liegt die Ursache in den Dateisystem-Einstellungen?

powered by
N-TEC GmbH Overland-Tandberg
FAST LTA Quantum
Holstein IT-Solutions TrueNAS
Folgen Sie speicherguide.de auch auf unseren Social-Media-Kanälen
Folgen Sie uns auf Facebook Folgen Sie uns auf Pinterest Folgen Sie uns auf YouTube
Folgen Sie uns auf Twitter Folgen Sie uns auf Linkedin speicherguide.de-News per RSS-Feed