21.04.2021 (Peter Marwan)
4 von 5, (7 Bewertungen)

Secondary-Storage entscheidend für Erfolg von Speicherkonzepten

  • Inhalt dieses Artikels
  • Immer mehr Sekundärdaten in Unternehmen
  • Flash kommt – die Festplatte bleibt
  • Datenmanagement statt Speichermanagement
  • Daten aus der Cloud nicht vergessen
  • Automatisierte Datenverwaltung als Ziel
  • Object-Storage und Sekundärdaten
  • Sicherheitskonzepte für Sekundärdaten

Die Bezeichnungen »Sekundärspeicher«, »Sekundärdaten« und »unstrukturierte Daten« haben fast etwas von einer Beleidigung. Die so bezeichneten Daten scheinen unwichtig, unordentlich und ihnen haftet etwas Störendes an. Aber der Umgang mit ihnen entscheiden darüber, ob Firmen in vollem Umfang von ihren Daten profitieren und was sie das kostet.

Der Großteil der erzeugten Daten sind Sekundärdaten, die selten benötigt werden (Grafik: Fast LTA).Der Großteil der erzeugten Daten sind Sekundärdaten, die selten benötigt werden (Grafik: Fast LTA). Die Unterteilung in »Primärdaten« und »Sekundärdaten« stammt aus einer Zeit, in der die großen, monolithischen Systeme als Heiliger Gral der Firmen-IT das Denken bestimmten. Ausgehend vom ERP-System wurde darum herum das gesamte Unternehmen organisiert. Sie dienten zum Betrieb und der Steuerung und erfassten alle wichtigen Bereiche. Was nicht in den Datenbanken dieser Systeme liegt, kann gar nicht wichtig sein. So die unterschwellige Annahme.

Diese Annahme war damals schon falsch. Die Bedeutung der unstrukturierten Daten außerhalb der Datenbanken der großen Software-Suiten hat seitdem aber noch stark zugenommen: Durch Richtlinien zu Aufbewahrung und Archivierung sowie den betriebswirtschaftlichen Wunsch und die technischen Möglichkeiten, einmal – woher auch immer – gesammelte Daten später auszuwerten um daraus Erkenntnisse zu gewinnen mit denen sich geschäftliche Entscheidungen fällen und begründen lassen.

Immer mehr Sekundärdaten in Unternehmen

Das Hauptproblem ist, dass die ungeliebten und verachteten Sekundärdaten wesentlich mehr Speicherplatz beanspruchen, als die sorgsam gepflegten und gehegten Primärdaten. Ein weiteres Problem ist, dass der Wert der Sekundärdaten oft lange unklar bleibt. Einige von ihnen gewinnen erst nach einem längeren Zeitraum an Wert. Sie ganz zur Seite zu legen ist aber nicht möglich. Schließlich sollen sie für Analytics-Tools, Machine-Learning oder sogar Anwendungen im Bereich Künstliche Intelligenz verfügbar sein.

Gleichzeitig nimmt die insgesamt zu speichernde Datenmenge weiterhin rasch zu. Laut Marco Becker, Senior Consultant bei IDC, betrug die globale Datenmenge 2019 rund 43 ZByte – 3 ZByte mehr als die Marktforscher 2009 für 2020 prognostiziert hat. Sie lagen also mit ihrer Vorhersage angesichts des langen Zeitraums ziemlich gut. Aktuell geht IDC von einer jährlichen Zunahme der weltweiten Datenmenge von rund einem Viertel aus, so dass die globale Datenmenge 2024 schon bei rund 143 ZByte liegen dürfte.

Treibende Kräfte des Datenwachstums sind IoT und IIoT, Social Media, E-Commerce, Entertainment sowie Machine Learning und Künstliche Intelligenz. Vieles davon wird zunehmend in der Cloud verarbeitet. Aber IDC-Analyst Becker ist sich auch sicher: »Auf lange Sicht wird On-Premises nicht verschwinden«. Der Sicherheitsaspekt sei nur ein Grund dafür – auch wenn es diesbezüglich bei den Cloud-Angeboten schon viele Verbesserungen gegeben habe.

Die physische Trennung von Speichersystemen »Air-Gap« verhindert auch die Ausbreitung von Ransomware (Grafik: Fast LTA).Die physische Trennung von Speichersystemen »Air-Gap« verhindert auch die Ausbreitung von Ransomware (Grafik: Fast LTA).

Flash kommt – die Festplatte bleibt

Der Anteil von Flash-Speicher verdoppelt sich einer anderen IDC-Prognose zufolge von 12 Prozent 2019 auf 24 Prozent im Jahr 2024. Die Festplatte bleibt – auch preislich – zur Speicherung großer Datenmengen in Unternehmen damit auch in den nächsten Jahren wichtig. Flash-Speicher setzt sich da durch, wo es um Geschwindigkeit und hohe Zugriffszahlen geht. Und nicht zuletzt hält Becker auch Bandspeicher zur Archivierung auch mittelfristig noch für relevant. Der bekannte Mix bleibt also, die Gewichtung verschiebt sich nur.

Denn wegen der enormen Menge an Daten müssen die Kosten bei der Datenspeicherung so gering wie möglich gehalten werden. Das sehen auch die großen Anbieter so. Netapp zum Beispiel hat für unstrukturierte Daten aktuell drei Empfehlungen: »Optimieren, optimieren, optimieren« und setzt dabei auf Objektspeicher. HPE stellt »intelligente Datenverwaltung« in den Vordergrund und betont dazu die Breite seines Portfolios, die für jeden Anwendungsfall etwas biete. Dell setzt ebenfalls auf intelligentes Datenmanagement und bietet sich und seine Produkte an, um Kosten für sekundären Speicher zu reduzieren.

Frank Reichart, Fujitsu: »Ein hybrides Storage-System ist für Mittelständler meistens die beste Lösung.«Frank Reichart, Fujitsu: »Ein hybrides Storage-System ist für Mittelständler meistens die beste Lösung.« »Bei Sekundärdaten ist das Ziel, große Datenmengen kostengünstig zu speichern, während die Zugriffszeiten keine große Bedeutung haben«, hält Frank Reichart, Senior Director Product Marketing Storage Solutions bei Fujitsu fest. »Hier eignen sich Festplatten mit einer hohen Kapazität und niedrigen Kosten pro TByte. Ein hybrides Storage-System, das es erlaubt, SSDs und Festplatten in einem System zu kombinieren, ist daher für Mittelständler meistens die beste Lösung«, empfiehlt Reichart.

Insgesamt zeigt sich, dass Software in Rechenzentren inzwischen ziemlich gut darin ist, »Hot Data« und »Cold Data« – also regelmäßig und selten oder gar nicht mehr genutzte Daten – zu identifizieren und auf die jeweils geeignete Plattform zu migrieren. Dafür empfehlen unabhängige Experten weiterhin unterschiedliche Speichermedien. Ansonsten büße man entweder Performance ein oder bezahle zu viel.

Viele Daten werden daher auch weiterhin auf kostengünstigen Festplatten landen. Die bleiben auch deshalb noch eine Weile konkurrenzfähig, weil Fortschritte in der HDD-Entwicklung, etwa die Helium-Füllung der Laufwerke und neue Speicherverfahren wie Heat-assisted Magnetic Recording und Microwave-assisted Recording, die Festplattenkapazität weiter erhöhen. Zudem kommen Festplatten im Verbund inzwischen auch auf hohe IOPS-Werte. Es muss also nicht alles, was im Zugriff sein muss, zwangsläufig auch auf Flash-Storage gespeichert sein.

Datenmanagement statt Speichermanagement

Angesichts der wachsenden Bedeutung der Daten für das Tagesgeschäft und der größer werdenden Datenmengen wird die Antwort auf die Frage immer wichtiger, wie sich diese Daten verwalten und speichern lassen. Die Kosten für sekundäre Speicherhardware sind in den vergangenen Jahren stetig gesunken. Diese Entwicklung wird sich voraussichtlich auch in absehbarer Zeit fortsetzen.

Die Kosten für Software zur Datenverwaltung, die benötigt wird, um Daten von der primären, schnellen und ständig zugriffsbereiten Speicherebene in einen kostengünstigeren Speicher zu verschieben, sind dagegen gestiegen.

»Es ist nicht ungewöhnlich, dass Datenverwaltungssoftware pro Kapazität mehr kostet als das Speichermedium, sodass aktuelle Lösungen die Kosten eher multiplizieren, als sie zu senken«, erklärt Betsy Doughty, Vizepräsidentin bei Spectra Logic. Sie geht daher davon aus, dass sich 2021 Unternehmen intensiver mit Storage Lifecycle Management und aktiven Archivierungslösungen beschäftigen, die die Storage-Gesamtkosten senken und dennoch für die erforderliche Verfügbarkeit der Daten sorgen.

Laut Doughty müssen Unternehmen heute ihre Speicherinfrastruktur nicht mehr vollständig neugestalten, um eine Software-Lösung für das Storage-Lifecycle-Management zu implementieren. Und die Managerin geht davon aus, dass die Rolle der Hybrid-Cloud zunimmt, da Unternehmen angesichts der andauernden Pandemie weiterhin und stärker auf Remote-Arbeit setzen und dabei Cloud-Dienste in Anspruch nehmen.

Daten aus der Cloud nicht vergessen

Die Bedeutung der Datensicherung bei der Nutzung von Cloud-Diensten kann jedoch nicht oft genug betont werden. Denn Firmen wie Google, Microsoft oder auch Salesforce überlassen die komplett oder weitgehend der Verantwortung der Anwenderunternehmen. Insbesondere für Microsoft 365 gibt es hier schon eine ganze Reihe von direkt darauf zugeschnittenen Angeboten, etwa von Acronis, Altaro, Arcserve, Barracuda und SEP.

Da eine Vielzahl von Punktlösungen für Unternehmen nicht sinnvoll und nur schwer beherrschbar ist, erweitern diese und andere Hersteller ihre Angebote zudem kontinuierlich, um eine möglichst breite Palette der gängigen Cloud-Dienste abzudecken. Aber bei der Dynamik des Marktes und der Vielzahl der Möglichkeiten wird es immer wieder für das Unternehmen wichtige Dienste geben, die sie nicht erfassen.

Automatisierte Datenverwaltung als Ziel

»Um die Datenschätze zu heben, ist es aber unerlässlich, die Inhalte zu kennen«, betont Siegfried Betke von treeConsult. Dabei helfen Metadaten – oder noch besser durch Klassifizierungs-Tools wie Titus angereicherte Metadaten. Als einen Vorteil der Datenverwaltung über Metadaten nennt Betke zum Beispiel die Möglichkeit, Datensätze schon bei der Speicherung mit einem Verfallsdatum zu versehen und so Datenschutzbestimmungen einhalten zu können. Auch der Speicherort lässt sich so regelbasiert steuern, zum Beispiel mit den Angeboten von Hammerspace.

Außerdem sind eine Vielzahl weiterer, regelabhängiger Datenfelder vorstellbar. Die Idee dahinter ist, dass nach einer gewissen Zeit, wenn das Regelwerk rund läuft, sich die Daten automatisiert verwalten. Laut Betke ist der Betrieb On-Premise oder in der Cloud möglich. Einstieg ist üblicherweise die Klärung der Frage, welche Daten überhaupt regelmäßig genutzt werden und welche überhaupt nicht mehr angefasst werden. Das alles lohnt sich natürlich bei großen Datenmengen eher.

Nach Ansicht von Betke nach ist das größte Problem heute, dass Firmen meist den Speicherplatz, aber nicht die Daten verwalten. Im Zuge der Administration werden alle Daten auf einem Datenträger gleichwertig behandelt. Sortierung finde meist nur durch unterschiedlich zugewiesene Laufwerke statt. Dadurch liegen dann zum Beispiel alle Daten einer Abteilung auf einem Laufwerk – von Verträgen bis zu den Fotos der zwanzig letzten Weihnachtsfeiern.

Object-Storage und Sekundärdaten

»File- und Block-Storage-Varianten haben den Nachteil, dass sie zum einen recht statisch, zum anderen recht statisch und ortsbezogen sind«, fasst Betke zusammen. Das heißt, die Anwender oder das System müssen wissen, unter welchem Pfad oder in welchem Block die Daten liegen. »Das verbessert sich bei Objekt-Storage: Er ist nicht hierarchisch und nicht ortsgebunden. Das erlaubt die Nutzung sehr verteilter Storage-Infrastruktur – und genau da geht der Trend hin.«

Ein Nachteil ist, das Object-Storage hohe Anforderungen an die Leistung stellt. Gerade für unstrukturierte Daten bietet sich Object-Storage aber an, weil die immer wieder sehr punktuell nach bestimmten Daten durchsucht werden sollen, um Erkenntnisse zu gewinnen.

Sicherheitskonzepte für Sekundärdaten

Kurt Gerecke, Storage-Experte für Tech Data: »Immer eine bis zwei Backup-Kopien auf einem Offline-Datenträger«Kurt Gerecke, Storage-Experte für Tech Data: »Immer eine bis zwei Backup-Kopien auf einem Offline-Datenträger« Hersteller, Sicherheitsexperten und Branchenbeobachter werden zudem nicht müde darauf hinzuweisen, dass einerseits reine Backups keine geeignete Form der Speicherung von Sekundärdaten sind, andererseits auch Sekundärdaten ein Backup benötigen. Dabei kommt dann auch Tape-Technologie noch zum Tragen. »Jede moderne Datenschutzlösung sollte eine bis zwei Backup-Kopien auf einem Offline-Datenträger vorhalten«, empfiehlt zum Beispiel Kurt Gerecke, Storage-Experte für Tech Data. Eine Begründung: Tape ist abgekoppelt vom Netzwerk und damit nur sehr schwer für Cyberangriffe erreichbar.

Ein anderes Argument für Tape sind gesetzliche oder versicherungsrechtliche Auflagen, die häufig eine sehr langfristige Aufbewahrung von Daten notwendig machen. Nicht zuletzt spielt Tape laut Gerecke bei KI-Projekten eine wichtige Rolle. Das mag überraschen. Aber erstens sind hier immer große Datenmengen involviert. Zweitens muss auch, wenn ein neuronales Netz für Deep- und Machine-Learning-Projekte trainiert ist, die Rückverfolgbarkeit der verwendeten Daten langfristig sichergestellt werden. Schließlich könnte der Algorithmus Fehler enthalten, die erst sehr viel später bemerkt werden.