07.03.2018 (Beate Herzog)
3.4 von 5, (5 Bewertungen)

Datengetriebene Revolution fordert Dateisysteme

Daten liefern der Digitalisierung den Rohstoff und die Grundlage, neue Potentiale zu heben. Dies verlangt allerdings nach massiv skalierbaren Dateisystemen und effizientem Datenmanagement – gerade auch in Bezug auf Big-Data-Analytics. Johannes Wagmüller, Director Solutions Engineering bei Netapp, spricht hier auch von einer »NAS-Evolution für die datengetriebene Revolution« und erklärt im Interview, wie sich der Hersteller dem Thema Skalierbarkeit stellt.

  Filesysteme müssen absehbarer Weise bald PByte und mehr an Dateien verwalten. Wie kann man Filesysteme schneller machen, damit Anwender und Anwendungen nicht ewig auf Ergebnisse warten müssen?

Anzeige

Johannes Wagmüller, NetappJohannes Wagmüller, NetappWagmüller: Die Parallelisierung der Operationen über alle zugewiesenen Compute- und Kapazitäts-Ressourcen schafft die Voraussetzung, Filesysteme zu skalieren. Der Schlüssel für das dynamische Erweitern von Kapazität und Performance liegt also in der systemübergreifenden Virtualisierung. Unsere FlexGroup-Volumes stellen über diesen Ansatz NAS-Dateisysteme bereit, die mehrere Cluster-Knoten überspannen und unterbrechungsfrei auf bis zu 20 PByte und auf bis zu 400 Milliarden Files anwachsen können. Anwender haben so die Möglichkeit, massiv skalierende Filesysteme unter einem Globale-Name-Space einfach und hoch performant bereitzustellen. Die dynamische Lastverteilung sorgt für den Performance-Gewinn, der sich bei klassischen NAS- und Analytic-Workloads bezahlt macht.

  Erste Distributed-Filesysteme verwalten Dateien auf privaten und öffentlichen Clouds. Wie schaffen es solche Global-Name-Spaces, das manuelle oder automatische Kopieraktionen von Dateien konsistent für das Dateisystem erfolgen?

Wagmüller: Sinnvoll finde ich, an der Stelle die drei Aspekte geo-distributed Zugriff in Echtzeit, Caching und Background-Operationen wie Cloud-Tiering separat zu betrachten. Zum ersten Punkt gilt nach wie vor, dass ein signifikant paralleler Datenzugriff auf konsistente Zugriffskontrolle – also File-Locking – angewiesen ist. Distanzbedingte Latenzen, die sich trotz WAN-Optimierung nicht überwinden lassen, setzen hierbei die natürlichen Grenzen in Bezug auf die Anwendungsfälle solcher Lösungen. Schauen wir uns als nächstes das WAN-Caching von Filesystemen an. Hier hat sich bewährt, Lesezeiten in einem geo-verteilten Szenario durch lokales Caching massiv zu reduzieren, wobei Schreibvorgänge ausschließlich zentral erfolgen und so die Datenkonsistenz gewahrt bleibt. Das dritte, zunehmend nachgefragte Thema ist, wie erwähnt, Cloud Tiering. Transparentes verschieben von »kalten« Daten lokaler Filesysteme auf Cloud-Objektspeicher ermöglicht es, Filesysteme über hybride Clouds zu spannen. Die Integration dieses Prinzips in Netapps NAS nennt sich FabricPool. Dabei wird durch lokales Vorhalten aller Metadaten schneller Zugriff auf latenzsensitive Filesystem-Operationen wie das Suchen von Dateien gewährleistet, während Policy-gesteuerte Algorithmen automatisch »kalte Datenblöcke« auf das Cloud-Tier verdrängen.

  Welche Fähigkeiten von globalen Dateisystemen für eine Multi-Cloud-Umgebung sind zukünftig unverzichtbar, oder wird die einzelne Datei hinter einer Objektspeicherung versteckt werden?

Wagmüller: Entscheidend ist die Anforderung. Sofern Applikation und Anwender in einem globalen Szenario Distanz bedingte Zugriffsverzögerungen tolerieren können, stellen Dateisysteme eine valide Option dar. Erfahrungsgemäß reduziert sich dies auf einen relativ einfachen Datenaustausch. Sofern Anwendungen kompatibel mit Objektspeicher sind, stellen diese für geo-verteilte Szenarien eine flexiblere Alternative dar. Objektgranulares, Policy-basiertes Datenmanagement kann zum Beispiel die Platzierung der Objekte im weltweit verteilten Cluster steuern. Und es ermöglicht, sozusagen Daten automatisch zum Anwender zu bringen.

  Wozu brauchen wir künstliche Intelligenz im Dateisystem?

Wagmüller: Neue Medien wie Storage-Class-Memory werden den Horizont nochmals erweitern. In Kürze lautet die Anforderung, integriertes Datenmanagement vom Server über Speicher in die Cloud leisten zu können. Also automatisches »Dataplacement« bei maximaler Effizienz und Datensicherheit. Nötig dafür ist eine Analyse der Zugriffsmuster und Prädiktion. Wir setzen mit unserer Support-Plattform active IQ schon heute auf AI (Artificial Intelligence), um auf Basis der regelmäßig erhaltenen Systemdaten und über Analysen individuelle Optimierungsempfehlungen bereitzustellen. Diese Entwicklung wird sich fortsetzen.

.