23.10.2015 (Doc Storage)
3.8 von 5, (4 Bewertungen)

Was sind »Data Lakes«?

Leserfrage: Was sind »Data Lakes« und welchen Zweck erfüllen sie?

Antwort Doc Storage:

Der Ausdruck Data-Lake wird James Dixon zugeschrieben, dem Chef der Firma Pentaho. Er umschreibt ihn so: »Stellen Sie sich einen Datenspeicher als einen Stapel aus Kisten mit Mineralwasser vor – gereinigt und zum einfachen strukturierten Verbrauch verpackt. Im Gegensatz dazu ist ein Data-Lake ein großer See aus Wasser in seiner natürlicheren Form. Die Inhalte des Data-Lakes strömen aus einer oder mehreren Quellen in diesen See, und verschiedene Nutzer können sich seinen Inhalt anschauen, in ihn eintauchen oder Proben entnehmen.«

In der Praxis bedeutet dies, dass ein Data Lake einen riesigen, einfach zu erreichenden Speicher aus preiswerten Komponenten darstellt, in dem ungeordnete Datenmenge beliebiger Größe (also Big Data) gespeichert werden können. Im Gegensatz zu bisherigen, eher analytischen Lösungen in diesem Segment, die lediglich einige Attribute der Informationen zusammenfassen und die eigentlichen Daten in nachgeschalteten Speichern halten, ist ein Data-Lake dazu vorgesehen, sämtliche Informationen auf derselben Ebene zu speichern. Dies kann man beispielsweise deshalb tun, weil man die eigentliche Verwendung oder die Art der Auswertung der Daten noch nicht oder noch nicht vollständig kennt und deshalb eine Ordnung noch nicht vornehmen kann.

Im Ende ist ein Data Lake also die Gesamtheit aller in einem Zusammenhang verfügbaren Daten, bevor sie durch Prozesse oder Auswahlkriterien in irgendeine weiter nutzbare Ordnung gebracht wurden. Unter dieser Prämisse sind Data Lakes einfacher aufzubauen, müssen keine oder kaum Ansprüche an Leistungsfähigkeit erfüllen und sind damit wesentlich preiswerter als herkömmliche, bereits spezialisierte und leistungsfähige Big-Data-Installationen.

Gruß
Doc Storage


Stellen Sie Ihre Frage
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Stellen Sie Ihre Frage an: DocStorage@speicherguide.de

Mehr von Doc. tec. Storage 12.04.2019 Dateisysteme für den PByte-Bereich

Datenberge jenseits des PByte-Bereichs, Cloud-Anbindungen und Analytics-Szenarien stellen Dateiysteme vor neue Herausforderungen. Der Markt bietet einige Optionen wie GPFS, Gluster FS, OneFS oder QF2. Worauf gilt es zu achten?


05.04.2019 Neuordnung des Storage-Tiering

Nachdem sich Flash und SSDs mittlerweile auch in mehrere Leistungsklassen unterteilen, steht die Technik nicht mehr nur für Tier 0. 15k-HDDs scheinen vor dem Aus zu stehen. Gilt dies auch für alle SAS-Platten? Wie sieht die Neuordnung des Storage-Tiering aktuell aus?


15.03.2019 30 Jahre World Wide Web: Was gibt es zu feiern?

Das World Wide Web feiert seinen 30. Geburtstag. Ohne dem Internet ist unser heutiges Leben nicht mehr vorstellbar. Für Doc Storage hat das Netz aber auch genug Schattenseiten. An Regulierungen bzw. an das vom Erfinder erhoffte bessere Internet, glaubt er nicht.


08.03.2019 Datenanordnung im RAID 10 mit 8 Platten

In einem Server wird ein RAID 10 mit acht Festplatten unter Windows 2008 R2 betrieben. Nun ist ein Laufwerk ausgefallen. Da sich nur wenige Daten auf den HDDs befinden, besteht die Möglichkeit, dass die defekte Platte eventuell gar keine Daten enthält?


22.02.2019 Welcher RAID-Level für welche Anwendung?

Gibt es eigentliche eine Faustregel, welches RAID-Level für welche Anwendung am besten geeignet ist? Ich denke da zum Beispiel an Datenbanken mit sehr vielen Zugriffen bei relativ kleinen Datenmengen oder an Webserver und als Extrem auf der anderen Seite Bild-Datenbanken, Audio-Server beim Rundfunk, Video-Archive mit sehr hohen Datenvolumen.


15.02.2019 Was sagt DWPD über SSDs aus?

Im Zusammenhang mit (Enterprise-)SSDs wird oft die Qualitätsgröße DWPD (Drive Writes Per Day) genutzt. Meist wird die Angabe auch für einen Zeitraum von fünf Jahren spezifiziert. Was sagt DWPD genau aus und mit welcher Standard-Lebensdauer darf man rechnen?

powered by
Boston Server & Storage Solutions Datacore Software
Fujitsu Technology Solutions GmbH Seagate Technology
N-TEC GmbH FAST LTA AG