23.10.2015 (Doc Storage)
3.8 von 5, (4 Bewertungen)

Was sind »Data Lakes«?

Leserfrage: Was sind »Data Lakes« und welchen Zweck erfüllen sie?

Antwort Doc Storage:

Der Ausdruck Data-Lake wird James Dixon zugeschrieben, dem Chef der Firma Pentaho. Er umschreibt ihn so: »Stellen Sie sich einen Datenspeicher als einen Stapel aus Kisten mit Mineralwasser vor – gereinigt und zum einfachen strukturierten Verbrauch verpackt. Im Gegensatz dazu ist ein Data-Lake ein großer See aus Wasser in seiner natürlicheren Form. Die Inhalte des Data-Lakes strömen aus einer oder mehreren Quellen in diesen See, und verschiedene Nutzer können sich seinen Inhalt anschauen, in ihn eintauchen oder Proben entnehmen.«

In der Praxis bedeutet dies, dass ein Data Lake einen riesigen, einfach zu erreichenden Speicher aus preiswerten Komponenten darstellt, in dem ungeordnete Datenmenge beliebiger Größe (also Big Data) gespeichert werden können. Im Gegensatz zu bisherigen, eher analytischen Lösungen in diesem Segment, die lediglich einige Attribute der Informationen zusammenfassen und die eigentlichen Daten in nachgeschalteten Speichern halten, ist ein Data-Lake dazu vorgesehen, sämtliche Informationen auf derselben Ebene zu speichern. Dies kann man beispielsweise deshalb tun, weil man die eigentliche Verwendung oder die Art der Auswertung der Daten noch nicht oder noch nicht vollständig kennt und deshalb eine Ordnung noch nicht vornehmen kann.

Im Ende ist ein Data Lake also die Gesamtheit aller in einem Zusammenhang verfügbaren Daten, bevor sie durch Prozesse oder Auswahlkriterien in irgendeine weiter nutzbare Ordnung gebracht wurden. Unter dieser Prämisse sind Data Lakes einfacher aufzubauen, müssen keine oder kaum Ansprüche an Leistungsfähigkeit erfüllen und sind damit wesentlich preiswerter als herkömmliche, bereits spezialisierte und leistungsfähige Big-Data-Installationen.

Gruß
Doc Storage


Stellen Sie Ihre Frage
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Stellen Sie Ihre Frage an: DocStorage@speicherguide.de

Mehr von Doc. tec. Storage 15.02.2019 Was sagt DWPD über SSDs aus?

Im Zusammenhang mit (Enterprise-)SSDs wird oft die Qualitätsgröße DWPD (Drive Writes Per Day) genutzt. Meist wird die Angabe auch für einen Zeitraum von fünf Jahren spezifiziert. Was sagt DWPD genau aus und mit welcher Standard-Lebensdauer darf man rechnen?


08.02.2019 Unterschiede der Performance-States von SSDs

Gängige Meinung: SSDs sind schnell. In der Praxis gibt es aber dann doch einige Unterschiede, so sind vielen die verschiedenen Performance-States von SSDs und Flash-Speichern nicht bekannt: FOB, steady, burst and transition. Was steckt genau dahinter?


01.02.2019 BSI empfiehlt 200-km-Distanz – 200 km ERNSTHAFT!?

Kurz vor Weihnachten veröffentlichte das BSI neue Kriterien für georedundante RZs. Darin wird der bisher empfohlene Mindestabstand von fünf auf 200 Kilometer hochgesetzt. Aus Praxissicht laut Doc Storage »vollkommener Blödsinn«.


31.01.2019 Nervfaktor digitale Transformation – ein Rant

Die digitale Transformation bzw. Digitalisierung verfolgt uns nun schon geraume Zeit. Mit dem Faktor Mensch kommt nun nochmal ein neues Trendthema hinzu. Doc Storage hat hier eine klare Meinung: »alles Blödsinn – es nervt«. Nichts von dem, was heute diskutiert wird, ist neu und Menschen waren schon immer der Kern eines jeden Geschäftsbetriebs – selbst in der IT.


25.01.2019 SSDs: Was ist mit den Schreibzyklen, wenn SSDs fast voll sind?

Moderne SSDs sorgen mit der Wear-Leveling-Funktion automatisch dafür, dass möglichst gleichmäßig über alle Sektoren geschrieben wird. Wie verhält es sich mit den spezifizierten Schreibzyklen, wenn die SSD nahezu voll ist?


18.01.2019 Wie sinnvoll sind Benchmarks und Performance-Tests?

Welchen Stellenwert haben Benchmarks und Performance-Tests (z.B. SPC-1 und SPC-2) bei der Anschaffung von Storage-Systemen? Man hört ja, dass sich Firmen die Anforderungen nur noch vertraglich garantieren lassen. Ist das wirklich ein gangbarer Weg?

powered by
Boston Server & Storage Solutions Datacore Software
Fujitsu Technology Solutions GmbH Unitrends
N-TEC GmbH FAST LTA AG