03.02.2012 (Doc Storage) Drucken
(4.3 von 5)

Hadoop im Speicherumfeld

Leserfrage: Hadoop wird immer wieder empfohlen – von unterschiedlichen Herstellern – wenn es um das Bewältigen großer Datenmengen (Big Data) geht. Wie genau funktioniert Hadoop und was erreiche ich damit? Muss man darüber hinaus auf besondere Kriterien im Speicherumfeld achten?

Antwort Doc Storage:

Generell handelt es sich bei Hadoop um ein Konglomerat von Algorithmen und Dateisystemen für verteiltes Rechnen großer Datenmengen auf verclusterten Computern. Es besteht im Einzelnen aus HDFS (Hadoop Distributed File System), dem Algorithmus »MapReduce« (ursprünglich von Google), »Chukwa« und »ZooKeeper« zur Konfiguration und Überwachung verteilter Systeme, dem Analysewerkzeug »Pig« mit eigener Programmiersprache samt Compiler und schließlich der auf große Datenmengen optimierten Datenbank HBase. Als Abfragesprache steht »Hive« zur Verfügung, welches Facebook vor drei Jahren als Open Source veröffentlicht hat.

Alle Komponenten zusammen stellen momentan das einzige speziell für die Verarbeitung und Analyse von so genanntem »Big Data« entworfene System dar. Dieses Big Data zeichnet sich dadurch aus, dass vorhandene Informationen selten geändert, allerdings immer neue hinzugefügt werden. Facebook beispielsweise verwaltet in seiner Hadoop-Umgebung fast 25 PByte an Informationen, die jährlich um mehr als sieben PByte anwachsen. Um diese Daten zu verarbeiten, verwendet HBase einen kombinierten Map- und Reduce-Algorithmus, der einfach gesprochen die parallele Abarbeitung von Datenbank-Abfragen auf beliebig vielen Rechnern erlaubt und deren Zwischenergebnisse dann wieder zu einer großen Tabelle zusammenfügt. Nach dem Zusammenfügen werden alle eventuellen Redundanzen aus der Tabelle entfernt, so dass jeweils nur noch ein relevanter Eintrag zurückbleibt. Auf diese Weise lässt sich die erforderliche Rechenlast auf annähernd beliebig viele Systeme verteilen.

Als Speicher in diesem Umfeld wird momentan praktisch alles genutzt, was vor allem groß und billig ist, da sich durch die schiere Größe der HDFS-Dateisysteme die Anwendung fortgeschrittener Array-Funktionalitäten schlichtweg verbietet. Es genügt also ein Zugang zum Speicher, ob nun iSCSI, FCoE, FC oder eSAS, und ein möglichst großes und mittelmäßig schnelles Array.

Gruß
Doc Storage

Stellen Sie Ihre Frage
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Stellen Sie Ihre Frage an: DocStorage@speicherguide.de

Kommentar schreiben


Doc. tec. Storage Archiv 18.05.2012 Was ist das Fraunhofer File-System FhGFS?

NFS, CIFS, zFS, GPFS – es gibt zahlreiche File-Systeme, mit denen Speichersysteme sich im Netzwerk unterhalten. Jetzt ist ein weiteres hinzugekommen und es kommt aus keiner geringeren Quelle denn vom Fraunhofer Institut selbst. Da stellt sich die Frage, wie es sich von anderen unterscheidet, was es bringt und wer es nutzen soll.

11.05.2012 Wie berechnen sich Speicherkosten?

Das Speichern vieler Daten hat seinen Preis. Die Schließung der Internetplattform Megaupload ist hier ein gutes Beispiel: Das Beweismaterials umfasst ein Datenvolumen von 25 PByte und die Speicherung verschlingt rund 6.800 Euro pro Tag. Wie schlüsseln sich diese Kosten auf?

04.05.2012 BYOD – schön und gut, aber wo bleiben die Tools?

Der Gedanke, dass Anwender ihre eigenen mobilen Geräte nutzen ist für Unternehmen verlockend. Für die IT-Abteilungen ist das so genannte BYOD jedoch eine Zumutung. Während es für RIM Blackberry vernünftige Verwaltungs-Tools gibt, sucht man diese bei Apple, Android und Co vergebens. Oder?

27.04.2012 Sind Sonnenstürme eine Bedrohung für Daten und IT?

Aktuell taucht das Thema »Sonnensturm« gehäuft auf. Stellt dies eine Bedrohung für IT-Systeme und Daten dar? Wie sollen kleine Unternehmen und Privatperson ihre Speicher- und Backup-Systeme gegen Sonnenstürme bzw. starke elektromagnetische schützen. Gibt es hier erschwingliche Produkte?

20.04.2012 Cloud-Storage – Wo bleibt das Storage-Management?

Die Bandbreite der Cloud-Storage-Provider reicht vom kostenlosen Dropbox bis zum sündteuren Nirvanix. Bei Nirvanix gibt es ein vernünftiges Storage-Management, das allerdings vorerst nur für Enterprise-Organisationen konzipiert ist. Zeichnen sich Storage-Management-Lösungen ab, die auch für KMUs bezahlbar sind?

13.04.2012 Welchen Mehrwert bietet IBMs neue Puresystems-Familie?

IBM stellt mit »PureSystems« eine integrierte Lösung für Rechner, Netzwerk und Speicher vor. Ähnlichkeiten zum »vBlock« von VCE und Netapps »FlexPod« sind unverkennbar. Wo sind die Gemeinsamkeiten mit den bisherigen Angeboten, wo gibt es Unterschiede?

05.04.2012 Gibt es Unterschiede bei Daten-Reduktionstechniken?

Wer seine Speichersysteme besser ausnutzen will, kann Reduktionstechniken einsetzen. Deduplizierung hat sich etabliert und ist bekannt. Nun gehen aber zahlreiche Unternehmen mit Kompression oder Intelligent Data Replacement hausieren. Gibt es hier Unterschiede und wenn ja, wo liegen diese?

30.03.2012 Mainframes – ein Glaubenskrieg?

Mainframes sind ein immer junges Streit«-Thema. Auf der einen Seite verbietet sich ein Vergleich mit der Client-Server-Welt. Auf der anderen ist eine Gegenüberstellung unvermeidlich. So entfachte der Doc-Storage-Beitrag »Sind Big Data und Cloud das Ende von Mainframes?« sofort weiteren Gesprächsbedarf.

23.03.2012 Bootstorm – was nun?

Vor allem beim morgendlichen Start vieler virtuelle Arbeitsplätze geht die Performance stark in die Knie. Dies nennt sich Bootstorm. Abhelfen würden viele neue SSDs im Storage-System, die sind aber teuer. Geht es nicht auch anders?

16.03.2012 Was ist HANA und hat es Einfluss auf den Speicher?

SAP hat eine In-Memory-Lösung für seine Datenbank entwickelt, was offensichtlich auch Auswirkungen auf Speicherumgebungen hat. Was genau ist HANA? Werden sich die Speicherlandschaften aufgrund dieser Technologie ändern und muss Oracle hier nachziehen?

powered by
FTS FTS
HDS N-TEC
Quantum TIM