Big Data – Definition, Treiber, Nutzen und Markt|Strategic Bulletin

bulletin bigdata titelBig Data wird über vier Eigenschaften definiert: das Datenvolumen, die Vielzahl von Datenquellen, die Geschwindigkeit der Datenproduktion und die steigende Anzahl von Nutzern, die sich mittels Analysen die Potenziale von Big Data erschließen wollen. 

 

Anzeige
Big Data bedeutet also nicht nur ein riesiges, immer größer werdendes Datenvolumen, sondern aufgrund der Vielzahl von Datenquellen auch einen Mix aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen untereinander. Heute schätzt man, dass 90% aller Daten im Big Data unstrukturiert sind. Die wahre Flut von Daten wartet aber nicht nur imWeb auf uns. Die Menge und Diversität der Quellen ist in der Tat mannigfaltig: Neben den Quellen im Web wie Portalen, Web-Applikationen, Social Media, Videos, Photos, Lokalisierungsdaten, um nur einige zu nennen, finden sich viele Quellen in Branchen-bezogenen Medien, beispielsweise im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in derWissenschaft (beispielsweise beim CERN in Genf), wo in den letzten Jahren das Datenvolumen geradezu explodiert ist.
 
<< DOWNLOAD << des Strategic Bulletin BIG DATA (PDF 2,4 MB).         
 
 
Die prominentesten Produzenten von Big Data sind soziale Medien (allein fast 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten.
 
Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere.
 
Für Unternehmen bietet die Analyse von Big Data die Möglichkeit,Wettbewerbsvorteile zu erzielen, Einsparungen und Umsatzsteigerungen zu realisieren und innovative, neue Geschäftsfelder zu schaffen. Das unterstreichen die folgenden ausgewählten Beispiele:
   
  • Optimierung und Personalisierung von Werbemaßnahmen und Steigerung von Cross- und Up-Selling aufgrund von besserem Kunden- und Marktwissen,
  • Besseres Risiko-Management in Zahlungs- und Handels-Strömen durch Entdeckung von Abweichungen und Unregelmäßigkeiten,
  • Aufbau flexibler und intelligenter Abrechnungssysteme in der Versorgung (Strom, Wasser, Gas) und Telekommunikation,
  • Erkennen von Interdependenzen und automatisierte Hypothesenbildung in Wissenschaft und Forschung

Wenn man sich diese Beispiele genauer anschaut, so lassen sich fünf Nutzenpotenziale erkennen: Transparenz durch Big Data, Testen aller Entscheidungen, Personalisierung in Echtzeit, verbesserte und optimierte Prozess-Steuerung und Automatisierung und innovative Informations-getriebene Geschäftsmodelle.

Trotz der Möglichkeiten, die Big Data bietet, muss man heute noch Vorsicht im Umgang mit Big Data walten lassen:
Der Markt für Big Data ist noch jung und unreif. Es fehlt an Erfahrung, im Umgang mit Big Data, es fehlen Experten, die in den Unternehmen erfolgreich Big Data-Initiativen und Strategien aufbauen können, und die neuen Technologien zur Beherrschung von Big Data befinden sich auch erst in sehr frühen Entwicklungsphasen. Wer allerdings jetzt nicht mit den Vorbereitungen zum Management von Big Data beginnt, der könnte in ein bis zwei Jahren aber den Anschluss verpasst haben und von seinen Mitbewerbern oder innovativen Neueinsteigern überholt werden, deren Geschäftsmodell durch Big Data-Nutzung effektiver ist und effizienter arbeitet. Man erinnere sich an Amazon, deren Geschäftsmodell anfangs belächelt und kritisiert wurde, die aber heute zu den Marktsiegern zählen. 
 
Big Data Technologien
  
In Folge dieser Datenflut ist die traditionelle relationale Datenhaltung an ihre Grenzen gestoßen. Um die Petabytes und mehr von Daten zu lesen und zu durchsuchen, nutzt man heute analytische oder NoSQL1-Datenhaltungssysteme. 
 
Hier werden unterschiedliche Software- und Hardware-Technologien teilweise auch miteinander kombiniert:
Objekt-Orientierung, Spalten-Orientierung, Parallelisierung, Datenkompression, In-Memory-Verarbeitung, massiv parallele Verarbeitung (MPP) über Rechner-Cluster und spezielle sogenannte Data Appliances, um die gängigsten zu nennen. Ein dritter Ansatz zur Beherrschung von Big Data kommt vom Open Source-System Hadoop, das das Potenzial hat, den Standard der Zukunft zu setzen.
 
Diese zu SQL alternativen Datenhaltungssysteme sind so konzipiert, dass Tuningaufwände, die in konventionellen Systemen notwendig sind und Zeit und Ressourcen kosten, nahezu entfallen. Die Datenhaltungslösung legt in der Regel Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Solche Datenbanken lassen sich natürlich auch „as a Service“ mittels Cloud Computing betreiben.
 
Big Data treibt auch neue Methoden und Technologien im Big Data Management. Beim Data Management geht es zwar immer noch um Integration, Lineage und Qualität, aber im Big Data kommt noch einiges hinzu: So ist eine neue Klasse von Integrationswerkzeugen zur agilen Web- und Cloud-Integration entstanden, um beispielsweise auch auf Datenquellen zuzugreifen, die keine API-Schnittstelle haben. Plattformen zur Datenintegration werden durch Selbstoptimierung beschleunigt und um Hadoop-Verarbeitung ergänzt. Daneben werden die bekannten Verfahren zum Data Management parallelisiert und Cluster-fähig, denn die Anforderungen an den Durchsatz steigen natürlich erheblich mit Big Data. Service-Orientierung der Infrastruktur und Verarbeitung in Echtzeit sind jetzt im Big Data unabdinglich geworden.
 
Die traditionellen BI-Werkzeuge erweisen sich ebenfalls als unzureichend für Big Data-Analytik. Data Discovery steht jetzt ganz vorne in der Bedeutung. Dazu gehören Filtern und Visualisieren von Daten, kollaborative Werkzeuge zur Teamarbeit, intuitive Benutzerschnittstellen und eine neue Generation von Geräten wie die Tablets, damit man in den Fachabteilungen produktiv und erfolgreich arbeiten kann. Im Fokus steht hier jetzt auch Location Intelligence, die Erweiterung von Business Intelligence um die Dimension „Raum“. Denn im mobilen Internet konvergieren jetzt Information, Zeit und Raum. Die Lokalisierungsdaten aus Smartphones und Navigationsgeräten erlauben eben ganz neue Typen vonAnalysen. Dazu kommen neue analytische Methoden und Verfahren wie die Textanalytik. Textanalytik ist eine neue Klasse von Analytik insbesondere für unstrukturierte Daten, die linguistische Verfahren mit Suchmaschinen, Text Mining, Data Mining und Algorithmen des maschinellen Lernens verbindet.  Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen.
 
Solche neuen Methoden und Technologien erfordern auch neue Rollen wie die der Data Scientists, die als Mittler zwischen der IT und den Fachabteilungen den weiteren Ausbau der Zusammenarbeit treiben, die Verarbeitung von Big Data fördern und helfen, die Potenziale von Big Data auch zu realisieren. Das erfordert auch neue Skills und eine Neuorientierung der IT: Die IT muss in den Zeiten von Big Data den Hauptfokus auf Data Management legen.
 
Big Data Roadmap
 
Die Analyse von Big Data muss wie jede andere Analyse auch in eine Strategie eingebettet sein. Eine Big Data-Strategie sollte sich dabei an den drei Typen von Big Data-Analysen ausrichten:
   
  • agiles Big Data, ein auf die Kosten achtender Ansatz, der darauf abzielt, schnell die Nutzenpotenziale von Big Data zu erschließen,
  • operatives Big Data, ein Ansatz, eine permanente und robuste Infrastruktur für Big Data-Analysen zu etablieren,
  • High Resolution Management, ein innovatives Modell zur Unternehmenssteuerung, wobei man den Schritt macht vom traditionellen Ansatz einer informationsarmen Welt, in der Entscheidungen im Wesentlichen auf Erfahrungswissen beruhen, zu einem neuen Ansatz einer informationsreichen Welt, in der Entscheidungen daten-getrieben getroffen werden.
Die Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und in der Vorgehensweise (iterativ Hypothesen finden und testen) bestehen. Vor allen Dingen muss auch der Erfolg von Big Data-Analysen durch kontinuierliches Testen in seinen Auswirkungen auf Kunden- und Marktverhalten gemessen und monetär bewertet werden.
 
Big Data – Quo Vadis
 
Natürlich darf man nicht die Kritik an Big Data vernachlässigen, denn ein mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der Daten angeht, denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit.
 
Für den Statistiker erhebt sich dann auch noch die Frage, ob und wie Information aus dem Big Data überhaupt repräsentativ sein kann.
 
Trotz der Kritik an Big Data: die Big Data-Vorreiter Amazon, eBay, Facebook und Google zeigen, dass Big Data-Potenziale existieren und geldwerten Vorteil bringen können. Bei aller Skepsis zum Hype um Big Data: Die IT-Anbieter investieren große Summen und erwarten viel von diesem schnell wachsenden Markt.
 
Schließlich sollte man auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik, Statistik, Linguistik und aus der Welt der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data „Nuggets“ zu finden, nur noch größer und wertvoller.
      

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.