Big Data erfolgreich beherrschen

Eine Frage der Technik

Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP; Betreuung von News und Titel-Strecken in der Print-Ausgabe der COMPUTERWOCHE.
Wer Big Data erfolgreich beherrschen will, muss sich aus verschiedenen Werkzeugkästen den richtigen Tool-Mix zusammenstellen. Die eine Lösung, die alle Probleme behebt, gibt es nicht.
Foto: Adchariyaphoto, Shutterstock.com

Dass die Datenmengen wachsen und auch in Zukunft wachsen werden, ist eine Binsenweisheit und dürfte sich mittlerweile in jedem Unternehmen herumgesprochen haben. Die Beherrschung der Datenflut allein mit Big Data gleichzusetzen greift jedoch zu kurz. Das Thema hat viele unterschiedliche Facetten. Genau das macht es für Anwenderunternehmen alles andere als banal und einfach, das Big-Data-Phänomen anzugehen. Folgende Aspekte spielen zusammen:

  1. Neben der puren Menge an Daten wächst auch die Zahl der Datenquellen, die die Unternehmen im Blick behalten müssen. Es sind nicht mehr nur die klassischen transaktionalen Systeme, aus denen die Daten in die Firmen sprudeln. Vielmehr gilt es heute auch Maschinendaten beziehungsweise Informationen aus sozialen Netzwerken richtig zu kanalisieren.

  2. Mit der Vielzahl der Datenquellen wächst auch die Datenvielfalt. Zu den strukturierten Transaktionsdaten, die sich klassisch in relationalen Datenbanksystemen fassen lassen, kommen wenig beziehungsweise kaum strukturierte Daten hinzu wie beispielsweise Texte, Bilder und Videos. Um diese Datentypen sinnvoll zu analysieren und zu verwalten und bearbeiten, sind neue Wege zu gehen.

  3. Zugleich müssen Daten und Informationen immer mehr Nutzern zugänglich gemacht werden. Das betrifft nicht nur die Mitarbeiter im eigenen Unternehmen, sondern die gesamte Wertschöpfungskette - vom Lieferanten bis hin zu den Kunden. Es wächst also nicht nur die Zahl der Datenquellen, sondern auch die der Datenkonsumenten.

  4. Unterschiedliche Datenquellen, verschiedene Datentypen sowie die immer weiter reichende Verteilung von Informationen stellen neue Herausforderungen an den Datenschutz. Darüber hinaus bergen die komplexer werdenden Dateninfrastrukturen die Gefahr von Fehlern und Manipulationen. Daher nimmt die Bedeutung von Datenintegrität und Datenqualität weiter zu.

Doch damit hört die Komplexität rund um Big Data noch nicht auf. Genauso vielschichtig und undurchsichtig wie die durch die Datenflut verursachten Herausforderungen präsentiert sich das Angebots- beziehungsweise Lösungspanorama. Mit der Verbreitung des Big-Data-Begriffs habe sich eine unübersichtliche Anbieterlandschaft entwickelt, sagen die Analysten der Experton Group. Komplexe Pakete tauchen ebenso wie Einzelbausteine als Big-Data-Lösungen am Markt auf. Hinzu kommen Anbieter, die vorhandene Produkte Dritter mit ihren eigenen Lösungen kombinierten. Hier den Überblick zu behalten fällt zunehmend schwer.

Daten für Windräder

Die Angelegenheit wird aus Sicht der Analysten auch dadurch komplizierter, dass viele Anbieter in ihrer Kommunikation auf theoretischen Anwendungsbeispielen aufbauten. Konkrete Referenzen sind in diesem noch jungen Markt eine Seltenheit. Dort, wo es sie gibt, sind sie meist sehr spezifisch und kaum auf andere Unternehmen zu übertragen. IBMs Big-Data-Vorzeigeprojekt beim dänischen Windkraftanlagenhersteller Vestas, der für die Wahl des richtigen Standorts bis zu 160 verschiedene Faktoren und damit Daten im Petabyte-Bereich untersucht, ist so ein Beispiel.

Dasselbe gilt für SAPs "Oncolyzer", der in der Berliner Charité auf Basis der In-Memory-Datenbank HANA in kürzester Zeit verschiedenste medizinische Daten auswerten und so eine individuelle Krebstherapie ermöglichen soll. Für andere Unternehmen bleibt es angesichts solcher Individualfälle schwierig, die richtige Antwort für ihr eigenes Big-Data-Problem zu finden.

The Big Five

Die Analysten haben fünf verschiedene Themengebiete definiert, die Anwender bei ihrer Suche im Blick behalten sollten:

Datenspeicherlösungen, Verknüpfung von Daten und Datenbanken, Appliances, Computerhardware.
Zusammenführen von Daten aus unterschiedlichen Quellen, Integration, Data-Security, -Integrity und -Quality.
Business-Intelligence-Lösungen, Data Warehouse, Advanced Analytics.
Visualisierung und Ausspielen von Ergebnissen an viele Benutzer, Konzepte wie Linked Open Data.
Consulting und -Services

Die Herausforderungen in Sachen Technik beginnen mit der Infrastruktur. Drei Viertel aller IT-Entscheider sehen Handlungsbedarf, ihre Storage- und Datenbanksysteme anzupacken. Auswirkungen auf die Analysen und Reporting hat dagegen erst die Hälfte der Befragten ausgemacht.

Der DB-Markt rumort

Gefordert auf der Infrastrukturseite sind unter anderem die Hersteller von Datenbanken. Lange Zeit schienen die Verhältnisse in diesem Markt klar. In den Anwenderunternehmen waren die relationalen Datenbank-Management-Systeme (RDBMS) gesetzt. Die Claims hatten die drei großen Anbieter Oracle, IBM und Microsoft unter sich aufgeteilt. Doch seit einiger Zeit rumort es. Im Zuge von Big Data stoßen die klassischen Systeme an ihre Grenzen. Diskussionen werden lauter, wie die Zukunft der Datenbanken aussehen könnte. Techniken wie NoSQL, In-Memory und Hadoop finden mehr Aufmerksamkeit.

SQL or NoSQL

Gerade mit der wachsenden Flut wenig strukturierter Daten, die sich nur schwer in das Raster einer relationalen Datenbank pressen lassen, wächst das Interesse an NoSQL-Systemen. Das Kürzel steht für "Not only SQL", ist also primär nicht als Ersatz für relationale Systeme gedacht, sondern eher als Ergänzung. Während herkömmliche Datenbanken auf Tabellen und Relationen aufbauen, können in NoSQL-Datenbanken verschiedene Datenmodelle zum Einsatz kommen. Das heißt jedoch auch, dass NoSQL nicht gleich NoSQL ist. Die unterschiedlichen Varianten haben Stärken und Schwächen, es gilt also genau zu prüfen, ob das individuelle Anwendungsszenario auf die jeweilige NoSQL-DB passt.

Knoten für Knoten

Foto: lvcandy, Shutterstock.com

Die Architektur setzt meist auf viele zusammengeschaltete Standard-Server. Skaliert wird einfach dadurch, dass weitere Rechenknoten hinzugefügt werden. Prominentes Beispiel dafür ist Hadoop. Das Framework besteht im Wesentlichen aus zwei Teilen: Das Hadoop Distributed File System (HDFS) verteilt die Daten auf die verschiedenen Knoten. Dort werden die Daten mit Hilfe des von Google entwickelten MapReduce-Algorithmus verarbeitet. Die Grundidee dahinter: Rechenaufgaben in viele kleine Teilaufgaben zu zerlegen und im Cluster zu verteilen.

Diese Parallelisierung und die Tatsache, dass die Daten an ihrem Ablageort verarbeitet werden, sollen dafür sorgen, dass Ergebnisse deutlich schneller vorliegen. Hadoop scheint sich derzeit mehr und mehr in der Datenbankbranche etablieren zu können. Anbieter wie Cloudera und Intel bauen eigene Distributionen des Open-Source-Stacks, indem sie das Framework mit zusätzlichen Tools ergänzen. Zudem bieten die großen Datenbankanbieter wie Oracle, IBM und Microsoft mittlerweile Konnektoren an, um ihre Systeme mit Hadoop zu verknüpfen.

Turbo-In-Memory

Weitere Schlagworte, die die Datenbankszene umtreiben, sind In-Memory-Computing und spaltenorientierte Datenbanken - Techniken, wie sie die SAP in ihrer HANA-Appliance kombiniert. In-Memory-Systeme zeichnen sich dadurch aus, dass die Daten primär im Arbeitsspeicher vorgehalten und dort deutlich schneller verarbeitet werden können. Ist das entsprechende System zudem spaltenorientiert aufgebaut, lassen sich Daten schneller lesen. Damit eignen sich diese Systeme vor allem für analytische Anwendungen (Online Analytical Processing = OLAP). Müssen dagegen oft und viele Daten in die Datenbank geschrieben werden wie im Umfeld transaktionaler Systeme (Online Transaction Processing = OLTP), sind zeilenorientierte Datenbanken im Vorteil.

All-in-One

Trotz aller Neuerungen glauben die Befürworter der klassischen RDBMS nicht an das Ende ihrer Systeme. Die neuen Techniken würden über kurz oder lang assimiliert. Zudem hätten die etablierten Systeme bereits heute vergleichbare Funktionen im Programm, wie sie beispielsweise Hadoop bietet. Darüber hinaus forcieren die alten Hasen im Datenbankgeschäft derzeit einen Appliance-Ansatz. Mit vorkonfigurierten Systemen aus Hardware und Software soll den Kunden eine Komplettlösung für das Daten-Handling geboten werden. Oracle offeriert dafür seine Exadata-Maschinen, IBM hat im Rahmen seiner Puresystems spezielle Datenbank-Appliances im Portfolio.

Jetzt aber flott!

Steht mit der Infrastruktur die Big-Data-Basis, geht es im nächsten Schritt darum, Nutzen aus den Daten zu ziehen. Dabei kommen Werkzeuge rund um Analytics und Business Intelligence (BI) ins Spiel. Wie im Datenbankumfeld hat sich auch in dieser Szene in der jüngsten Vergangenheit einiges verändert. Neben dem klassischen Reporting geht es heute verstärkt darum, Daten in Echtzeit zu verarbeiten und zu analysieren, beispielsweise Finanzinformationen kontinuierlich auszuwerten, um Kreditkartenbetrügern auf die Schliche zu kommen. Ein anderes Beispiel ist eine intelligentere Verkehrssteuerung. So werden in Stockholm in jeder Sekunde 250.000 Standortdaten von Verkehrsteilnehmern, Video- und Sensorsystemen erfasst, ausgewertet und zur Verkehrssteuerung eingesetzt.

In den Unternehmen soll das Management mit in Echtzeit vorliegenden Ergebnissen in die Lage versetzt werden, schnellere und vor allem bessere Entscheidungen zu treffen. Es werde immer wichtiger, in einem sich rasch verändernden Umfeld Entwicklungen frühzeitig zu erkennen, sagen BI-Experten. Nur dann könne man auch rechtzeitig darauf reagieren.

Das neue Orakel

Diese Trends führen in der logischen Konsequenz dazu, dass für die Unternehmen Werkzeuge wichtiger werden, die ihnen helfen, künftige Entwicklungen möglichst exakt vorherzusagen. Viele BI-Anbieter haben ihr Portfolio bereits mit entsprechenden Werkzeugen für Simulationen und Predictive Analytics erweitert. Genauso schnell, wie die BI-Systeme Ergebnisse liefern sollen, müssen diese aber auch beim Nutzer landen. Die wollen sich heute ihre Analysen selbst zusammenstellen. Das Schlagwort dafür heißt "Self-Service-BI". Von den Anbietern sind dafür übersichtliche und einfach zu bedienende Dashboards gefordert. Darüber hinaus ist immer mehr ein mobiler Zugriff auf Informationen und Analysewerkzeuge gefragt.

Richtig kombiniert

Angesichts all dieser neuen Herausforderungen und Veränderungen könnte man befürchten, bestehende Systeme komplett ablösen und alles neu aufbauen zu müssen. Doch das ist längst nicht der Fall, sagt Carsten Bange vom Business Application Research Center (Barc). Es gehe nicht darum, die klassischen BI-Suiten und Data Warehouses gegen neue Big-Data-Tools auszutauschen, sondern vielmehr darum, die neuen Techniken sinnvoll in die bestehenden Systeme zu integrieren und so mit den bereits vorhandenen Möglichkeiten zu kombinieren. (mhr)

»

Best in Big Data

Best in Big Data
Die COMPUTERWOCHE kürt gemeinsam mit einer fachkundigen Experten-Jury bereits zum dritten Mal die besten Big-Data-Projekte, -Lösungen und – neu in diesem Jahr – die besten Services rund um Big Data. Das Finale findet auf dem COMPUTERWOCHE-Kongress Best in Big Data am 18. September in Wiesbaden statt.