Wenn man über Big Data spricht, dann sieht man immer noch große Zweifel in den Augen. Für viele ist der Begriff Big Data einfach nicht griffig genug, und er hilft auch nicht, den Nutzen und die Wertschöpfung im Geschäft zu erkennen oder auch nur zu erahnen. Daher sprechen wir doch hier zuerst einmal ganz einfach nur von Daten. Daten waren immer da und werden immer da sein. Big Data setzen wir mal gleich "Daten".
Wir leben im Zeitalter der Digitalisierung der Welt, was ein Verschmelzen von realer und virtueller Welt bedeutet. Hier macht das mobile Internet Information allgegenwärtig. Soziale Medien sorgen für eine bisher nicht gekannte Verbreitungsgeschwindigkeit von Informationen. Im aufkommenden Internet der Dinge beginnt eine Maschine-zu-Maschine und Roboter-zu-Roboter-Kommunikation, die in Echtzeit auf vielen und vielfältigen Datenquellen riesige Datenvolumina produziert. Aus diesen Tatsachen haben dann einige den Begriff "Big Data" abgeleitet, aber es bleibt dabei, das alles sind nur "Daten", aber eben mehr Daten denn je, mehr Daten, die in Echtzeit strömen, und mehr Daten aus immer mehr und immer vielfältigeren Datenquellen.
Bisher kannten wir im Unternehmen im Wesentlichen nur Unternehmensdaten. Die neuen Datenquellen lassen sich in fünf Datendomänen klassifizieren, die alle strukturierte, semi- und unstrukturierte Daten und Datenströme liefern: Dies sind Social-Media, Maschinen, Server-Logs, Web-Clickstream und das mobile Internet. Die Daten entstehen entweder aus Interaktionen, Beobachtungen oder Transaktionen. Der Nutzen dieser Daten besteht nicht nur in einem Mehr an Daten und in detaillierteren Daten, sondern insbesondere darin, Daten aus verschiedenen Domänen miteinander zu verknüpfen und zu analysieren. So entstehen neue Einsichten, die uns neues Wissen geben, das wir bisher nicht erschließen konnten. Sie werden jetzt zum Treiber von Innovation, von Geschäftsprozessen und Geschäftsmodellen. Das beschreibt sehr gut die Idee, die hinter dem Begriff "Big Data" steckt:
1. Stelle Fragen und stelle Dinge infrage. Mit Hilfe von Analysen findet man Antworten.
2. Beschleunige auf Basis der Analysen die Entscheidungsfindung und fundiere sie mit Fakten.
3. Transformiere Prozesse und Modelle auf Basis getroffener Entscheidungen.
Die Verknüpfung von Daten aus den unterschiedlichen Domänen mit Unternehmensdaten und die Analyse solcher Daten sind also die Basis von Big Data (im hier beschriebenen Sinne). Das bildet die Grundlage, um auf sich schnell entwickelnde und sich permanent ändernde Märkte ebenso wie auf rasch sich veränderndes Kundenverhalten reagieren zu können.
Datenvisualisierung im Big Data-Umfeld: Analytik mit Augenmaß
Der Einsatz von Analytik im Unternehmen ist nicht neu, aber in den letzten Jahren hat es methodisch und technologisch viele Fortschritte gegeben. Mit Datenvisualisierung ist beispielsweise eine neue und zunehmend genutzte Komponente hinzugekommen. Datenvisualisierung ist ein Ad-hoc-, interaktiver, problembezogener und durch menschliche Interaktion gestalteter Prozess. Sie stellt einen dynamischen, menschbezogenen Analyseansatz dar, der das Erkennen von Mustern durch das menschliche Auge unterstützt und gegebenenfalls analytische Algorithmen als Ergänzung nutzt. Zur Visualisierung werden neben den traditionellen Darstellungen (Säulen-, Balken-, Torten-, Wolken- u.a. Diagramme) vor allem auch spezielle Methoden wie Karten, Heat Maps, Tree Maps etc. eingesetzt. (Abb. 1) Dank kollaborativer Dienste und Self-Service-Konzepte ermöglicht Datenvisualisierung anspruchsvolle Entscheidungsverfahren auch im Team.
Visualisieren aller Big Data-Quellen
Datenvisualisierung ist mehr als die Visualisierung von strukturierten und statischen Daten. Sie hat weitaus mehr Möglichkeiten und Einsatzgebiete, beispielsweise bei der Visualisierung von Datenströmen, die von Sensoren oder Maschinen erzeugt werden. Solche in Echtzeit einströmenden Daten werden entweder direkt als Zeitreihe visualisiert, können aber auch mit einem Video-Recorder aufgezeichnet und als Animation zur Verfügung gestellt werden. In der Regel erfolgt eine solche Visualisierung gleichzeitig mit einer Ereignisverarbeitung. So können beispielsweise Ausreißer sofort entdeckt sowie Trends erkannt und extrapoliert werden. Sensoren können eingesetzt werden, um den Lauf von Maschinen zu überwachen und zu steuern. Ein Nutzen davon ist nicht nur eine Automatisierung der Maschinensteuerung mit entsprechender Kosteneinsparung, sondern auch die proaktive Wartung. Das Identifizieren und das darauf basierende Vorhersagen von Trends erlaubt ein rechtzeitiges Erkennen von Risiken, beispielsweise von zukünftigen Problemen wie Maschinenstillstand und -schaden. Probleme können durch Datenvisualisierung von Datenströmen bereits vor Entstehung erkannt und gelöst werden. So lassen sich Zeit und Kosten einsparen. Zusätzlich wird ein Umsatzverlust aufgrund von Maschinenausfallzeiten vermieden.
Ein anderes Einsatzgebiet ist die Visualisierung von semi- und unstrukturierten Daten, etwa von Daten, die sich in beliebigen Dokumenten wie SAP-Berichten, CSV-Dateien, Log-Dateien, Web-Seiten etc. befinden. Ein weiteres Beispiel ist die Visualisierung von Web Click Streams. Hier handelt es sich wieder um Datenströme, die den besten Mehrwert bieten, wenn sie in Echtzeit analysiert werden und so mittels Datenvisualisierung dem Marketing helfen können, die Customer Experience quer über unterschiedliche Kanäle zu steigern. Die Abbildungen 2 und 3 zeigen als Beispiel die Visualisierung von Log-Daten.
Wenn relationale Datenbanktechnologien nicht mehr ausreichen
Wenn man all diese Vorteile von Datenvisualisierung erreichen will, dann kommt der Einsatz von relationalen Datenbanktechnologien an seine Grenzen und ist in vielen Fällen nicht mehr ausreichend. Daher ist es entscheidend, dass Werkzeuge zur Datenvisualisierung auch Big-Data-Datenbanken unterstützen. Dabei spielen NoSQL (not only SQL)-Technologien eine große Rolle, denn NoSQL-Datenbanken sind bestens geeignet zum Managen von semi- und unstrukturierten Daten als auch von Datenströmen. Weitere Vorteile von NoSQL-Technologien sind vor allem:
Elastische Skalierung: Im Gegensatz zu relationalen Datenbanktechnologien sind NoSQL-Datenbanktechnologien für eine elastische Skalierung von Anfang an entworfen und gebaut.
Verarbeitung großer Datenvolumina: Die Datenvolumina, die NoSQL-Systeme verarbeiten können, liegen um Zehnerpotenzen über denen, die größte relationale Datenbanken heute schaffen können.
Besseres und einfacheres Managen: NoSQL-Datenbanken dafür entwickelt worden. Typische Management-Funktionen umfassen: automatisches Reparieren und Datenverteilung sowie einfachere Datenmodelle, die auch ein effizienteres Tuning erlauben.
Sparsamkeit: NoSQL-Datenbanken laufen auf preiswerter Standard-Hardware. Die Kosten per Terabyte bei NoSQL liegen deutlich unter den Kosten bei relationalen Datenbanken.
Flexible Datenmodelle: Wenn sich das Datenmodell ändert, dann erzeugt das bei NoSQL- Datenbanken deutlich weniger Aufwand als bei relationalen Datenbanken. Beispielsweise erlauben NoSQL Key Value Stores, Document Stores und multi-modal Databanken einer Applikation, jede Struktur zu definieren, die man in einem Datenelement definieren möchte. Auch die etwas rigoroser definierten spalten-orientierten NoSQL- Databanken wie Cassandra oder HBase ermöglichen das Hinzufügen einer neuen Spalte ohne großen Aufwand.
Bei Datenvisualisierung kommt es nicht nur auf eine umfangreiche Bibliothek mit unterschiedlichen Darstellungsformen (*) und eine intuitive Benutzeroberfläche mit Self-Service-Nutzung an, sondern ganz besonders auch auf die Unterstützung von NoSQL-Datenbanktechnologien, damit sowohl Echtzeitdaten als auch semi- und unstrukturierte Daten neben strukturierten Daten visualisiert werden können. Im Markt gängige Lösungen adressieren aber in der Regel nur die Visualisierung von Daten, die in traditionellen relationalen Datenbanktechnologien gespeichert sind, also in der Regel nur strukturierte, statische Daten. Mit einer Lösung wie der von Datawatch kann man mehr erreichen, nämlich die Visualisierung von Unternehmensdaten, Big-Data-Daten und jeglicher Kombination daraus: von statischen Daten und von Echtzeitdaten aus relationalen oder NoSQL-Datenbanktechnologien - ganz wie es die Aufgabenstellung erfordert.
(*)siehe beispielsweise die Bibliothek von Datawatch https://community.datawatch.com/community/datawatch-designer/content?filterID=contentstatus[published]~tag[demo], Zugriff am 08. August 2014.
Fazit
Big Data bietet Unternehmen neue Methoden: Das Konzept, Fragen zu stellen, Antworten zu finden, bessere Entscheidungen zu treffen und daraufhin Geschäftsprozesse und -modelle zu transformieren, ist jetzt machbar. Die Basis dafür schafft die Analytik. Eine neuere Komponente von Analytik, die insbesondere den Fachabteilungen hilft, ist die Datenvisualisierung. Hier wird das Auge als Detektor eingesetzt. Das erlaubt ein schnelles Erkennen von Beziehungen und Mustern in Daten.
Datenvisualisierung ermöglicht so den Fachabteilungen einerseits einen tieferen Einblick in Risiken und Herausforderungen und andererseits schnellere sowie verbesserte Entscheidungen. Dabei kommt es darauf an, dass nicht nur strukturierte und statische Daten visualisiert werden, sondern alle Daten aus dem Big Data, also auch semi- und unstrukturierte Daten und Datenströme. Hier kommen traditionelle relationale Datenbanktechnologien an ihre Grenzen, daher werden solche Daten in NoSQL-Datenbanktechnologien gespeichert. Als Konsequenz folgt: Datenvisualisierungs-Werkzeuge müssen nicht nur SQL-, sondern auch NoSQL-Datenbanktechnologien unterstützen. (bw)