Neue Wege für das Business

Datenvisualisierung trifft Big Data

29.08.2014
Von 
Dr. Wolfgang Martin ist Experte auf den Gebieten Big Data, Business Intelligence, Performance Management, Analytics, Business Process Management, Information Management, Information Governance sowie Cloud Computing (SaaS, PaaS). Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse.

Visualisieren aller Big Data-Quellen

Datenvisualisierung ist mehr als die Visualisierung von strukturierten und statischen Daten. Sie hat weitaus mehr Möglichkeiten und Einsatzgebiete, beispielsweise bei der Visualisierung von Datenströmen, die von Sensoren oder Maschinen erzeugt werden. Solche in Echtzeit einströmenden Daten werden entweder direkt als Zeitreihe visualisiert, können aber auch mit einem Video-Recorder aufgezeichnet und als Animation zur Verfügung gestellt werden. In der Regel erfolgt eine solche Visualisierung gleichzeitig mit einer Ereignisverarbeitung. So können beispielsweise Ausreißer sofort entdeckt sowie Trends erkannt und extrapoliert werden. Sensoren können eingesetzt werden, um den Lauf von Maschinen zu überwachen und zu steuern. Ein Nutzen davon ist nicht nur eine Automatisierung der Maschinensteuerung mit entsprechender Kosteneinsparung, sondern auch die proaktive Wartung. Das Identifizieren und das darauf basierende Vorhersagen von Trends erlaubt ein rechtzeitiges Erkennen von Risiken, beispielsweise von zukünftigen Problemen wie Maschinenstillstand und -schaden. Probleme können durch Datenvisualisierung von Datenströmen bereits vor Entstehung erkannt und gelöst werden. So lassen sich Zeit und Kosten einsparen. Zusätzlich wird ein Umsatzverlust aufgrund von Maschinenausfallzeiten vermieden.

Ein anderes Einsatzgebiet ist die Visualisierung von semi- und unstrukturierten Daten, etwa von Daten, die sich in beliebigen Dokumenten wie SAP-Berichten, CSV-Dateien, Log-Dateien, Web-Seiten etc. befinden. Ein weiteres Beispiel ist die Visualisierung von Web Click Streams. Hier handelt es sich wieder um Datenströme, die den besten Mehrwert bieten, wenn sie in Echtzeit analysiert werden und so mittels Datenvisualisierung dem Marketing helfen können, die Customer Experience quer über unterschiedliche Kanäle zu steigern. Die Abbildungen 2 und 3 zeigen als Beispiel die Visualisierung von Log-Daten.

Abbildung 2: Als Beispiel zur Visualisierung von semi-strukturierten Daten dient hier eine Log-Datei. Die Abbildung zeigt einen Ausschnitt aus den Daten, die aus informationstechnologischer Sicht unstrukturiert sind. Datenvisualisierungswerkzeuge sollten daher auch über Extraktionswerkzeuge verfügen, um solche Daten zu erfassen und aufzubereiten. Dann kann visualisiert werden (siehe Abbildung 3)
Abbildung 2: Als Beispiel zur Visualisierung von semi-strukturierten Daten dient hier eine Log-Datei. Die Abbildung zeigt einen Ausschnitt aus den Daten, die aus informationstechnologischer Sicht unstrukturiert sind. Datenvisualisierungswerkzeuge sollten daher auch über Extraktionswerkzeuge verfügen, um solche Daten zu erfassen und aufzubereiten. Dann kann visualisiert werden (siehe Abbildung 3)
Foto: Dr. Wolfgang Martin
Abbildung 3. Visualisierung von Daten einer Log-Datei (siehe Abb. 2). In der oberen Visualisierung sieht man über die Zeit, mit welcher Rückmeldung (OK oder Fehlercode) eine Anfrage vom Webserver beantwortet wurde. Die untere Visualisierung zeigt die Rückgabe-Stati gruppiert nach Webpages (Welche Adresse wurde aufgerufen?), Requests (Wie sah der der Aufruf im Detail aus?), AufrufVon (Von welcher Seite oder IP-Adresse wurde aufgerufen?). Die Gruppierungen können zur Analyse beliebig ausgetauscht werden.
Abbildung 3. Visualisierung von Daten einer Log-Datei (siehe Abb. 2). In der oberen Visualisierung sieht man über die Zeit, mit welcher Rückmeldung (OK oder Fehlercode) eine Anfrage vom Webserver beantwortet wurde. Die untere Visualisierung zeigt die Rückgabe-Stati gruppiert nach Webpages (Welche Adresse wurde aufgerufen?), Requests (Wie sah der der Aufruf im Detail aus?), AufrufVon (Von welcher Seite oder IP-Adresse wurde aufgerufen?). Die Gruppierungen können zur Analyse beliebig ausgetauscht werden.
Foto: Datawatch

Wenn relationale Datenbanktechnologien nicht mehr ausreichen

Wenn man all diese Vorteile von Datenvisualisierung erreichen will, dann kommt der Einsatz von relationalen Datenbanktechnologien an seine Grenzen und ist in vielen Fällen nicht mehr ausreichend. Daher ist es entscheidend, dass Werkzeuge zur Datenvisualisierung auch Big-Data-Datenbanken unterstützen. Dabei spielen NoSQL (not only SQL)-Technologien eine große Rolle, denn NoSQL-Datenbanken sind bestens geeignet zum Managen von semi- und unstrukturierten Daten als auch von Datenströmen. Weitere Vorteile von NoSQL-Technologien sind vor allem:

Elastische Skalierung: Im Gegensatz zu relationalen Datenbanktechnologien sind NoSQL-Datenbanktechnologien für eine elastische Skalierung von Anfang an entworfen und gebaut.

Verarbeitung großer Datenvolumina: Die Datenvolumina, die NoSQL-Systeme verarbeiten können, liegen um Zehnerpotenzen über denen, die größte relationale Datenbanken heute schaffen können.

Besseres und einfacheres Managen: NoSQL-Datenbanken dafür entwickelt worden. Typische Management-Funktionen umfassen: automatisches Reparieren und Datenverteilung sowie einfachere Datenmodelle, die auch ein effizienteres Tuning erlauben.

Sparsamkeit: NoSQL-Datenbanken laufen auf preiswerter Standard-Hardware. Die Kosten per Terabyte bei NoSQL liegen deutlich unter den Kosten bei relationalen Datenbanken.

Flexible Datenmodelle: Wenn sich das Datenmodell ändert, dann erzeugt das bei NoSQL- Datenbanken deutlich weniger Aufwand als bei relationalen Datenbanken. Beispielsweise erlauben NoSQL Key Value Stores, Document Stores und multi-modal Databanken einer Applikation, jede Struktur zu definieren, die man in einem Datenelement definieren möchte. Auch die etwas rigoroser definierten spalten-orientierten NoSQL- Databanken wie Cassandra oder HBase ermöglichen das Hinzufügen einer neuen Spalte ohne großen Aufwand.

Bei Datenvisualisierung kommt es nicht nur auf eine umfangreiche Bibliothek mit unterschiedlichen Darstellungsformen (*) und eine intuitive Benutzeroberfläche mit Self-Service-Nutzung an, sondern ganz besonders auch auf die Unterstützung von NoSQL-Datenbanktechnologien, damit sowohl Echtzeitdaten als auch semi- und unstrukturierte Daten neben strukturierten Daten visualisiert werden können. Im Markt gängige Lösungen adressieren aber in der Regel nur die Visualisierung von Daten, die in traditionellen relationalen Datenbanktechnologien gespeichert sind, also in der Regel nur strukturierte, statische Daten. Mit einer Lösung wie der von Datawatch kann man mehr erreichen, nämlich die Visualisierung von Unternehmensdaten, Big-Data-Daten und jeglicher Kombination daraus: von statischen Daten und von Echtzeitdaten aus relationalen oder NoSQL-Datenbanktechnologien - ganz wie es die Aufgabenstellung erfordert.

(*)siehe beispielsweise die Bibliothek von Datawatch https://community.datawatch.com/community/datawatch-designer/content?filterID=contentstatus[published]~tag[demo], Zugriff am 08. August 2014.

Fazit

Big Data bietet Unternehmen neue Methoden: Das Konzept, Fragen zu stellen, Antworten zu finden, bessere Entscheidungen zu treffen und daraufhin Geschäftsprozesse und -modelle zu transformieren, ist jetzt machbar. Die Basis dafür schafft die Analytik. Eine neuere Komponente von Analytik, die insbesondere den Fachabteilungen hilft, ist die Datenvisualisierung. Hier wird das Auge als Detektor eingesetzt. Das erlaubt ein schnelles Erkennen von Beziehungen und Mustern in Daten.

Foto: T. L. Furrer - Fotolia.com

Datenvisualisierung ermöglicht so den Fachabteilungen einerseits einen tieferen Einblick in Risiken und Herausforderungen und andererseits schnellere sowie verbesserte Entscheidungen. Dabei kommt es darauf an, dass nicht nur strukturierte und statische Daten visualisiert werden, sondern alle Daten aus dem Big Data, also auch semi- und unstrukturierte Daten und Datenströme. Hier kommen traditionelle relationale Datenbanktechnologien an ihre Grenzen, daher werden solche Daten in NoSQL-Datenbanktechnologien gespeichert. Als Konsequenz folgt: Datenvisualisierungs-Werkzeuge müssen nicht nur SQL-, sondern auch NoSQL-Datenbanktechnologien unterstützen. (bw)