Problemlage entscheidet

Big-Data-System oder Data Warehouse?

09.04.2013
Von 
Dr. Ilias Ortega arbeitet als Lead Manager bei der ELCA Informatik AG in Zürich. Er ist promovierter Betriebswirtschafter der Universität St. Gallen und diplomierter Ingenieur der ETH Zürich.
Rasant wachsende Datenmengen stellen Unternehmen vor neue Herausforderungen und vor allem vor die Frage: Mit welchem System soll die Datenflut gebändigt werden, um einen größtmöglichen Nutzen herauszuholen?
Vielen Big-Data-Lösungen fehlt noch die Marktreife.
Vielen Big-Data-Lösungen fehlt noch die Marktreife.
Foto: Shutterstock/FreshPaint

Das Trendthema Big Data sorgt derzeit für Begeisterung, aber auch Verwirrung in manchen Anwenderunternehmen: Angesichts packender Berichte über den Einsatz von Big Data bei erfolgreichen Web-2.0-Akteuren wie Amazon.com und Facebook fragen sie sich: Könnten Big-Data-Verfahren nicht auch nutzbringend in der eigenen Organisation verwendet werden? Unter welchen Umständen ist Big Data zu empfehlen? Und für IT-Entscheider lautet die wesentliche Frage: Kann der Nutzen, den Big Data verspricht, auch mit den bereits vorhandenen, einfacheren Mitteln - sprich einem Data Warehouse - erreicht werden?

Data Warehouse

Data-Warehouse-Systeme enthalten Datenbestände, die periodisch aus Transaktionssystemen entnommen, gefiltert und zu Analysezwecken aggregiert werden. Häufig wird ein Data Warehouse in täglichen Ladevorgängen mit Daten befüllt und hat deshalb eine Latenzzeit, was die Aktualität der Daten betrifft, von einem Tag. Die Pivottabelle ist das am meisten benutzte Analyseinstrument im Umfeld von Data Warehousing. Oft stellen Pivottabellen die Ausprägungen quantitativer Größen gemäß qualitativen Kriterien tabellarisch dar. Ein typisches Beispiel sind nach Produkten und Regionen gegliederte Umsätze. Auch der Einsatz anderer statistischer Verfahren - Stichwort Data Mining - ist im Data Warehouse möglich, jedoch nicht so verbreitet wie die Analyse mit Pivottabellen. Der Hauptgrund dafür sind die aggregierten, grobkörnigen Daten, die statistisch lohnende Eigenschaften ausblenden und darauf basierende statistische Analysen so ausschließen. Ein weiterer wichtiger Grund ist die Komplexität der Data-Mining-Verfahren.

Big Data und Big Data Analytics

Die Definitionskriterien von Big Data sind je nach Quelle unterschiedlich. In einem sind sich jedoch alle einig: Bei Big Data handelt es sich um Datenmengen, die mit herkömmlichen Mitteln nicht mehr effizient zu verwalten sind. Dazu gehören nicht aggregierte, in Echtzeit ermittelte Daten, die beispielsweise aus Transaktionssystemen, wissenschaftlichen Versuchen, Simulationen oder Sensoren stammen.

Neben Big Data hat sich der Begriff Big Data Analytics etabliert. Letztere umfassen analytische Verfahren, um Erkenntnisse aus großen Datenmengen zu gewinnen. Das Besondere: Methoden aus Statistik, Marketing und Informationstechnik werden bei Big Data Analytics nutzbringend verschmolzen. Wann ist ein Data Warehouse einem Big-Data-System ebenbürtig oder sogar vorzuziehen? Die nachfolgenden Einsatzszenarien geben eine Antwort.

  1. Big-Data-Systeme setzen Mustererkennung ein, um Trends und Muster rechtzeitig zu identifizieren sowie bislang unbekannte oder vermutete Beziehungen zwischen einzelnen Parametern zu entdecken. Systeme, mit denen sich Zeitreihen auf Anomalien prüfen lassen, werden beispielsweise dazu verwendet, potenziellen Kreditkartenbetrug in Echtzeit aufzudecken. Damit lassen sich tausende Kreditkartentransaktionen pro Sekunde sofort kontrollieren. Im Gegensatz zu herkömmlichen Data Warehouses sind Real Time Data Warehouses aber anspruchsvoll und stellen daher in der Praxis eher die Ausnahme dar. Durch die Datenaggregation werden die Daten grobkörniger, so dass mit Data Warehouses nur eingeschränkte statistische Analysen möglich sind. Die Folge: Die Erkennung von Trends, Mustern und Zusammenhängen in Data Warehouses bleibt im Resultat eher grob und auf längere Latenzzeiten beschränkt.

  2. Die Feinkörnigkeit und die kurzen Latenzzeiten der Datenbestände von Big Data bilden wichtige Voraussetzungen zur Segmentierung in Echtzeit, wie zum Beispiel bei Online-Einkäufen. Verbreitet ist die Bildung von Kundensegmenten, etwa um individuelle Angebote für komplexe Produkte zu erstellen - zum Beispiel Lebensversicherungen. Data Warehouses bieten ebenfalls die Möglichkeit zur Bildung von Segmenten. Diese sind allerdings grobkörniger und haben eine längere Latenzzeit als die Segmente von Big-Data-Systemen.

  3. Monitoring stellt aufgrund der enormen Datenmengen eine der Hauptanwendungen von Big Data dar. Mit Real Time Monitoring können beispielsweise Probleme mit komplexen Anlagen und Transportmitteln frühzeitig erkannt und Gegenmaßnahmen ergriffen werden. Darüber hinaus lassen sich durch die Kombination von Monitoring und Mustererkennung Frühwarnsysteme realisieren. Aufgrund ihrer Grobkörnigkeit und langen Latenzzeiten sind Data Warehouses jedoch nur bedingt dafür geeignet - Echtzeitsysteme sind hier die bessere Wahl.

  4. Empfehlungssysteme haben das Ziel, Größen wie den Umsatz gezielt zu beeinflussen. Dazu werden aus bestehenden Daten in Echtzeit Empfehlungen abgeleitet. Unternehmen wie Amazon.com und Facebook empfehlen ihren Nutzern gezielt weitere Bücher beziehungsweise Freunde. Sofern die Datenbestände nicht allzu groß sind, um vertretbare Antwortzeiten zu erzielen, sollte die Möglichkeit, ein Empfehlungssystem auf Basis eines Data Warehouse zu betreiben, weiter erörtert werden.