Problemlage entscheidet

Big-Data-System oder Data Warehouse?

09.04.2013 von Ilias Ortega
Rasant wachsende Datenmengen stellen Unternehmen vor neue Herausforderungen und vor allem vor die Frage: Mit welchem System soll die Datenflut gebändigt werden, um einen größtmöglichen Nutzen herauszuholen?
Vielen Big-Data-Lösungen fehlt noch die Marktreife.
Foto: Shutterstock/FreshPaint

Das Trendthema Big Data sorgt derzeit für Begeisterung, aber auch Verwirrung in manchen Anwenderunternehmen: Angesichts packender Berichte über den Einsatz von Big Data bei erfolgreichen Web-2.0-Akteuren wie Amazon.com und Facebook fragen sie sich: Könnten Big-Data-Verfahren nicht auch nutzbringend in der eigenen Organisation verwendet werden? Unter welchen Umständen ist Big Data zu empfehlen? Und für IT-Entscheider lautet die wesentliche Frage: Kann der Nutzen, den Big Data verspricht, auch mit den bereits vorhandenen, einfacheren Mitteln - sprich einem Data Warehouse - erreicht werden?

Data Warehouse

Data-Warehouse-Systeme enthalten Datenbestände, die periodisch aus Transaktionssystemen entnommen, gefiltert und zu Analysezwecken aggregiert werden. Häufig wird ein Data Warehouse in täglichen Ladevorgängen mit Daten befüllt und hat deshalb eine Latenzzeit, was die Aktualität der Daten betrifft, von einem Tag. Die Pivottabelle ist das am meisten benutzte Analyseinstrument im Umfeld von Data Warehousing. Oft stellen Pivottabellen die Ausprägungen quantitativer Größen gemäß qualitativen Kriterien tabellarisch dar. Ein typisches Beispiel sind nach Produkten und Regionen gegliederte Umsätze. Auch der Einsatz anderer statistischer Verfahren - Stichwort Data Mining - ist im Data Warehouse möglich, jedoch nicht so verbreitet wie die Analyse mit Pivottabellen. Der Hauptgrund dafür sind die aggregierten, grobkörnigen Daten, die statistisch lohnende Eigenschaften ausblenden und darauf basierende statistische Analysen so ausschließen. Ein weiterer wichtiger Grund ist die Komplexität der Data-Mining-Verfahren.

Big Data und Big Data Analytics

Die Definitionskriterien von Big Data sind je nach Quelle unterschiedlich. In einem sind sich jedoch alle einig: Bei Big Data handelt es sich um Datenmengen, die mit herkömmlichen Mitteln nicht mehr effizient zu verwalten sind. Dazu gehören nicht aggregierte, in Echtzeit ermittelte Daten, die beispielsweise aus Transaktionssystemen, wissenschaftlichen Versuchen, Simulationen oder Sensoren stammen.

Neben Big Data hat sich der Begriff Big Data Analytics etabliert. Letztere umfassen analytische Verfahren, um Erkenntnisse aus großen Datenmengen zu gewinnen. Das Besondere: Methoden aus Statistik, Marketing und Informationstechnik werden bei Big Data Analytics nutzbringend verschmolzen. Wann ist ein Data Warehouse einem Big-Data-System ebenbürtig oder sogar vorzuziehen? Die nachfolgenden Einsatzszenarien geben eine Antwort.

  1. Big-Data-Systeme setzen Mustererkennung ein, um Trends und Muster rechtzeitig zu identifizieren sowie bislang unbekannte oder vermutete Beziehungen zwischen einzelnen Parametern zu entdecken. Systeme, mit denen sich Zeitreihen auf Anomalien prüfen lassen, werden beispielsweise dazu verwendet, potenziellen Kreditkartenbetrug in Echtzeit aufzudecken. Damit lassen sich tausende Kreditkartentransaktionen pro Sekunde sofort kontrollieren. Im Gegensatz zu herkömmlichen Data Warehouses sind Real Time Data Warehouses aber anspruchsvoll und stellen daher in der Praxis eher die Ausnahme dar. Durch die Datenaggregation werden die Daten grobkörniger, so dass mit Data Warehouses nur eingeschränkte statistische Analysen möglich sind. Die Folge: Die Erkennung von Trends, Mustern und Zusammenhängen in Data Warehouses bleibt im Resultat eher grob und auf längere Latenzzeiten beschränkt.

  2. Die Feinkörnigkeit und die kurzen Latenzzeiten der Datenbestände von Big Data bilden wichtige Voraussetzungen zur Segmentierung in Echtzeit, wie zum Beispiel bei Online-Einkäufen. Verbreitet ist die Bildung von Kundensegmenten, etwa um individuelle Angebote für komplexe Produkte zu erstellen - zum Beispiel Lebensversicherungen. Data Warehouses bieten ebenfalls die Möglichkeit zur Bildung von Segmenten. Diese sind allerdings grobkörniger und haben eine längere Latenzzeit als die Segmente von Big-Data-Systemen.

  3. Monitoring stellt aufgrund der enormen Datenmengen eine der Hauptanwendungen von Big Data dar. Mit Real Time Monitoring können beispielsweise Probleme mit komplexen Anlagen und Transportmitteln frühzeitig erkannt und Gegenmaßnahmen ergriffen werden. Darüber hinaus lassen sich durch die Kombination von Monitoring und Mustererkennung Frühwarnsysteme realisieren. Aufgrund ihrer Grobkörnigkeit und langen Latenzzeiten sind Data Warehouses jedoch nur bedingt dafür geeignet - Echtzeitsysteme sind hier die bessere Wahl.

  4. Empfehlungssysteme haben das Ziel, Größen wie den Umsatz gezielt zu beeinflussen. Dazu werden aus bestehenden Daten in Echtzeit Empfehlungen abgeleitet. Unternehmen wie Amazon.com und Facebook empfehlen ihren Nutzern gezielt weitere Bücher beziehungsweise Freunde. Sofern die Datenbestände nicht allzu groß sind, um vertretbare Antwortzeiten zu erzielen, sollte die Möglichkeit, ein Empfehlungssystem auf Basis eines Data Warehouse zu betreiben, weiter erörtert werden.

Big Data oder Data Warehouse?

Diese Beispiele zeigen, dass große Datenmengen, Feinkörnigkeit sowie kurze Latenzzeiten für Big-Data-Verfahren sprechen. Andererseits lassen sich Anwendungen, die auf den ersten Blick Big Data vorbehalten sind, sehr wohl auch mit einem Data Warehouse erfüllen. Nachteile sind hier jedoch die eingeschränkte Datenmenge, die Grobkörnigkeit und die längere Latenzzeit. Auch die Komplexität der statistischen Verfahren, die den Kern der Anwendungen ausmachen, ist von entscheidender Bedeutung. So lassen sich Analysen mit Pivottabellen im Data Warehouse unkompliziert via Drag and Drop vornehmen. Statistische Vorkenntnisse sind in der Regel nicht erforderlich. Verfahren wie Mustererkennung, Segmentierung, Monitoring und Empfehlungssysteme setzen hingegen Statistikkenntnisse voraus.

Big Data oder DW: Acht Schritte bis zur Einführung

Die Entscheidung für Big Data oder ein Data Warehouse wird am besten im Rahmen einer schrittweisen Problemlösung getrofffen:

  1. Identifikation des Problems, das mit Big Data oder einem Data Warehouse zu lösen ist.

  2. Erarbeitung der statistischen Lösung.

  3. Ermittlung der erforderlichen Daten: Menge, Körnigkeit und Latenz.

  4. Entscheidung über die optimale technische Lösung: Big Data oder Data Warehouse.

  5. Ermittlung des Nutzens.

  6. Falls der Nutzen überzeugt: Betrieb eines Pilotprojekts.

  7. Nach Erfolg des Pilotprojekts: Schulung in Statistikverfahren und Einführung der Lösung.

  8. Laufende Beurteilung und Weiterentwicklung der Lösung.

IT-Entscheider müssen Aufwand und Nutzen beider Lösungen einander gegenüberstellen. Der Ertrag zeigt sich oft in Form von erhöhtem Umsatz, geringeren Betriebskosten oder gesteigerter Produkt- und Servicequalität. Doch die Kosten sollten keinesfalls außer Acht gelassen werden. Dazu zählen vor allem Investitionen für Hard- und Software, Schulungs- und Einarbeitungskosten sowie Einführungs- und Betriebsausgaben. Auch gilt es zu bedenken, dass Big-Data-Lösungen vielfach die Reifephase für den Markt noch nicht erreicht haben - technische Standards entstehen zum Teil erst.

Die Anwendung von statistischen Verfahren, bei Big Data wie bei Data Warehouses, setzt Fachwissen voraus. Das ist nicht in jedem Unternehmen vorhanden und muss Entwicklern, Sachbearbeitern und Managern oft erst vermittelt werden. Auch die Anwendung von Statistikverfahren ist in beiden Fällen anspruchsvoll. Daher sollte man diese Verfahren schrittweise einführen. Ein internes Kompetenzzentrum für die Anwendung statistischer Verfahren sollte die Projekte unterstützen.

Die technischen Einzelheiten von statistischen Verfahren wie zum Beispiel Empfehlungssystemen werden von Unternehmen oft geheim gehalten oder nur in groben Zügen nach außen kommuniziert. Newcomer müssen sich deshalb das Grundlagenwissen selbst aneignen und die Lösung bestehender Probleme angehen, ohne die praktischen Details bereits vorhandener Lösungen zu kennen.

Top100 Business Intelligence
Top100-2012 Business Intelligence
Top100-2012 BI
Auch im BI-Segment sind die Verhältnisse klar. SAP liegt in Deutschland...
genauso unangefochten wie in Emea...
... und weltweit an der Spitze.
Auch die Zusammensetzung der Top-Anbieter verändert sich in den verschiedenen Regionen nicht wesentlich.
Fast die gleichen Unternehmen sind in Deutschland, Emea und weltweit vertreten.
Ausnahmen sind Corporate Planning, Tibco und Information Builders.

Pilotprojekte helfen planen

Der finanzielle und zeitliche Aufwand für die Einführung der neuen Lösung darf nicht unterschätzt werden. Um den Aufwand zuverlässig planen zu können, sollten erste Erfahrungen in Pilotprojekten gesammelt werden. Deren Mitarbeiter sollten jeweils für relevante und klar abgesteckte Probleme zuständig sein.

Zu Beginn sollten zudem möglichst einfache statistische Verfahren zum Einsatz kommen, um damit das erforderliche Know-how allmählich aufzubauen. Aus den Pilotprojekten gewonnene Erkenntnisse helfen bei der schrittweisen Einführung. Anschließend gilt es, die eingeführte Lösung kontinuierlich zu beurteilen und weiterzuentwickeln. (ba)

Die vier Herausforderung von Big Data
Die vier Herausforderungen von Big Data
Das Thema Big Data befasst sich eigentlich mit vier Herausforderungen:
Die schiere Menge:
Das für Unternehmen relevante Datenvolumen steigt weiter drastisch an. Heute schon werden Datenmengen im Terabyte-Bereich analysiert, in Kürze dürften Petabyte und Exabyte auf der Agenda stehen.
Der Zeitdruck:
Analysen der gewaltigen Datenberge sollten idealerweise in Echtzeit zur Verfügung stehen. Denn die Unternehmen stehen vor der Aufgabe, dass sie zeitnah auf Marktänderungen reagieren müssen.
Die mangelnde Struktur:
Die Analysen müssen immer häufig Datenquellen mit kaum strukturierten Beständen berücksichtigen. Das heißt: die Komplexität der Datenanalysen steigt. Neben den bekannten Datenquellen, etwa den vorhandenen ERP-Systemen, kommen neue hinzu. Dazu zählen Daten aus M-to-M-Applikationen, also beispielsweise Sensordaten, Daten aus On-Board-Systemen, RFID-Daten aus der Logistikkette, aber auch Daten aus Weblogs und Social-Media-Plattformen etc.
Die wachsende Anwenderzahl:
Die potenziellen internen und externen User werden immer mehr. Sie kommen beispielsweise über Self-Service-Portale, die im Web zugänglich sind.