Daten-Management

Big Data - BI der nächsten Generation

03.12.2012 | von Carsten Bange und Timm Grosser
Unternehmen entdecken ihre strukturierten und unstrukturierten Daten als ungehobene Schätze. Big-Data-Techniken können helfen, an diese Assets heranzukommen. Doch der Weg ans Ziel ist weit - und der Ertrag unsicher.
Was bringt die Analyse poly-strukturierter Daten?
Was bringt die Analyse poly-strukturierter Daten?
Foto: michelangelus - Fotolia.com

"Big Data" ist eines der IT-Trendthemen 2012, doch einen Konsens, was darunter zu verstehen ist, gibt es noch nicht. Große Datenmengen schnell und für komplexe Abfragen von immer mehr Nutzern bereitzustellen ist die eine Seite der Medaille. Die andere ist das Erschließen von Datenquellen jenseits der strukturierten Daten, die ERP-, CRM- und andere operative Transaktionssysteme liefern.

Hierbei handelt es sich vor allem um große Mengen maschinell erzeugter Daten. RFID-Funkchip-Erfassungen, Maschinendaten aus der Produktion (BDE), Logdaten der IT-Systeme, Sensordaten in Gebäuden oder der Umwelt, das World Wide Web mit Daten aus der eigenen Web-Präsenz oder dem eigenen Webshop zählen genauso dazu wie Social-Media-Daten aus Facebook, Twitter, Blogs oder Foren.

Hinzu kommen unstrukturierte Daten wie Call-Center- oder Servicenotizen, Bilder auf Web-Seiten oder Videoclips, die als Basis für Analysen herangezogen werden können. Besonders herausfordernd sind die unterschiedlichen Strukturen dieser Daten, die typischerweise nicht in relationalen Datenbanken kosten- und verarbeitungseffizient gespeichert werden können.

Noch fehlen Erfahrungswerte

Big Data oder BI - die Aufgaben bleiben die gleichen: Big-Data-Analyse erfolgt auf Basis der gleichen Referenzarchitektur wie klassische BI - allerdings mit anderen Softwarelösungen, zum Beispiel Hadoop-Komponenten. Quelle: Barc
Big Data oder BI - die Aufgaben bleiben die gleichen: Big-Data-Analyse erfolgt auf Basis der gleichen Referenzarchitektur wie klassische BI - allerdings mit anderen Softwarelösungen, zum Beispiel Hadoop-Komponenten. Quelle: Barc

Unternehmen beginnen gerade zu untersuchen, welche Potenziale die Analyse solcher poly-strukturierten Daten birgt. Erste Erfolgsberichte zeigen die Möglichkeiten, klassische Herangehensweisen an Business Intelligence (BI) zu erweitern und auch aus diesen Daten Informationen herauszufiltern, die einen Wettbewerbsvorteil liefern. Spätestens wenn ein Wettbewerber die Kunden besser versteht oder seine Prozesse agil anpassen kann, läuten die Alarmglocken. Die Komplexität im Umgang mit diesen Daten kann allerdings hoch sein, und zur Bewertung von Qualität und Nutzen der Analyseergebnisse im Vergleich zum Aufwand fehlen häufig Erfahrungswerte. Insgesamt ist das Thema Big Data noch schwer greifbar, was sich auch in den unterschiedlichen Definitionen und Meinungen niederschlägt, die Marketing-gerecht zugeschnitten serviert werden. Einen breiten Konsens findet derzeit folgende Definition:

"Big Data bietet Methoden und Technologien für das Erfassen, Speichern und Analysieren poly-strukturierter Daten genau dort, wo klassische analytische Informationssysteme heute an ihre Grenzen stoßen."

Der Nutzen von Big Data liegt vor allem in der Analyse großer, erstmals zugänglichen Datenmengen, die mit den üblicherweise eingesetzten Techniken einer klassischen BI-Architektur aus Datenintegration, Datenspeicherung, Analytik und Visualisierung/Auswertung nicht richtig erreichbar sind. Die Verbindung der Analysen poly-strukturierter Daten mit der existierenden Welt der strukturierten Daten eröffnet weitreichende Potenziale und Chancen. Es entstehen neue und detaillierte Analysemöglichkeiten von Daten, die heute noch gar nicht oder nur teilweise genutzt werden können. Außerdem werden die Analysesysteme flexibler, und mit Cloud Computing sind flexible Modelle für On-Demand-Analysen möglich.

Voraussetzung, um das Big-Data-Versprechen einlösen zu können, sind neue Softwareprodukte, die verschiedene Anforderungen in vier Dimensionen erfüllen müssen:

  • Große Datenvolumina müssen integriert, verarbeitet und gespeichert werden können (Dimension des Volumens);

  • die zu verarbeitenden Daten sind poly-strukturiert (Dimension der Struktur);

  • Datenquellen müssen schnell und flexibel integriert und analysiert werden können (Dimension Geschwindigkeit);

  • Auswertung und Visualisierung der Inhalte sind schwieriger als im BI-Umfeld (Dimension der Analysekomplexität).

Insgesamt ergibt die Nutzung neuer Techniken, die für das Integrieren und Analysieren poly-strukturierter Daten entwickelt wurden, auch gute Möglichkeiten, die Kosten zu senken. Das liegt zum einen am Aufkommen bereits optimierter Lösungen, zum anderen an der teilweisen Verfügbarkeit von Open-Source-Lösungen.