Big Data - die Datenflut steigt

10.11.2011
Die explodierenden Datenmengen werden für immer mehr Unternehmen zu einem ernsthaften Problem. Um die Kontrolle zu behalten und möglichst viel Nutzen aus den Informationen zu ziehen, muss die gesamte IT-Infrastruktur hinterfragt werden.

Die Information ist das Öl des 21. Jahrhundert, und Analytics der Verbrennungsmotor, der damit läuft" - Peter Sondergaard, Senior Vice President von Gartner, bemühte eine Metapher, um die Herausforderung deutlich zu machen. Den Rohstoff Information aus gewaltigen Datenmengen zu extrahieren und zu verarbeiten sei eine der künftigen Kernaufgaben für Unternehmen (siehe auch Seite 12).

1 Neue Dimension: Zettabyte

Glaubt man den Marktforschern, wird sich in den kommenden Jahren eine bis dato kaum absehbare Flut an Daten und Informationen auf die Unternehmen in aller Welt zuwälzen. Im vergangenen Jahr durchbrach das globale digitale Universum erstmals die Zettabyte-Barriere (1 mit 21 Nullen), ergab die von EMC gesponserte IDC-Studie "Extracting value from Chaos". 2011 soll die weltweit produzierte Datenmenge auf ein Volumen von 1,8 Zettabyte ansteigen, das sind 1,8 Billionen Gigabyte. Damit sei die Informationsmenge den IDC-Analysten zufolge in den zurückliegenden fünf Jahren um den Faktor fünf gewachsen. IBM zufolge produzieren wir derzeit weltweit täglich 2,5 Trillionen Byte Daten (1 mit 18 Nullen). 90 Prozent des derzeitigen globalen Datenbestands seien in den beiden zurückliegenden Jahren entstanden.

Experten fassen diesen Trend unter dem Schlagwort Big Data zusammen. Der Begriff sei neu, nicht aber das Thema, sagen Andreas Zilch und Holm Landrock, Analysten der Experton Group. Nach ihrer Definition ist Big Data als neue Dimension zu verstehen, die über bekannte Methoden, Prozesse und Verfahren der Datenanalyse hinausgeht. Vier Entwicklungen bestimmen laut Experton die Veränderungen:

• Volumen: Die Menge der anfallenden Informationen wird weiter drastisch wachsen. Grenzen sind keine erkennbar.

• Quellen: Neben dem Volumen wächst auch die Zahl der Datenquellen. Waren es früher hauptsächlich Transaktionssysteme, die strukturierte Daten produzierten, kommen heute vielfältige weitere Quellen hinzu wie beispielsweise Sensoren, Social Networks und mobile Endgeräte.

• Geschwindigkeit: In Zukunft werden Analysen und Auswertungen ad hoc erwartet und gefordert. Wo früher ein monatlicher Report ausreichte, geht heute der Trend in Richtung Echtzeitanalysen.

• Nutzer: Mit dem steigenden Datenvolumen wächst auch die Zahl der Nutzer von Datenanalysen in den Unternehmen. Die Herausforderung liegt darin, die unterschiedlichen Rollen mit den passenden Auswertungen zu versorgen.

Neben diesen vier Entwicklungen gibt es aus Sicht der Analysten zwei Metaebenen, die Unternehmen beim Daten-Handling beachten müssen:

• Sicherheit: Die vielfältigen Informationsflüsse gerade auch hinsichtlich der wachsenden Zahl mobiler Endgeräte, die mit Daten versorgt werden wollen, erfordern ausgefeilte Security-Mechanismen.

• Qualität: Mit den steigenden Datenmengen wird es für die Unternehmen immer wichtiger, eine hohe Datenqualität sicherzustellen. Schon heute klagen viele Firmen über eine mangelhafte oder zumindest zweifelhafte Qualität ihrer Datenbestände.

2 Die Lage der Anwender

Viele IT-Anbieter haben das Thema mittlerweile aufgegriffen. Von einem anbieter-getriebenen Hype mag Analyst Zilch nicht sprechen. Auf Anwenderseite gebe es gro-ßen Bedarf, die mit wachsenden Datenbeständen zusammenhängenden Probleme zu lösen. Als Beispiel nennt er die Automobilbranche. Hier gingen die Hersteller verstärkt dazu über, im Rahmen ihrer Modellentwicklung Crash-Tests auf Hochleistungsrechnern zu simulieren. Die dabei anfallenden Datenmengen seien gigantisch, so der Experton-Mann.

Welches Potenzial in einem verbesserten Daten-Handling stecke, lasse sich auch im Einzelhandel beobachten. Die Händler nähmen zwar viel Geld für Analysewerkzeuge in die Hand. Wenn man sich jedoch ansehe, welche Warenmengen nach wie vor auf dem Müll landeten, müsse man annehmen, dass diese Tools nicht besonders effizient funktionierten, kritisiert Zilch.

Big Data - Chance oder Chaos?

Das Beste aus der Datenflut zu machen gelingt nach Meinung von Mark Beyer, Research Vice President bei Gartner, nur mit radikalen Maßnahmen: "Die Information- Manager in den Unternehmen müssen ihre Datenansätze grundlegend überdenken." Angesichts des großen Drucks biete sich nun die Chance, die Art und Weise der Datennutzung anders zu gestalten. Dazu müsse die IT allerdings die Business-Seite über die damit verbundenen Herausforderungen aufklären sowie die Kontrolle und Koordination im Daten-Handling sicherstellen. "Sonst wird aus der Big-Data-Chance schnell ein Big-Data-Chaos."

Die Herausforderung für die Unternehmen liege darin, mit den anfallenden Daten richtig umzugehen, bestätigt Zilch. Das heißt, in der Lage zu sein, die richtigen Daten zum richtigen Zeitpunkt an der richtigen Stelle zu analysieren. In der Konsequenz erfordert dieser Anspruch in erster Linie einen intelligenten Umgang mit den Informationen. Es könne nicht nur darum gehen, möglichst viele Daten zu horten in dem Glauben, damit die Hausaufgaben in Sachen Big Data erledigt zu haben.

3 Das neue Data Warehouse

Doch auch wenn die Unternehmen nicht mehr jedes Byte in ihren Datensilos ablegen, dürften sich die Herausforderungen in Sachen Big Data kaum in Luft auflösen. "Das Wachstum der Datenmengen wird von den Anwendern als eines der größten Probleme im Data-Warehouse-Umfeld wahrgenommen", sagt Carsten Bange, Geschäftsführer des Business Application Research Center (Barc). Das sei allerdings nicht neu. Die Unternehmen beschäftigten sich bereits seit längerem damit. Jetzt habe das Thema mit "Big Data" einen griffigen Namen bekommen. Außerdem beeinflusse neben den wachsenden Datenmengen eine Reihe weiterer Faktoren das Data-Warehouse-Umfeld. Dazu zählt Bange die steigende Komplexität der Abfragen sowie höhere Ansprüche der Nutzer an die Abfrage-Performance. Außerdem wachse die Zahl der Anwender, die auf effizientere Datenanalysen angewiesen seien. "Das alles sind Einflüsse, die dafür sorgen, dass die Anforderungen an die Skalierbarkeit eines Data Warehouse steigen", stellt Bange fest.

Zudem müssten die Anwender im Zuge von Big Data auch mit neuen Datenarten zurechtkommen. Das Problem dabei sei jedoch, dass herkömmliche relationale Datenbanksysteme und traditionelle Analysetechniken mit den unterschiedlichen Datentypen nicht klarkämen. Längst seien es nicht mehr nur strukturierte Daten, die die Verantwortlichen in den Unternehmen verwalten müssen, betont auch Rüdiger Spies. Der IDC-Analyst will allerdings nicht von den vielzitierten unstrukturierten Daten reden: "Unstrukturiert sind vielleicht kosmische Strahlen, aber nicht Informationen in der IT." Spies spricht vielmehr von semi- beziehungsweise quasi-strukturierten Daten. Dazu zählten Texte und Videos. Die IT-Abteilungen in den Unternehmen seien gefordert, diese Datenstrukturen zu erkennen, auszuwerten und mit den klassischen Datenbank-, Data-Warehouse- und Analysesystemen zu verlinken.

Dafür gebe es mittlerweile jedoch Lösungen, sagt Bange, und verweist auf Techniken rund um NoSQL-Datenbanken. Diese Systeme könnten ergänzend zu klassischen Datenbanken zum Einsatz kommen, beispielsweise um Social Networks auf Stimmungen beziehungsweise Nennungen von Produkten oder Firmennamen zu analysieren. Die so gewonnenen Ergebnisse ließen sich wieder in strukturierte Daten überführen und als Kennzahlen in ein DW einspeisen, beschreibt Bange eine mögliche Vorgehensweise.

4 Neue BI-Ansätze

Neben der Organisation der wachsenden Datenberge müssen die Unternehmen auch lernen, aus den Massen an Informationen den größtmöglichen Nutzen für das eigene Business zu ziehen. Eine wichtige Rolle spielt in diesem Zusammenhang das Thema Business Intelligence (BI). Doch dabei ändert sich die Zielrichtung. Stand früher vor allem das Reporting auf Basis historischer Daten im Vordergrund, geht es heute verstärkt darum, neue Daten in Echtzeit

auszuwerten und künftige Entwicklungen zu simulieren, um eine möglichst valide Grundlage für Entscheidungen zu erhalten. Entsprechende Lösungen fasst man unter dem Label "Predictive Analytics" zusammen.

Eine Umfrage von Lünendonk unter BI-Anbietern hat jüngst ergeben, dass Themen wie die Integration externer Datenquellen in analytische Infrastrukturen sowie die Konzeption analytischer Lösungen für die Auswertung komplexer Datenmengen ganz oben auf den To-do-Listen der Softwarehersteller stehen. "Mit neuen Technologien zur Analyse von Big Data könnten bisher nicht lösbare analytische Probleme angegangen werden", verspricht Christoph Morgen, BI-Experte von SAS. Damit ließen sich mehr Aspekte berücksichtigen und die Genauigkeit der analytischenVerfahren erhöhen. "Statisches Reporting mit Blick in die Vergangenheit hat endgültig ausgedient."

BI-Visionen mit Watson

Die Anbieter arbeiten längst an den BI-Lösungen von morgen. Für Aufsehen sorgte zuletzt beispielsweise IBMs Superrechner "Watson", der zwei erstklassige menschliche Kontrahenten in der US-amerikanischen Quizsendung "Jeopardy" schlagen konnte. Das System analysiert durch massiv-paralleles Data Crunching innerhalb kürzester Zeite riesige Datenmengen und kann mit Hilfe künstlicher Intelligenz sogar Nuancen menschlicher Sprache erkennen.

Aber auch kleine Spezialisten haben in dem neuen Feld durchaus ihre Chancen. Das Startup Proximal Labs hat zum Beispiel gemeinsam mit dem US-Verteidigungsministerium eine Lösung entwickelt, um das Know-how von Kollegen anhand von Meinungen von Nutzern im Netz zu analysieren. Damit könnte die Software im Kundenservice jeweils den geeignetsten Mitarbeiter für bestimmte Anfragen vorschlagen. Das deutsche Unternehmen Blue Yonder kombiniert in seiner Software "NeuroBayes" neuronale Netze mit statistischen Methoden. Das System lernt dabei, nur die wirklich relevanten Informationen aus dem Datenrauschen herauszufiltern, und erhöht so die Prognosegenauigkeit.

5 Neue Lösungen der Anbieter

Die Auswirkungen von Big Data reichen allerdings weit über den Softwarebereich hinaus. Spies zufolge müssten die Anwender angesichts der rasant wachsenden Datenmengen auch ihre Netzkapazitäten im Auge behalten und gegebenenfalls mit neuer leis-tungsstärkerer Technik ausbauen. "Das Thema Big Data könnte auch die künftigen Rechnerarchitekturen grundlegend verändern", führt der Analyst aus. In klassischen Architekturen würden die Daten von Plattensystemen zur CPU transportiert, dort verarbeitet und die Ergebnisse wieder zurück auf die Speicher geschrieben. Wachsen die Datenmengen weiter an, dürfte dieses Modell bald an seine Grenzen stoßen. Mittlerweile gebe es Überlegungen, die Rechenleistung zu den Daten zu bringen. Vanessa Alvarez, Analystin von Forrester Research, bezeichnet herkömmliche Speicherarchitekturen als zu statisch und unflexibel für die Big-Data-Anforderungen. Besser geeignet seien dedizierte Appliances, die Storage, Computing- und Netzressourcen mit Analytics-Funktionen in einem Gerät kombinierten. Hersteller wie Oracle haben diesen Ansatz in Produkten wie den "Exadata"-Maschinen bereits aufgegriffen.

Darüber hinaus droht Spies zufolge die klassische Festplattentechnik zu einem Flaschenhals zu werden. Mittlerweile versuchen die Storage-Hersteller, die Speicher-Performance mit Flash-basierenden SSDs zu pushen. Darüber hinaus forschen sie längst an noch leistungsfähigeren Storage-Techniken. Nanoröhren und holografische Speicher sind die Stichworte.

Beispielsweise hat IBM erst kürzlich mit seiner Racktrace-Technik ein neues Speicherkonzept vorgestellt. Dabei werden Informationen in Form von winzigen, gegensätzlich magnetisierten Regionen in einem Nanodraht gespeichert. IBM zufolge lässt sich damit eine extrem hohe Speicherdichte ohne Performance-Einbußen erreichen. Allerdings werde es noch einige Jahre dauern, bis die Technik marktreif sei.

100 Millionen Dollar für Big Data

IBM will weiter in Big Data investieren. Rund 100 Millionen Dollar sollen in der nächsten Zeit in Forschung und Entwicklung für diesen Bereich fließen. Ziel der Initiative sei es, neue Produkte und Services auf den Markt zu bringen, die Unternehmen dabei unterstützen sollen, die steigenden Datenfluten in den Griff zu bekommen. Neben eigenen Entwicklungen und Zukäufen setzt IBM auch auf fremde Techniken wie die NoSQL-Lösung "Hadoop". Diese bietet ein hochskalierbares Filesystem, um unterschiedlich strukturierte Daten zu speichern, sowie ein Entwicklungs-Framework, um Programme für eine parallelisierte Verarbeitung der Daten zu erstellen. Hadoop basiert auf Googles Map-Reduce-Ansatz und wird von der Apache Foundation als Open-Source-Lösung bereitgestellt.

Mittlerweile haben verschiedene namhafte Hersteller Hadoop-basierende Produkte angekündigt. Oracle will beispielsweise eine Big Data Appliance mit NoSQL-Datenbank und Hadoop-Werkzeugen herausbringen. Die EMC-Tochter Greenplum plant, ihre analytische Datenbank mit einer eigenen Hadoop-Distribution zu kombinieren. Und Microsoft bietet für seinen SQL Server Hadoop-Konnektoren an.

Neben NoSQL-Lösungen gibt es eine Reihe weiterer Techniken, die laut Herstellern den Anwendern im Umgang mit Big Data helfen könnten. Dazu zählen beispielsweise spaltenorientierte Datenbanken und In-Memory-Techniken, die Abfragen deutlich beschleunigen sollen. Neben den großen Anbietern wie SAP, die mit "HANA" eine auf In-Memory-Technik basierende BI-Appliance anbietet, sehen an dieser Stelle auch kleinere Spezialanbieter ihre Chance. Dazu zählen beispielsweise Exasol aus Nürnberg und Parstream aus Köln.

6 Anwenderakzeptanz

"Hier gibt es einige interessante Dinge", bilanziert Bange seine Beobachtungen des Markts. In der Adaption dieser Techniken seien allerdings amerikanische Anwenderunternehmen wie so oft ein ganzes Stück weiter, berichtet der Barc-Experte. Hierzulande seien Produkte wie beispielsweise Hadoop noch weitgehend unbekannt. Deutsche Firmen müssten in diesem Fach noch einige Hausaufgaben erledigen. Neben der Organisation, wie mit den anfallenden Daten umzugehen ist, sowie Architekturfragen müssten sich die Verantwortlichen eben auch mit neuen Produkten und Techniken beschäftigen.

Das dürfte allerdings nicht einfach werden. Infrastrukturen, die das Big-Data-Problem zentral und unkompliziert lösen, sind derzeit nicht in Sicht. Gartner zufolge wird auch in Zukunft kein zentrales Datenreservoir existieren, in das Anwender einfach alle benötigten Informationen hineinkippen könnten. Vielmehr werde es je nach Anforderung unterschiedliche logische Data Warehouses für Informationen aus verschiedenen Quellen geben.

Nach Einschätzung von Experton-Group-Analyst Zilch stellt es für die IT-Hersteller eine gewaltige Herausforderung dar, alle vier Dimensionen von Big Data in einer Lösung abzudecken. "Ich halte es für unwahrscheinlich, dass dies einem Anbieter gelingt", prognostiziert der Experte. Zwar behaupteten IT-Riesen wie IBM und Oracle, das zu können, doch ihre Lösungen behöben immer nur Teile des Problems. "Es wird nicht die Big-Data-Superlösung geben", ist sich Zilch sicher. Und auch aus Sicht seines IDC-Kollegen Spies ist das Feld an dieser Stelle gerade für junge innovative Firmen weit offen: "Längst ist noch nicht alles erfunden, was man an dieser Stelle erfinden könnte".

7 Was kostet Big Data?

Ein grundsätzliches Problem im Big-Data-Umfeld ist für Anwender eine verlässliche Kosten-Nutzen-Kalkulation. Schließlich müssen die Verantwortlichen Geld in die Hand nehmen, um zusätzliche Systeme anzuschaffen - und die sind in aller Regel nicht gerade günstig. Hadoop als Open-Source-Produkt, das sich auch auf Standardhardware einsetzen lässt, wirkt zwar aus Kostensicht zunächst attraktiv. Allerdings, schränkt Barc-Chef Bange ein, müssen Unternehmen für das Framework aus Filesystem und Entwicklungsumgebung zusätzliche Entwicklerkapazitäten bereitstellen, um das Produkt an die eigenen Anforderungen anzupassen.

"Anwender sollten hier aufpassen", warnt Bange. Manche Hersteller erzeugten rund um Big Data teinen regelrechten Hype und argumentierten oft mit Extrembespielen, die sich keineswegs verallgemeinern ließen. IDC-Analyst Spies mahnt ebenfalls zur Vorsicht: Anwenderunternehmen müssten die Kosten im Blick behalten. Big Data sei ein neuer Markt, in dem Höchstpreise verlangt würden. Die Anbieter versuchten hier viel Geld abzugreifen.

Trotzdem kann es sich kaum ein Unternehmen leisten, die einschlägigen Themen zu ignorieren. Dafür sind die Probleme rund um explodierende Datenbestände schon zu konkret. Während sich in der Vergangenheit nur einige wenige Unternehmen wie beispielsweise Telekommunikationsanbieter mit Terabyte-großen Data Warehouses herumschlagen mussten, sind Datensammlungen dieser Größenordnung heute keine Seltenheit mehr.

Dafür brauchen die Unternehmen neue Tools, stellt Spies klar: "Big Data katalysiert die verschiedensten Entwicklungen." Dahinter stecke schließlich ein gigantisches Veränderungspotenzial, das auch dringend gebraucht werde: "Die Menge der Daten fliegt uns um die Ohren."

von Martin Bayer

Nicht zum "Daten-Messie" werden

Andreas Stein, Managing Director Dell Services in Deutschland, rät den Unternehmen, nicht alles zu speichern, was sie technisch speichern könnten. "Die sinkenden Hardwarekosten verführen dazu, der Datenflut einfach durch die Erweiterung der Storage-Systeme zu begegnen." Das sei jedoch der falsche Weg. Viele Firmen verwahrten und verwalteten Unmengen an Daten, die nie wieder gebraucht würden. "Tatsächlich sind die Unternehmen heute auf dem besten Weg dazu, Daten-Messies zu werden."

Der Dell-Manager plädiert für eine konsequente Priorisierung von Daten. Genauso konsequent müsse dann gelöscht werden: "Man muss auch loslassen können: Was nicht zwingend gebraucht wird, muss aus den Storage-Systemen verschwinden."

Big Data richtig nutzen

Wer mit Big Data richtig umgeht, kann davon profitieren, wollen die Experten von McKinsey herausgefunden haben:

• Der amerikanische Gesundheitssektor könnte seine Effizienz deutlich verbessern. Das Volumen wird auf 300 Milliarden Dollar pro Jahr beziffert.

• Handelsunternehmen wären in der Lage, ihre operative Marge um bis zu 60 Prozent zu verbessern.

• Europäische Behörden könnten durch effizientere Prozesse jährlich bis zu 250 Milliarden Euro einsparen.

• Mit Hilfe von Lokalisierungsdaten ließen sich weltweit jährlich rund 100 Milliarden Dollar mehr Umsatz erzielen.

Big Data - auch eine Frage der richtigen Skills

Neben den technischen Herausforderungen gilt es für die Unternehmen, sich auch personell auf Big Data vorzubereiten:

• McKinsey zufolge fehlen allein in den USA zwischen 140.000 und 190.000 Mitarbeiter mit analytischen Fähigkeiten. Weitere 1,5 Millionen Manager müssten sich darauf vorbereiten, mit Big Data die richtigen Entscheidungen zu treffen.

• In den nächsten zehn Jahren wird die Menge der Informationen in den weltweiten Rechenzentren um den Faktor 50 zunehmen, prognostiziert IDC. Die Zahl der IT-Professionals wird sich dagegen nur um den Faktor 1,5 erhöhen.

• Viele BI-Lösungen blieben hinter den Erwartungen zurück, haben die Analysten von IDC zudem festgestellt. Das liege vor allem an der unzureichenden Fortbildung der Mitarbeiter, die vorhandenen BI-Kapazitäten sinnvoll und umfassend zu nutzen.