Datability

Big Data läutet neue Analytics-Ära ein

Marcus Dill ist Geschäftsführer beim Data-Mining-Spezialisten Mayato.
Datenanalysen mit Hilfe intelligenter Algorithmen sind nicht neu. Big Data verspricht jede Menge neuer Möglichkeiten für Unternehmen, stellt jedoch auch neue Anforderungen: an Techniken für das Management, die Analyse dieser Daten und an Menschen, die diese Techniken letztendlich bedienen.
Daten richtig zu analysieren, ist eine Kunst für sich.
Daten richtig zu analysieren, ist eine Kunst für sich.
Foto: Paul Fleet/Fotolia.com

Datenanalysen waren über viele Jahrzehnte ein Thema, das in aller Regel nur Forscher, Softwareentwickler und die Verantwortlichen in den Unternehmen bewegt und interessiert hat. Das hat sich geändert. Nicht nur Ökonomen und IT-Experten reden heute über Big Data und die damit verbundenen aktuellen und noch vor uns liegenden Umwälzungen, die die Vielfalt heutiger Daten und die modernen Analysemöglichkeiten mit sich bringen. Längst diskutieren auch Geistes- und Sozialwissenschaftler, Politiker und Journalisten - teilweise sehr kontrovers - die vielfältigen Auswirkungen auf die Gesellschaft und jeden Einzelnen.

Auf der Habenseite für Big Data stehen neue Anwendungsideen - etwa zum schonenderen Umgang mit natürlichen Ressourcen, der intelligenteren Nutzung vorhandener Infrastruktur, zur Steigerung der Erträge in der Landwirtschaft und zu Fortschritten bei der Diagnose und Behandlung von Krankheiten. Viele Szenarien, die zukünftig mittels Datenanalysen möglich sein werden, sind heute jedoch noch nicht einmal angedacht - es herrscht Aufbruchsstimmung.

So mancher sieht aber auch eher die Risiken durch die Hoheit über die Daten und Tools seitens großer Konzerne, des Staates oder von Geheimdiensten. So ist es nicht verwunderlich, dass sich die diesjährige CeBIT unter der Überschrift "Datability" insbesondere Aspekte wie Nachhaltigkeit und Verantwortungsbewusstsein in Bezug auf Big Data als Leitthema vorgenommen hat. Der Schlüssel zum Verständnis von Chancen und Risiken durch Datenanalysen liegt in einer genauen Kenntnis der Möglichkeiten von Big Data Analytics - insbesondere auch, worin sie sich von den bisherigen Möglichkeiten unterscheiden.

Es geht nicht nur um die Datenmenge

Der Begriff Big Data hat sich im Markt angesichts seiner Griffigkeit etabliert, auch wenn über ihn eigentlich nur einer der wesentlichen Aspekte heutiger und zukünftiger Daten hervorgehoben wird - nämlich die Menge. Umfassender beschreiben die aus der englischsprachigen Literatur übernommenen und mittlerweile auch in Deutschland vielzitierten "3V" (volume, variety, velocity) das Neue an Big Data. Die Datenmenge (volume) war und ist sicher ein zentraler Treiber für viele der jüngeren Innovationen, ohne die viele Analysen schlicht aufgrund von langen Laufzeiten nicht möglich wären. Neue Anwendungen entstehen jedoch vor allem durch ein massiv verbreitertes Spektrum an Daten und Datentypen (variety) sowie aufgrund der erhöhten Verfügbarkeit und Nutzbarkeit von Daten für Analysen in Echtzeit (velocity).

Es ist insbesondere die Vielfalt der Daten, die - richtig kombiniert - ganz neue Fragestellungen sowie eine bessere Steuerung von Prozessen und Handlungen erlaubt. So lässt sich heute beispielsweise die Wirkung von Werbung sehr detailliert analysieren, indem Daten aus dem Onlineverhalten von Menschen (auf den Webseiten oder in der mobilen App eines Unternehmens, oder aber innerhalb sozialer Netzwerke) mit Informationen zur klassischen Offlinewerbung (TV, Radio, Print, Plakat) geschickt kombiniert werden. Wo es lange Zeit nicht als möglich galt, den Erfolg ganzer Kampagnen zu ermitteln, können Experten heute schon auf der Ebene eines einzelnen Werbespots, Internetbanners oder Plakatstandorts sehr präzise Aussagen zur Wirksamkeit machen.

Ähnlich liegt der Fall in anderen klassischen Anwendungsbereichen wie beispielsweise Absatzprognosen für den Handel. Wo früher nur grobe Modelle zur Abbildung saisonaler Schwankungen auf der Basis der Verkäufe früherer Jahre möglich waren, lassen sich heute durch mittlerweile durchaus zuverlässige Wetterprognosen auch sehr konkrete Aussagen über die Nachfrage der nächsten Tage und Wochen machen und Lagerbestände auf dieser Grundlage steuern. Beide Beispiele zeigen auch die Bedeutung von unternehmensexternen Informationen im Kontext Big Data.

Kritischer Faktor Performance

Ein entscheidendes Hindernis bei der Analyse großer Datenmengen war in der Vergangenheit die schlechte Performance. Klassische relationale Datenbank-Management-Systeme (RDBMS) bieten typischerweise zufriedenstellende Antwortzeiten nur bis zu einer Größe von einigen Dutzend Terabyte. Um das zu erreichen, sind jedoch vielfältige Performance-steigernde Maßnahmen (beispielsweise Indizes, Aggregate, OLAP-Würfel, Materialisierte Views, Vorberechnungen) erforderlich, die großen Aufwand mit sich bringen und zu Lasten der Flexibilität gehen. Hinzu kommt, dass RDBMS sich nur für die Speicherung und Analyse von strukturierten Daten eigenen. Text-, Bild-, Ton- und andere unstrukturierte Daten lassen sich zwar grundsätzlich auch dort ablegen, sind aber dort nicht mehr effektiv und schnell genug im Zugriff.

Es haben sich daher für die Analyse von Big Data eine Vielzahl neuer Technologien (allen voran In-Memory-Lösungen, Parallel-Architekturen, Hadoop, NoSQL-Datenbanken) entwickelt, die auch auf sehr großen und verschiedenartigen Datenbeständen schnelle Antwortzeiten ermöglichen sollen. Viele dieser Ansätze verzichten auf eine umfassende Vorverarbeitung und inhaltliche Aufbereitung der Daten, sondern legen sie lediglich technisch optimiert ab.

Die hohe Geschwindigkeit vieler dieser Technologien und die Beibehaltung möglichst vieler Datendetails erlaubt einerseits eine hohe Flexibilität bei Adhoc-Abfragen. Andererseits macht sie es in vielen Fällen auch möglich, komplette Datenbestände zu analysieren und sich nicht auf Stichproben (Samples) zu beschränken, wie es in herkömmlichen Datenanalysen typischerweise der Fall war. Selbst aus kleinen Stichproben lassen sich zwar grundsätzlich valide und übertragbare Muster erkennen, sofern sie qualitativ hochwertig sind, das heißt repräsentativ für den Gesamtdatenbestand sind.

In der Vergangenheit erwies es sich aber als nicht immer einfach, eine ordentliche Zufallsstichprobe zu erstellen, da selbst vermeintlich zufällig ausgewählte Datensätze unbewusste und unerkannte Korrelationen enthalten können. Außerdem gehen bei Stichproben durch die Eliminierung vermeintlicher Ausreißer auch viele weniger prominente Informationen verloren.

Es gibt zahllose Anekdoten von Analysten, die aufgrund falscher Stichproben auf statistische Muster gestoßen sind, die sich im Anschluss nicht auf andere Datenbestände übertragen ließen und daher nutzlos waren. Der Trend im Bereich Mustererkennung und Predictive Analytics geht heute tatsächlich eher dahin, möglichst komplette Datenbestände anstelle von Samples zu analysieren, um auf diese Weise mehr Details zu ermitteln und auch seltene Ereignisse beziehungsweise Muster mit einzubeziehen. Damit das möglich ist, muss jedoch nicht nur die Performance der zugrundeliegenden Datenablage stimmen. Da die Daten kaum noch aufbereitet werden, müssen die Analyse-Tools die Daten auch so nehmen, wie sie kommen. Das heißt vor allem, dass die entsprechenden Werkzeuge robust gegen vielfältige Qualitätsprobleme (zum Beispiel leere Felder, Tippfehler) innerhalb der Daten sein müssen. Auch sollten sie möglichst unempfindlich gegen zugrundeliegende statistische Verteilungen sein.