Analytics in der Praxis

Big Data Projekte – worauf Unternehmen achten sollten

15.01.2016 von Marco Schmid

Viele Unternehmen starten Big-Data-Projekte ohne ausreichende Vorbereitung. Lesen Sie, worauf es bei der Planung ankommt.

Beim Einführen von Big-Data-Systemen stehen Unternehmen vor zahlreichen Herausforderungen. Sie reichen von der organisatorischen Ebene über die technische Infrastruktur und Einbindung von Cloud-Providern bis hin zur Suche nach geeigneten Mitarbeitern.

Beginnen sollten Entscheider mit organisatorischen Fragestellungen. Big Data wird in der Praxis noch immer stark von der IT-Abteilung vorangetrieben. Wenn nun aber ein Hadoop-Cluster erstellt und betrieben werden soll und es dafür wenig oder gar keine Unterstützung von der Führungsebene gibt, sind Probleme programmiert.

Häufig wird Big Data als "nice to have" betrachtet und deshalb nicht mit der angemessenen strategischen Bedeutung entwickelt. Dies liegt an der fehlenden Priorisierung und Abstimmung mit anderen Abteilungen. für Für das Business besitzt Big Data dabei oft eine deutlich höhere strategische Priorität als andere eher technische Aspekte der IT. Denn Big Data ist das Werkzeug, um die gesteckten Business-Ziele einfacher zu erreichen.

Fünf Schritte zur richtigen Big-Data-Technologie

Fünf Schritte zur richtigen Big-Data-Technologie
In-Memory-Computing, Hadoop, NoSQL – am Big-Data-Markt tummeln sich zahlreiche Technologien mit unterschiedlichen Stärken und Schwächen. Der IT-Dienstleister adesso AG erläutert die wichtigsten Schritte auf dem Weg zur passenden Big-Data-Technologie.

Anwendungsfälle ermitteln
In einem ersten Schritt sollten Unternehmen aus ihrer Unternehmensstrategie, ihren Zielen und ihren Kernkompetenzen ableiten, welchen Mehrwert ihnen Big Data liefern kann, und so konkrete Nutzungsszenarien ermitteln. Unternehmen aus dem Automotive-Sektor beispielsweise könnten basierend auf Informationen aus den Daten der Steuerungssysteme von Fahrzeugen neue Services ableiten – etwa Ferndiagnosen oder Wartungs- und Verschleißhinweise. Die Definition der tatsächlichen Anwendungsfälle sollte allerdings mit viel Bedacht durchgeführt werden, um Fehlinvestitionen zu vermeiden.

Reifegrade überprüfen
Einige Anwendungsfälle können zwar sehr interessant und vielversprechend sein, die benötigten Daten aber noch nicht die erforderliche Reife aufweisen – beispielsweise, wenn Systeme, die Daten liefern, erst neu integriert oder vorhandene Daten bisher nur angesammelt und noch nicht klassifiziert wurden. Auch Aspekte jenseits von Technologien und Daten spielen meist eine entscheidende Rolle für die Bewertung eines Anwendungsfalls: Zum Beispiel, wie viele Organisationseinheiten sind beteiligt, wie stark sind Datenschutzfragestellungen betroffen, wie sehr spielen Compliance-Anforderungen eine Rolle? Durch derartige Hürden könnte ein Big-Data-Vorhaben trotz großem Nutzenpotenzial scheitern. Deshalb ist es sinnvoll, zunächst Projekte anzugehen, die eine kurz- oder mittelfristige Umsetzung ermöglichen. Beispielsweise solche, für die einerseits eine sicher verwertbare Datenbasis vorliegt, auf die sich einfach zugreifen lässt, und mit denen andererseits alle beteiligten Organisationseinheiten gut zusammenarbeiten können.

Konsens herstellen
Die Entscheidung, welche Anwendungsfälle ein Unternehmen umsetzt, sollte unbedingt im Konsens zwischen Fachbereichen und IT-Abteilung getroffen werden. Geschieht dies nicht, ist das Risiko sehr hoch, dass die Fachbereiche andere Vorstellungen und Ziele haben, als die IT dann umsetzt. Gegenseitiges Verständnis und eine enge Zusammenarbeit sind bei Big-Data-Projekten besonders wichtig, vor allem dort, wo die Resultate komplexer maschineller Lernverfahren interpretiert werden müssen. Üblicherweise können nur die Experten aus den Fachabteilungen verstehen und erklären, welche Ergebnisse einer Datenanalyse interessant und relevant sind. Dieser fachliche Input ist höchst relevant für das "Tuning", also die Einstellung später eingesetzter Datenanalyseverfahren.

Kriterien ableiten
Stehen die Anwendungsfälle fest, lässt sich daraus ableiten, welche Eigenschaften die eingesetzte Technologie mitbringen muss. So benötigen manche Szenarien eher die Ad-hoc-Abfrage von Daten, andere dagegen bestimmte Aggregationen, erkundende Verfahren oder Verfahren für Vorhersagen oder Empfehlungen. Weitere wichtige Kriterien, die sich aus den Nutzungsszenarien ergeben, sind unter anderem die erforderliche Integrierbarkeit mit existierenden Anwendungen im Unternehmen, die Geschwindigkeit und der Umfang des Datenflusses, die erforderliche Bearbeitungsgeschwindigkeit der Daten oder der richtige Umgang mit den vorhandenen Datenstrukturen.

Technologie auswählen
Anhand der so ermittelten Kriterien lässt sich dann gezielt die passende Technologie auswählen. Die heute verfügbaren Datenverarbeitungsplattformen von Hadoop über NoSQL bis hin zu relationalen Datenbanken unterstützen nicht nur unterschiedliche Skalierungsmechanismen, sie unterstützen auch unterschiedliche Vorgehensweisen. Ist mit häufiger Veränderung zu rechnen beziehungsweise ist die Aufrechterhaltung von Diensten auch bei Veränderung besonders wichtig, dann muss die Datenverarbeitung die benötigte Flexibilität mitbringen. Verlangt ein Anwendungsfall besonders hohe Verarbeitungsgeschwindigkeiten, empfiehlt sich In-Memory-Computing. Stehen hohe Skalierbarkeit sowie eine schnelle Speicherung und eine einfache Abfrage riesiger Datenmengen im Vordergrund, spricht das für Key-Value-Datenbanken. Traditionelle relationale Datenbanken sind in diesem Fall dagegen eher nicht geeignet, da sie komplexere Skalierungsmodelle unterstützen und einen hohen Aufwand für den Umgang mit heterogenen oder sich häufig ändernden Daten erfordern. Eine allgemeingültige Regel gibt es allerdings nicht. Die vorhergehende Auseinandersetzung mit den Anwendungsfällen ist deshalb entscheidend.

Data Gravity: Daten am Ort ihrer Entstehung auswerten

In Bezug auf die technische Infrastruktur ist eine Frage nicht zu vernachlässigen: Wo werden die Daten erzeugt, die auszuwerten sind? Denn je mehr Informationen gesammelt werden und je wichtiger das Big-Data-Projekt für die Geschäftsentwicklung ist, deso wichtiger ist die sogenannte "Data Gravity". Dieser Begriff steht für folgenden Zusammenhang: Da ein kontinuierlicher Datentransfer langwierig und kostenintensiv ist, sollte die Datenauswertung möglichst am Ort der Systeme stattfinden, welche die Informationen erzeugen - oder zumindest in deren direkter Nähe.

Wenn zum Beispiel ein Gerät oder eine Maschine Sensordaten über das Internet sendet, kann Big Data in der Cloud eine elegante Lösung sein. Falls die Daten intern erzeugt werden, eignet sich vielleicht eine hybride Lösung besser. Alternativ kann ein Unternehmen den Server, der die Daten generiert, in einer Managed-Hosting-Umgebung betreiben und ihn so enger zum Big Data Service bringen.

Big Data: Technisch gibt es keine Einschränkungen

In der Theorie gibt es keine technischen Einschränkungen. Die ideale Lösung hängt eher davon ab, was das Unternehmen genau möchte. Bei der Speicherung von Daten gibt es natürlich sehr verschiedenartige Anforderungen, die analysiert werden müssen. Typischerweise wächst die Datenmenge kontinuierlich. Doch auch eine schnelle Skalierung kann benötigt werden, vor allem beim Aufbau von Kapazitäten.

Dies gilt möglicherweise auch für die Analyse. Angenommen, das Unternehmen führt eine tägliche oder stündliche Analyse einer bestimmten Daten-Teilmenge aus und analysiert einmal im Monat zudem den gesamten Datenbestand. Dann empfiehlt es sich eventuell, einen Server-Cluster für diese monatliche Analyse einzuschalten und nach Abschluss der Auswertung wieder abzuschalten.

Analytics in der Cloud bringt Vorteile

Ein Cluster, der von einem Provider gehostet wird, bringt mehrere Vorteile. Diese resultieren weitgehend aus dem "typischen" Nutzen der Cloud, wo es etwa um Skalierung oder das Vermeidung von Investitionsrisiken und Kapitaleinsatz geht. Zu Beginn eines neuen Projekts mag dies nützlich sein, aber es hilft nicht bei den gerade beschriebenen Problemen.

Etwas anders sieht es aus, wenn eine Managed Cloud zum Einsatz kommt, da sie alle verfügbaren Services enthält. In diesem Fall profitiert der Kunde nicht nur von den bereitgestellten Kapazitäten, sondern erhält auch Unterstützung bei Aufbau und Betrieb des Systems zur Big-Data-Analyse. Damit sinken die Einstiegshürden für Big-Data-Projekte erheblich.

Dringend gesucht: Big Data-Experten

Das Nutzen einer Managed Cloud verringert zudem eines der größten Probleme für Unternehmen mit Analytics-Ambitionen: die Suche nach qualifizierten Mitarbeitern. Dies beginnt bei Experten für die Infrastruktur und reicht bis zu Spezialisten für die zahlreichen Analytics-Optionen. Erfahrene Big-Data-Fachkräfte wie etwa Data Scientists sind nicht nur schwer zu finden, sondern lassen sich auch entsprechend gut bezahlen. Zudem kann es schwierig sein, solche Mitarbeiter zu halten, wenn es auf Dauer zu wenig interessante Projekte gibt.

Fazit

Big-Data-Analysen lassen sich nicht mit der heißen Nadel stricken. Bevor Unternehmen damit beginnen, sollten sie ihre Ziele definieren und Spezialisten für die Auswertung der rasant wachsenden Datenmengen an Bord nehmen. Zudem ist es unabdingbar, dass die Geschäftsführung ein solches Projekt unterstützt, denn nur dann kommt Big Data die notwendige strategische Bedeutung zu. (wh)