Big Data Analytics

Wie Ihr Data Lake sauber bleibt

13.07.2017 von Thor Olavsrud und Florian Maier
Ein Data Lake beherbergt all Ihre Unternehmensdaten mit Leichtigkeit. Aber Vorsicht: So ein XXL-Datendepot kann sich allzu leicht in einen Sumpf verwandeln und Ihre User verschrecken. Lesen Sie, wie Sie das verhindern.

Schon seit einigen Jahren setzen Unternehmen auf der ganzen Welt - getrieben durch Technologien wie Apache Hadoop - auf Data Lakes. Dabei handelt es sich um unternehmenseigene Data-Management-Plattformen, die die Speicherung sämtlicher Daten in ihrem natürlichen Format ermöglichen. Das Versprechen: Informationssilos werden eingerissen und allen Unternehmensbereichen steht ein großes Datendepot zur Verfügung, mit dem von Business Analytics bis Data Mining alle anfallenden Aufgaben erledigt werden sollen. Entsprechend wird der Data Lake als eierlegende Big-Data-Wollmilchsau angepriesen.

Ergreifen Sie die richtigen Maßnahmen, damit Ihr Data Lake nicht zur Datendeponie wird.
Foto: Stephane Bidouze - shutterstock.com

Vom Data Lake zum Datensumpf

Die Erfahrungen von Avi Perez, CTO beim Business-Intelligence-Spezialisten Pyramid Analytics, sprechen da eine andere Sprache: "Ich sehe regelmäßig Kunden, deren Data Lakes sich in Sümpfe verwandelt haben - massive Datendeponien, die für die Endbenutzer völlig unzugänglich geworden sind."

Datenbanken, so Perez weiter, seien teuer und der Data Lake die Antwort auf dieses Problem: "Data Lakes - und generell alle Big-Data-Initiativen - kommen aus zwei Gründen zustande: Erstens wegen des Wettbewerbsdrucks und zweitens wegen der Datengeneratoren in der ‚echten‘ Welt, die ständig neue Datenpakete produzieren und neuen Speicherbedarf verursachen."

Das Problem dabei ist nur: Während einige Konzerne - Google ist das Paradebeispiel - neue Geschäftsmodelle rund um ihre Data Lakes aufgebaut haben, sammeln viele andere einfach nur Daten - ohne klares Ziel oder einen Plan, wie man daraus Mehrwert schaffen kann.

3 Wege zum Data-Lake-Konzept

Das soll nicht heißen, dass ein Data Lake per se eine schlechte Idee wäre. Avi Perez ist sogar überzeugt davon, dass irgendwann jedes Unternehmen einen solchen braucht. Doch einen Data Lake zu schaffen, der den Endbenutzern echten Nutzen, beziehungsweise Mehrwert bringt, erfordert eine strategische Vorgehensweise. Wir schlagen Ihnen drei Strategien vor, um nicht im eigenen Data Lake zu ertrinken:

1. Sammeln Sie weniger Daten

Laut Perez begehen viele Unternehmen den Fehler, zu viele Daten zu sammeln - einfach, weil sie es können. Der Experte führt das Smartphone als Beispiel an: "Am Ende hat man Millionen von Fotos auf dem Telefon, von denen 99 Prozent Datenmüll sind, den man sofort löschen könnte. Das Fotografieren ist dank des Smartphones so einfach geworden, dass es nahezu umsonst ist. Wahrscheinlich erwischen auch Sie sich öfter bei Gedankengängen wie ‚demnächst räume ich auf‘ - dazu kommt es natürlich nie. Stattdessen sammelt man enorme Mengen von Informationen und Daten - hat aber keinerlei effektive Möglichkeit, diese zu strukturieren."

Genau dasselbe Problem sucht auch die Data Lakes dieser Welt heim, wie Perez erklärt: "Die Speicherung von Daten in Hadoop ist fast schon günstig genug, um als kostenlos durchzugehen. Aber die schiere Masse von Daten, die über die Zeit akkumuliert wird, macht es schwierig bis unmöglich, diejenigen Datensätze zu identifizieren, die Sie mit wertvollen Insights ausstatten."

LAB Barometer 2016 "Big Data & Co - Fluch der Segen für die Berater"
Big Data und Berater
Die Studie „Big Data und Co – Fluch oder Segen für die Berater?“ basiert auf Angaben von rund 270 Consultants aus Management- und IT-Beratungen. Durchgeführt hat sie LAB Executive Search.
Demonstrativer Optimismus
Mehr als neun von zehn Befragten erklären, Big Data als Chance zu sehen.
Risiken für Consultants
Ein Blick auf die Risiken zeigt aber, dass Consultants durchaus Befürchtungen hegen. So sehen sie sich durch schnelle automatisierte Datenanalysen unter Zeitdruck oder glauben, Data-Analytics-Software mache Berater teilweise überflüssig.
Rolle des Beraters
Einer der Befragten sprach gegenüber LAB davon, Top-Manager in den Unternehmen würden immer entscheidungsunfähiger. Rund sieben von zehn Befragten sehen sich denn auch zunehmend in der Rolle eines Coach gefragt.
Marcel Ramin Derakhchan
Marcel Ramin Derakhchan von LAB Executive Search kommentiert: „Neben Methodenwissen und C-Level-Tauglichkeit ist ausgeprägtes Branchen-Know-how sowie ein hohes Maß an emotionaler Intelligenz notwendig.“

Um dieses Problem zu umgehen, rät der Experte, den Datenhahn zuzudrehen: "Nur weil es günstig ist, die Daten zu sammeln, muss es nicht günstig sein, die Daten zu nutzen. Das könnte sogar ganz schön teuer werden. Sammeln Sie also nicht überall und zu jeder Zeit Daten. Fokussieren Sie sich auf die Daten, von denen Sie bereits wissen, wie Sie sie nutzen wollen."

2. Erarbeiten Sie eine Machine-Learning-Strategie

Wenn Sie sich auf ein oder mehrere Data Sets fokussiert haben, sollten Sie auf Automatisierung setzen, um Mehrwert aus den Daten zu generieren. "Künstliche Intelligenz, Machine Learning, Deep Learning - welches Buzzword Sie auch verwenden, es ist die magische Lösung, die Ihnen den Weg durch die Daten ebnet. Ich behaupte, das ist der einfachste Weg um Mehrwert aus Ihrem 5-Petabyte-Data-Lake zu schöpfen", so Perez.

Zum Start empfiehlt der CTO ein Datenpaket und eine Machine-Learning-Technik auszuwählen, um dieses zu bearbeiten. Um effektive Methoden zu entwickeln, sollten Sie vor Investitionen - entweder für Weiterbildung oder für neues Fachpersonal - nicht zurückschrecken, empfiehlt Perez: "Machine Learning ist schwarze Kunst - man braucht dafür sehr spezifische Skills."

Machine Learning - Technologien und Status quo
Bilderkennung ist wichtigstes Anwendungsgebiet für Machine Learning
Heute kommen Machine-Learning-Algorithmen vor allem im Bereich der Bildanalyse und -erkennung zum Einsatz. In Zukunft werden Spracherkennung und -verarbeitung wichtiger.
Machine Learning im Anwendungsbereich Customer Experience
Heute spielt Machine Learning im Bereich Customer Experience vor allem im Bereich der Kundensegmentierung eine Rolle (hellblau). In Zukunft wird die Spracherkennung wichtiger (dunkelblau).
Machine Learning in den Bereichen Produktion und Prozesse
Unternehmen erhoffen sich im Bereich Produktion/Prozesse heute und in Zukunft (hell-/dunkelblau) vor allem im Bereich Prozessoptimierung positive Effekte durch Machine Learning.
ML im Bereich Kundendienst und Support
Sentiment-Analysen werden eine Kerndisziplin für Machine Learning im Bereich Kundendienst und Support
Auch IT-Abteilungen profitieren
Schon heute wird Machine Learning für die E-Mail-Klassifizierung und Spam-Erkennung genutzt. In Zukunft (dunkelblau) werden Diagnosesysteme wichtiger.
Was Management, Finance und HR von Machine Learning erwarten
Heute und in Zukunft ist in diesem Bereich das Risikomanagement eine vorrangige ML-Disziplin. In Zukunft soll auch das Talent-Management beflügelt werden.
Massive Effekte für Einkauf und Supply Chain Management
Machine Learning wird sich auf verschiedenste Bereiche des Procurements und des Supply Managements auswirken (hellblau = heute; dunkelblau= in Zukunft)
Diese Lernstile sind bekannt
Beim bekanntesten Lernstil, dem Überwachten Lernen (Supervised Learning), werden Bildern oder Dokumenten von Hand eine gewisse Menge an Tags oder Labeln zugewiesen. So werden die ML-Algorithmen trainiert.
Diese Lernstile verwenden Branchen
Während Autobauer eher auf "Semi-supervised Learning" setzen, sammeln andere Branchen mit Supervised Learning Erfahrung.
Machine-Learning-Algorithmen
Die meisten Unternehmen setzen auf einen Mix von Verfahren, um ihre vielfältigen Aufgaben zu lösen.
Einsatz von Machine-Learning-Algorithmen nach Branchen
Neuronale-Netzwerk-Algorithmen finden vor allem im Automotive-Sektor Verwendung - und natürlich in der ITK-Branche selbst.
Diese Programmiersprachen und Frameworks kommen im ML-Umfeld zum Einsatz
Mit knapp 70 Prozent Einsatzgrad ist Java die führende Programmiersprache im Bereich ML. Allerdings holen speziellere Sprachen und Frameworks auf.
Deep-Learning- und Machine-Learning-Packages
DeepLearn Toolbox, Deeplearning4j, das Computational Network Toolkit und Gensim werden auf Dauer die führenden Pakete sein.
Zielinfrastruktur für ML-Workloads
Die Deployments von Machine Learning gehen zunehmend in die Breite und erreichen auch die Cloud und das Internet der Dinge. Auf die Unternehmen kommt mehr Komplexität zu.
Bedenken und Herausforderungen
Datenschutz und Compliance-Themen machen Anwender am meisten zu schaffen, geht es um den Einsatz von Machine Learning. Außerdem vermissen viele einen besseren Überblick über das Marktangebot.
Machine Learning ist Sache der BI- und Analytics-Spezialisten
Die organisatorische Einführung von ML obliegt meistens den BI- und IT-Profis. Viele Anwender holen sich aber auch externe Hilfe.
Wo Externe helfen
Datenexploration, Skill-Aufbau und Implementierung sind die Bereiche, in denen Machine-Learning-Anfänger am häufigsten externe Hilfe suchen.

3. Identifizieren Sie den Geschäftszweck

An diesem Punkt laufen die Enden zusammen: Sie brauchen eine klare Vision von dem Geschäftsproblem, dass Sie lösen wollen. Mit diesem Ziel vor Augen sollte es nicht besonders schwer sein, die Daten einzugrenzen, die Sie für Ihr Vorhaben brauchen. Auch die richtige Machine-Learning-Technik ergibt sich in der Regel aus dem verfolgten Zweck.

Perez erklärt das Vorgehen am fiktiven Beispiel eines großen Retail-Unternehmens: "Sie wollen mehr darüber erfahren, welche Kunden Ihre Läden frequentieren. Dazu könnten Sie Ihre Kunden fotografieren und die Daten anschließend mit Hilfe eines künstlichen neuronalen Netzes (KNN) auswerten. Das KNN kann Ihnen dabei helfen zu bestimmen, ob es sich bei den Personen auf den Fotos beispielsweise um Kinder oder Erwachsene handelt. Wenn Sie damit fertig sind, verknüpfen Sie die Daten mit dem entsprechenden Geschäftsziel. So können Sie beispielsweise herausfinden, welche Zielgruppen sie eventuell verfehlen. Wichtig ist dabei, dass Sie von Anfang an eine klare Strategie besitzen."

Oft lassen sich aus solchen Erkenntnissen auch neue, ergänzende Möglichkeiten ableiten, um das Business mit weiteren maßgeschneiderten Lösungen zu versorgen. Wenn Sie beispielsweise wissen, wer sich in Ihren Läden aufhält, können Sie auch herausfinden, welche Kunden am häufigsten an der Kosmetikabteilung vorbeilaufen.

Dieser Artikel basiert auf einem Beitrag unserer US-Schwesterpublikation cio.com.