Wildwuchs gefährdet Geschäftserfolg

Ohne Big Data Governance droht das Chaos

18.10.2016 von Rüdiger Eberlein

In Zeiten von Big Data ist eine funktionierende Governance für erfolgreiche Projekte unerlässlich. Wer mit wem worüber reden sollte, lesen Sie hier.

Produkte sollen schnell auf den Markt kommen und der Kunde will gut verstanden sein. Dazu disruptive Umbrüche an allen Ecken. Gerade die rasanten Umwälzungen bei Geschäftsmodellen und das Aufkommen neuer Spieler im Markt haben viele Unternehmen überrascht. Die digitale Transformation läuft. Inzwischen ist klar: Gewartet wird auf niemanden, mitschwimmen ist vielmehr zur Minimalanforderung geworden.

Oft fehlt es an einer stringenten Big Data Governance.
Foto: wavebreakmedia - shutterstock.com

Viele Unternehmenslenker haben große Hoffnungen in Big Data Analytics gesetzt, um mit diesen Herausforderungen klarzukommen. Aber die Hoffnungen sind mancherorts schnell zerplatzt, Ernüchterung ist eingezogen. An der Idee lag es dabei aber nicht. Oft genug fehlt(e) es dagegen an einem passenden, zeitgemäßen Ordnungsrahmen – einer stringenten Big Data Governance, und damit an einer fundamentalen Voraussetzung für den Erfolg von Big Data Analytics, wie die Studie "The Big Data Payoff" von Informatica und Capgemini zeigt. Um zu verstehen, wie es dazu kommen konnte, lohnt sich ein kurzer Rückblick:

Herkömmliche Data Governance für die traditionelle Business Intelligence (BI) war starr angelegt. Die Verantwortlichen definierten alle Kennzahlen unternehmensweit und legten sie im Data Warehouse ab. Die Qualität der Daten wurde vor dem Laden streng geprüft, fehlerhafte Daten blieben gleich komplett außen vor. In halbjährlichen Releases setzten die Verantwortlichen punktuelle Änderungen um, die vorher und mit allen Beteiligten bis ins letzte Detail abgestimmt waren. Und die IT hatte die Hoheit über den gesamten Prozess bis hin zum fertigen Bericht.

Big Data Tools aus der Cloud

Datenanalyse als Service
Analytics Tools aus der Cloud können den Einstieg in die Datenanalyse erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Wir stellen fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können.

AWS Elastic MapReduce
Seit der Version 4.1.0 von Amazon Elastic MapReduce lassen sich Cluster im laufenden Betrieb verkleinern.

Google Cloud Platform
Mit dem Google Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten.

Microsoft Azure
Ein Hadoop-Cluster ist in HDInsight von Microsoft in zirka 10 bis 15 Minuten verfügbar.

IBM Analytics
Beim Einrichten eines Hadoop-Clusters auf IBM Bluemix hat der Anwender die Wahl zwischen drei Cluster-Größen.

SAP HANA Cloud Platform
LubeInsights verknüpft Hadoop im SAP HANA und lädt nur aktuell benötigte Daten in die In-Memory-Datenbank.

Heute bestimmen konkrete und geschäftsrelevante Anwendungsfälle das Big-Data-Analytics-Geschehen. Die Projekte werden agil und fachlich vorangetrieben. Nicht geeignet für diese agile Vorgehensweise ist der bisher gelebte Zyklus zur Entwicklung von BI-Lösungen, so die Ergebnisse der Studie "Big & Fast Data: The Rise of Insight-Driven Business" (2015) von Capgemini und EMC.

Wie die Studie „Big & Fast Data: The Rise of Insights-Driven Business” von EMC und Capgemini zeigt, dauert es bei vielen Unternehmen zu lange bis Insights wirklich zur Verfügung stehen. Die Ursache sind vor allem die zu langen Entwicklungszyklen.
Foto: Capgemini/EMC

Die agile und parallele Durchführung mehrerer analytischer Anwendungsfälle kann allerdings durchaus leicht zu Chaos führen. Dazu kommt: Die Idee des Self Service nehmen Mitarbeiter gerne auf und zwar für BI, Data Preparation und Data Science. Data Scientists können ihre Arbeit nur dann gut erledigen, wenn sie viel Flexibilität haben.

Die Manager verstehen Daten inzwischen als wertvolles Unternehmensgut und teilen sie deswegen mit den Business Analysts und Data Scientists in den Fachbereichen – und manchmal auch über die Organisationsgrenzen hinaus. Unter diesen Bedingungen funktionieren die klassischen Prinzipien der Data Governance aus der alten Business-Intelligence-Welt nicht mehr. Es braucht eine systematische Big Data Governance, die sich über das gesamte Unternehmen erstreckt und von allen Mitarbeitern verstanden und gelebt wird. Das wichtigste Argument für eine solide Big Data Governance ist der geschäftliche Nutzen. Hinzu kommen Effizienz, Vertrauen sowie der Aspekt Sicherheit und Compliance.

Die Hauptgründe für Big Data Governance im Überblick:

Geschäftsnutzen: Analysegetriebene Unternehmen wollen einen substanziellen Mehrwert aus der Analyse von Big Data ziehen und bei Markttrends mitmischen oder Umbrüche im Markt aktiv mitgestalten.
Effizienz: Die Prozesse rund um die Verarbeitung und Analyse von Big Data sollen effizient und schnell ablaufen. Auch in der agilen Welt müssen Entscheider wertvolle (Zwischen-) Ergebnisse wiederverwenden können. Dazu zählen zum Beispiel bereinigte Daten oder auch bewährte analytische Algorithmen. Auch sollen die Nutzer um die Bedeutung und Qualität der Daten wissen – Transparenz lautet hier die Devise.
Vertrauen: Der Fachbereich muss Vertrauen in die Qualität der verwendeten Daten und die korrekte Analyse haben, nutzt er doch die Ergebnisse als Grundlage für strategische und operative Entscheidungen.
Compliance und Sicherheit: Unternehmen müssen sich gegen gesetzliche und vertragliche Verstöße absichern. Auch ethische Aspekte und die öffentliche Meinung spielen für das unternehmerische Handeln eine wichtige Rolle.

Wer regiert in der Welt von Big Data Analytics?

Ist der grundsätzliche Wille, eine Big Data Governance zu etablieren, vorhanden, geht es schnell ans Eingemachte: Wer hat das Sagen? An dieser Frage scheiden sich vielerorts die Geister. Die Erfahrung zeigt, dass ein Dreigestirn die Verantwortung übernehmen und bereichsübergreifend auf die Daten schauen sollte. Zuerst einmal müssen alle Daten einen Eigentümer aus einem der Fachbereiche bekommen. Anschließend muss die Rechtsabteilung erklären, wie der Umgang mit den Daten im jeweiligen Fall auf legale Art und Weise möglich ist. Und als dritter Spieler kommt die IT mit aufs Feld: Sie hat alle Hände voll damit zu tun, die Daten bereitzustellen, so dass die Experten sie für ihre analytischen Anwendungsfälle nutzen können. Im Detail ergeben sich folgende Zuständigkeiten:

Der Fachbereich hat vor allem den geschäftlichen Nutzen der Daten im Auge. Er bestimmt den Wert von Datenquellen und beschafft zusätzliche externe Daten, die für analytische Anwendungsfälle relevant sind. Gleichzeitig achtet er darauf, dass Daten nicht mehrfach beschafft werden. Zudem vergibt der Dateneigentümer Zugriffsrechte für sie. Dies geschieht auf Anfrage der Verantwortlichen eines analytischen Anwendungsfalls, so dass sie das nötige Rüstzeug für die Entwicklung ihrer Anwendungsfälle haben. Dieser Freigabeprozess muss stark automatisiert und geregelt ablaufen und sollte sich in einem Zeitraum von Stunden bis wenigen Tagen bewegen.
Die Rechtsabteilung hat die gesetzlichen Vorgaben im Blick: Sie muss daraus entsprechende Handlungsanweisungen für die Beteiligten ableiten. Das betrifft an allererster Stelle den Umgang mit personenbezogenen Daten. Zudem klären die Juristen ab, inwieweit Daten entsprechend des jeweiligen Nutzungsvertrages verwendet werden dürfen. Sie zeigen darüber hinaus allen Beteiligten im Unternehmen auf, welche Einschränkungen sich aus der lokalen Gesetzgebung – zum Beispiel der General Data Protection Regulation (GDPR) der EU – für die physische Datenhaltung ergeben.
Die IT setzt die Vorgaben der Fachbereiche und der Rechtsabteilung letztlich um. Dabei sollte ihr Hauptaugenmerk sein, die Data-Science-Teams zu unterstützen: Sie müssen mit einer Vielfalt an Daten agiler und flexibler arbeiten können als der Wettbewerb.

Alle Absprachen und Regelungen zwischen den Vertretern von Fachbereich, Rechtsabteilung und IT drehen sich um den Umgang mit Daten. Daher lohnt sich hier noch eine genauere Analyse: Welche Daten spielen derzeit in deutschen Unternehmen eine Rolle? Wo sind die Daten zu finden? Und wozu nutzen die einzelnen Akteure diese Daten?

Die Governance erstreckt sich auf eine große Bandbreite von Daten. Ganz besonders wichtig für Unternehmen sind externe Datenanbieter, die unter anderem folgende Kategorien an Datenquellen offerieren: Soziale Medien und Foren, Clickstream eigener Webseiten, Content von Webseiten Dritter, Mobile Apps Tracking, Umfragen, Geschäftspartnerdaten, saisonale und Ereignisdaten, Wetter-, Klima- und soziodemographische Daten, Marktdaten und Open Data. In manchen Situationen arbeiten Unternehmen auch mit sogenannten Data Brokers zusammen, die interessante Daten bereits vorgefiltert und -verarbeitet anbieten.

Was passiert nun mit den Daten? Typischerweise laden die Verantwortlichen die Daten einmalig, regelmäßig oder auch kontinuierlich (Streaming). Manche Daten sind flüchtig, aber die meisten werden doch in einer Datenbasis persistent gehalten. Das gängige Datenarchitekturkonzept hierfür ist der Data Lake, häufig in Kombination mit angeschlossenen Sandboxes. Ein elementares Grundprinzip des Data Lake ist es, die Quelldaten in roher Form – also ohne Verarbeitung – zu laden und für die Data Scientists bereitzustellen. Diesen Vorgang bezeichnet man als Data Ingestion. Er steht in Abgrenzung zum klassischen Extract-Transform-Load-Prozess und bedeutet für die IT nur minimalen Aufwand. Das wirkt sich wiederum positiv auf die geforderte Agilität aus.

Die Sandboxes dienen der Entwicklung einzelner analytischer Anwendungsfälle. Data Scientists laden dafür relevante Daten in die Sandbox, also kleine Ausschnitte des Data Lake. Um die spezifischen Anforderungen ihres Anwendungsfalls bestmöglich abbilden zu können, haben sie meist die volle Kontrolle über das Toolset der Sandbox. Und genau deshalb ist eine funktionierende Governance wichtig: Erfahrungsgemäß geraten an dieser Stelle die Daten potenziell aus der Kontrolle. Daher sollten Unternehmen einen Mechanismus und Prozess implementieren, der dafür sorgt, dass die Daten in der Sandbox am Ende des Proof-of-Concept verlässlich gelöscht werden.

Datenhaltung und -verteilung sind zentrale Bausteine der Governance

Im Gegensatz zu alten Business-Intelligence-Zeiten ist die Struktur der Daten heute vielfältig. Unternehmen betrachten nicht mehr nur hochstrukturierte Daten in tabellarischer Form, sondern auch semi- und unstrukturierte Daten. Allerdings tun sich viele von ihnen noch schwer mit diesen neuen und ungewohnten Datenformen. Hinzu kommt: Gerade die unstrukturierten Daten sind im Hinblick auf eine gut funktionierende Governance eine ganz besondere Herausforderung.

Ablegen können die Datenverantwortlichen der IT die Daten in zahlreichen Datenbanken: Neben klassischen relationalen Datenbanken kommen verschiedenartige neue Datenhaltungen – sogenannte NoSQL-Datenbanken – in Frage: Dokumentbasierte Datenbanken eignen sich besonders für semistrukturierte Daten wie etwa JSON-Dateien. Mit Graph-Datenbanken lassen sich sehr gut Daten für Netzwerkanalysen bereitstellen. Das ist vor allem dann wichtig, wenn Analysen von Missbrauch, Verbrechen und Terrorismus benötigt werden oder Manager die Meinungsführer innerhalb ihres Kundennetzwerks ermitteln wollen. Dateisysteme wie zum Beispiel Hadoop eignen sich für nahezu alle Arten von Daten, insbesondere auch für unstrukturierte Daten wie Bild und Ton.

Der Data Lake ist ein logisches Konzept zur Haltung von Big Data. Physisch besteht er in der Regel nicht aus einer einzigen Datenbank, sondern aus mehreren Datenhaltungen – auch das zählt zu den Herausforderungen, denen sich Unternehmen aktuell stellen müssen. Alle hier skizzierten Fragen rund um das komplexe Thema der Datenhaltung und -verteilung sind damit ebenfalls Gegenstand der Big Data Governance.

Governance bedeutet auch, das Rad nicht jedes Mal neu zu erfinden

Um die weniger strukturierten Daten für die Analyse zu erschließen, benötigen die Data Engineers spezielle Adaptoren und Transformatoren. Computerlinguistik (Natural Language Processing) bietet beispielsweise verschiedene Funktionen zur Verarbeitung von Sprache an. Dazu gehören sowohl elementare Funktionen wie die Tokenisierung oder die semantische Analyse von Text als auch höherwertige Funktionen wie die Sentiment-Analyse. Die Rolle der Big Data Governance kommt auch hier wieder zum Tragen: Es ist Aufgabe der Governance-Hüter, diese zusätzlichen Funktionen zur Verarbeitung der Daten zu sammeln und den Data-Science-Teams bereitzustellen. Denn nicht jeder soll und muss das Rad neu erfinden.

Fazit

Vieles spricht für die Investition und Bemühungen um eine durchgängige und agile Big Data Governance. Wie Unternehmen diesen bereichsübergreifenden Ordnungsrahmen am besten aufsetzen und damit den Grundstein für eine erfolgreiche Datenstrategie legen, lesen Sie in Teil 2 dieses Artikels, der demnächst erscheint.