Qualität vor Quantität

Der negative Wert von Daten

17.01.2018 von Marc Wilczek
Trotz steigender Ausgaben für Big-Data-Technologie tun sich viele Unternehmen immer noch schwer, aus den massiv wachsenden Datensilos Kapital zu schlagen. Und nicht alle Daten im digitalen Universum sind gewinnbringend.

Mit der Ausweitung des digitalen Goldrausches rücken Rohdaten in den Fokus. Sie werden regelrecht zum Heilsbringer stilisiert und häufig in einem Atemzug mit Produktionsfaktoren genannt wie Boden, Kapital und Arbeit. Tatsächlich ist es so, dass Daten eine fundamentale Rolle spielen digitale Geschäftsmodelle mit Substanz zu unterfüttern und die Nachahmbarkeit zu verhindern. Ob Alphabet, Amazon oder Facebook - Daten sind das Motorenöl, das digitale Plattformen zum Laufen bringt.

Nicht alle Daten sind gewinnbringend. Wir sagen Ihnen, was Sie wissen müssen.
Foto: Yulia Grigoryeva - shutterstock.com

Laut einer Untersuchung des Marktforschers IDC, wird sich das digitale Universum mindestens alle zwei Jahre verdoppeln und bis zum Jahr 2025 ein Volumen von 163 Zettabytes erreichen (ein Zettabyte entspricht einer Billionen Terabyte). Im Vergleich zur weltweit vorhandenen Datenmenge im Jahr 2016 käme das einer Verzehnfachung gleich. Die schiere Größe des Daten-Tsunami ist atemberaubend, aber die Gretchenfrage bleibt am Ende: Wie können Unternehmen daraus Kapital schlagen, beziehunsgweise Nutzen stiften?

Die Stückkosten der Datenhaltung sinken rapide weiter

Das als Moore'sche Gesetz bezeichnete Phänomen wird seit Jahrzehnten beobachtet, und mittels neuer Technologien (SSD, SW-definierter Speicher, Objektspeicher usw.) sowie der Konsolidierung innerhalb der Speicherindustrie dreht sich die Preisspiralen weiter konstant in Richtung Süden, mit zweistelligen, relativen Kostenreduktionen gegenüber dem jeweiligen Vorjahr.

Im digitalen Zeitalter liegen die wahren Kosten für die Datenspeicherung längst nicht mehr im Kauf von Hardware, sondern im Aufwand der betrieben werden muss, um die digitalen Assets sorgfältig zu verwalten. In vielen Branchen und Regionen wird dies durch immer restriktivere Anforderungen an das Daten-Lifecycle-Management, länderspezifische Datenschutzgesetze, Anforderungen an zwingend lokale Datenhaltung sowie strengere Compliance-Vorschriften für Datenspeicherungszeiträume und eine stärkere Nutzung von Verschlüsselungstechnologie immer weiter erschwert.

Trotz steigender Ausgaben für Big Data tappen Unternehmen im Dunkeln

Laut Prognosen von IDC wird der Markt für Big Data Analytics von 130 Milliarden US-Dollar im Jahr 2016 auf mehr als 203 Milliarden US-Dollar im Jahr 2020 wachsen, was einer jährlichen durchschnittlichen CAGR von 11,7 Prozent entspricht.

Obwohl Unternehmen ein Vermögen für das Sammeln, Speichern und Verwalten von Daten ausgeben, ist nur eine Minderheit im Stande, all die Rohdaten in wertvolle Informationen zu konvertieren: Eine Studie von Veritas kommt zu dem Ergebnis, dass 52 Prozent aller Daten, die derzeit von Unternehmen auf der ganzen Welt gespeichert und verarbeitet werden, im Dunkeln schlummern und von unbekanntem Wert sind. Ganze 33 Prozent der Daten gelten als redundant, obsolet oder trivial - sind also nutzlos. Lediglich 15 Prozent aller gespeicherten Daten werden als wirklich geschäftskritisch angesehen. Wenn Daten ohne Differenzierung, sozusagen hamsterartig per Autopilot gehortet und prophylaktisch abgespeichert werden, führt das nach Meinung von Experten bis zum Jahr 2020 zu vermeidbaren Kosten in Höhe von bis zu 3,3 Billionen Dollar. Für die Verwaltung eines digitalen Friedhofs.

Cloudifizierung: Freund oder Feind?

Angesichts der heftigen Preiskämpfe (insbesondere in der Public-Cloud-Domäne) und der Fähigkeit von Unternehmen, ganze Schiffsladungen von Daten zu niedrigen Stückkosten zu speichern, erscheint es verführerisch, Unternehmensdaten im Handumdrehen in die Cloud zu migrieren. Zwar gibt es viele legitime Gründe dafür und Anwendungsbeispiele in Hülle und Fülle, doch die Entscheidung größere Datenmengen zu bewegen sollte gründlich abgewogen werden.

Zuallererst müssen Unternehmen die Komposition ihrer Daten in Bezug auf Inhaltstyp, Alter, Relevanz, etc. richtig verstehen und diese entsprechend klassifizieren. Die Auslagerung "dunkler" Daten in die Cloud ist beispielsweise reine Verschwendung von Zeit und Geld. Hinzu kommt, dass durch die Migration entsprechende Aufwände entstehen und Daten regelrechte Gravitationskraft entwickeln: Sie wachsen exponentiell und den Bestand später gegebenenfalls zurückfahren zu wollen, ist alles andere als ein Kinderspiel. Daher ist es unabdingbar, die Daten vor Antritt einer Cloud-Reise sorgfältig zu prüfen, zu visualisieren und zu klassifizieren.

Data Governance: Alles andere als ein notwendiges Übel

Während der Umgang mit strukturierten Daten auf den ersten Blick leicht erscheinen mag, ist die Verwaltung unstrukturierter Daten ein wahrer Kraftakt. Diese stehen Schätzungen zu Folge für rund 80 bis 90 Prozent aller Unternehmensdaten. Die Bewertung der Inhalte hinsichtlich Relevanz und Nutzen, sowie die Identifizierung duplikativer, vertraulicher und sensibler Informationen sind jedoch Schlüsselkomponenten bei der Implementierung datenzentrierter Geschäftsmodelle. Unabhängig davon, ob die Verantwortung dem Chief Information Officer (CIO) oder einem eigens implementierten Chief Data Officer (CDO) obliegt, ist die Schaffung und Anwendung eines Data-Governance-Frameworks unerlässlich.

Dieses bildet die Grundlage für alle Anwendungsszenarien und erfasst typischerweise wie Daten klassifiziert, aggregiert, verfeinert, analysiert, verwaltet, monetisiert, aufbewahrt und gelöscht werden. Dabei finden Compliance-Regularien und sonstige Anforderungen entsprechende Berücksichtigung. Zudem sind Unternehmen, die eigene proprietäre Algorithmen entwickelt haben um die Werthaltigkeit von Daten abzuleiten, gut beraten, Patente in Erwägung zu ziehen, um die Rechte an ihrem geistigen Eigentum zu schützen.

NTT Data über "Big Data Governance - eine Reifegrad-Analyse in Deutschland"
Big Data Governance
NTT untersucht in der Studie "Big Data Governance - eine Reifegrad-Analyse in Deutschland" Big Data-Projekte aus 37 Unternehmen. Es geht dabei um so unterschiedliche Branchen wie Automobil, IT und Banken.
Erreichen der Ziele
Geld spielt eine Rolle: Unternehmen, die mindestens 20 Prozent ihres IT Budgets für Big Data aufwenden, sind erfolgreicher in der Umsetzung von Big Data Projekten.
Technik am wichtigsten
Es hängt an der Technik: die technische Expertise halten die Unternehmen für den wichtigsten Erfolgsfaktor bei Big Data-Projekten.
Risiko Datenschutz
Datenschutz und Compliance gelten als größte Risiken bei der Anwendung von Big Data.
Erfolgsfaktor Integration
Je besser Big Data in die Informationsarchitektur integriert ist, umso höher die Chance, alle Ziele zu erreichen.
Aufgaben von Big Data Governance
Die Befragten erwarten von Big Data Governance vor allem die Bereitstellung von organisatorischen Strukturen, Richtlinien, Prozessen und Standards.

Fazit: Klasse statt Masse

Trotz steigender Ausgaben muss noch viel Vorarbeit geleistet werden. Unternehmen sollten vermeiden, in eine opportunistische Datenhortungs-Falle zu tappen. Zudem gilt es, sich die Existenz eines "Wendepunkts" bewusst zu machen, ab dem die Schaffung noch größerer Datensilos nicht unbedingt zu einem größeren wirtschaftlichen Erfolg führt - insbesondere wenn man berücksichtigt, wie viele der Daten am Ende im Dunkeln schlummern oder veraltet und wertlos sind. Tatsächlich können Daten einen negativen Wert aufweisen und am Ende vor allem eines ganz gewiss mit sich bringen: Kosten.

Mehr als die Quantität zählt die Datenqualität: Der Erfolg eines Big-Data-Analytics-Projekts steht und fällt mit der Qualität der verwendeten Daten. Dies hat in hohem Maße mit einem gut implementierten Governance-Modell zu tun, das "gute Daten" von "großen Daten" unterscheidet. Die Nutzung der Cloud kann wirtschaftlich sinnvoll sein und umfangreiche Anwendungsszenarien ermöglichen, erfordert aber eine solide Planung, um nicht auf dem Holzweg zu landen.

Während es mitunter fälschlicherweise als Akt der Bürokratie abgetan wird, ist die Einführung eines soliden Data-Governance-Modells weit mehr als nur ein lästiges Übel. Denn dieses ist engmaschig mit dem Erfolg der datenzentrischen Unternehmung korreliert und folgt zwei Grundprinzipien, die im Finanzergebnis ihre Wirkung zeigen. Nämlich strategische Einblicke gewinnen, um neues Umsatzwachstum zu generieren und unnötige Kosten für die Verwaltung nutzloser Datensilos eliminieren. (fm)

10 Dinge, die Sie über Big Data wissen sollten
Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.
Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann.
Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben.
Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung.
Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB.
Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph.
Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.
Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern.
Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop.
Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.