Data Management in der Praxis

11 dunkle Datenmanagement-Geheimnisse

06.07.2022
Von 
Peter Wayner schreibt unter anderem für unsere US-Schwesterpublikation InfoWorld.com und ist Autor verschiedener Bücher - unter anderem zu den Themen Open Source Software, autonomes Fahren und digitale Transaktionen.
Eine solide Data-Management-Strategie ist Pflicht, wenn Sie den Wert von Daten ausschöpfen möchten. Allerdings ist der Weg zur datengetriebenen Entscheidungsfindung mit zahlreichen Problemstellungen gepflastert.
Diesen dunklen Geheimnissen des Datenmanagements sollten Sie sich bewusst sein.
Diesen dunklen Geheimnissen des Datenmanagements sollten Sie sich bewusst sein.
Foto: Gorodenkoff - shutterstock.com

Manche nennen Daten "das neue Öl", andere bevorzugen den Begriff "neues Gold". Philosophen und Ökonomen mögen sich über die Qualität dieser Metapher streiten. Dennoch besteht kein Zweifel daran, dass es für datengetriebene Entscheidungsprozesse von wesentlicher Bedeutung ist, Daten zu organisieren und zu analysieren. Der Schlüssel hierzu liegt wiederum in einer soliden Datenmanagement-Strategie.

Dabei stoßen viele Unternehmen regelmäßig an ihre Grenzen - sei es aufgrund praktischer, philosophischer oder regulatorischer Herausforderungen. Wir haben 11 dunkle Geheimnisse des Data Management für Sie identifiziert.

1. Unstrukturiert ist schwer zu analysieren

Ein großer Teil der in den Unternehmensarchiven gespeicherten Daten ist nicht strukturiert. Nehmen wir an, Sie arbeiten in einer Bank und möchten eine KI einsetzen, um die Textnotizen der Callcenter-Mitarbeiter zu durchsuchen und Erkenntnisse zu gewinnen, die zur Verbesserung von Seviceleistungen beitragen.

Wenn diese Notizen von vielen verschiedenen Mitarbeitern gemacht wurden, hatten diese vermutlich jeweils eigene Vorstellungen davon, was sie aufschreiben sollten und zudem einen jeweils unterschiedlichen Schreibstil beziehungsweise -Skills in diesem Bereich. Ein Text an sich hat nicht viel Struktur, aber ein Stapel von Texten, der von Hunderten oder Tausenden von Mitarbeitern über Dutzende von Jahren angehäuft wurde kann das ganze Vorhaben erheblich erschweren.

2. Strukturiert ist nicht gleich strukuriert

Gute Data Scientists und Datenbankadministratoren steuern über Daten-Typ und -Struktur, die in die einzelnen Datenbankfelder eingetragen werden. Manchmal beschränken sie dabei zugunsten einer noch besseren Struktur die Werte in einem bestimmten Feld auf Ganzzahlen oder vordefinierte Auswahlmöglichkeiten.

Doch auch dann finden die Mitarbeiter, die die Datenbank befüllen, Wege, um Probleme heraufzubeschwören: Manchmal werden Felder leer gelassen, Bindestriche eingefügt oder irgendwelche Abkürzungen verwendet. Gute Entwickler können einige dieser Probleme durch Validierung auffangen und auch gute Datenwissenschaftler können solche Unwägbarkeiten verringern, indem sie die Datenbank bereinigen. Allerdings weisen selbst nahezu optimal strukturierte Datenbanken fragwürdige Einträge auf, die möglicherweise ein Einfallstor sind für Fehler in der Datenanalyse.

3. Datenschemata-Extreme

Wie sehr sich Datenteams auch bemühen, Schemabeschränkungen zu formulieren - die resultierenden Schemata zur Definition der Werte in den verschiedenen Datenfeldern sind entweder zu streng oder zu locker.

Wenn das Datenteam strenge Beschränkungen auferlegt, beschweren sich die Benutzer. Ist das Schema hingegen zu lax, können die User seltsame, fehlerhafte oder inkonsistente Werte hinzufügen. Ein solches Datenschema genau richtig abzustimmen, ist nahezu unmöglich.

4. Datengesetze sind streng

Die Datenschutzgesetze werden immer strenger. Vorschriften wie die DSGVO, HIPAA und ein Dutzend anderer können es deutlich erschweren, Daten zu sammeln. Noch gefährlicher wird es allerdings, wenn die Daten unzureichend gesichert sind und beispielsweise von kriminellen Hackern gestohlen werden.

Angesichts der drohenden Bußgelder ist es in den meisten Fällen deutlich günstiger, in Anwälte, Programmierer oder Datenwissenschaftler zu investieren. Das ist ein Grund, wieso manche Unternehmen ihre Daten entsorgen, sobald sie es können.

5. Datenbereinigung kostet

Viele Datenwissenschaftler können bestätigen, dass 90 Prozent ihrer Arbeit darin besteht, Daten zu sammeln, sie in eine konsistente Form zu bringen und anschließend eine Endlosschleife von Fehlern zu bewältigen.

"Es liegt alles in einer CSV-Datei vor und ist einsatzbereit" ist ein Satz, der schnell ausgeprochen ist. Dabei fällt leider allzu oft unter den Tisch, wie viele Falsch- oder Nichtangaben vorhanden sind. Daten für die Nutzung in einem Data-Science-Projekt zu bereinigen kann leicht zehnmal so viel Zeit beanspruchen, wie eine einfache, statistische Analyse mit R oder Python.

6. Datenpraktiken im Fokus

Endbenutzer und Konsumenten werden immer misstrauischer gegenüber den Data-Management-Praktiken von Unternehmen. Das wird durch den Einsatz von KI-Algorithmen noch verstärkt: Es herrscht bei vielen Menschen Unsicherheit darüber, was mit ihren Daten geschieht.

Diese Ängste schüren auch die Regulierungsbestrebungen und bugsieren Unternehmen und Datenwissenschaftler in die Schusslinie. Doch damit nicht genug: Skeptische Nutzer geben bei der Datenerfassung unter Umständen auch absichtlich falsche Werte an.

7. Externe Daten als Segen - oder Fluch

Es ist eine Sache, wenn ein Unternehmen die Verantwortung für die von ihm gesammelten Daten übernimmt. IT-Abteilung und Data-Science-Team haben die Kontrolle darüber. Allerdings finden immer mehr aggressiv agierende Unternehmen Wege, um ihre eigenen Informationen mit den Daten Dritter und personalisierten Informationen aus dem Internet zu integrieren.

Dabei versprechen einige Tools ganz unverblümt, Daten über jeden einzelnen Kunden einzusaugen, um personalisierte Dossiers zu jedem Kaufvorgang zu erstellen. Nicht verwunderlich, wenn Kunden in solchen Fällen in Angst und Panik verfallen.

8. Regulatoren schauen genau hin

Nur wenige Menschen wissen genau, wann eine clevere Datenanalyse eine Grenze überschreitet. Kommt es dazu, stehen die Regulierungsbehörden allerdings oft sehr schnell auf der Matte.

In einem aktuellen Beispiel untersuchten kanadische Regierungsbehörden, wie einige Doughnut-Läden ihre Kunden tracken, die auch bei der Konkurrenz einkauften: "Die Untersuchung ergab, dass der Vertrag von Tim Hortons mit einem amerikanischen Drittanbieter von Ortungsdiensten eine so vage und freizügige Formulierung enthielt, dass es dem Unternehmen erlaubt gewesen wäre, "de-identifizierte" Ortungsdaten für eigene Zwecke zu verkaufen", heißt es in der zugehörigen Pressemitteilung. Wenn es um personenbezogene Daten geht, sind die Aufsichtsbehörden besonders hellhörig.

9. Das Datenschema ist es nicht wert

In der Vorstellung Vieler kann ein genialer Algorithmus alles effizienter und rentabler machen. In einigen Fällen lässt sich das sogar realisieren - meistens ist der Preis dafür jedoch zu hoch. Immer mehr Verbraucher - und sogar Unternehmen - stellen den Wert von targetiertem Marketing zunehmend in Frage.

So kommt es beispielsweise dazu, dass Nutzer Werbung für etwas sehen, dass sie längst gekauft haben und anderen "Scharmützeln". Unternehmen müssen sich darauf einstellen, dass die Datenwissenschaft zu nicht akzeptablen Antworten führen kann.

10. In eigenem Datenermessen

Zahlen können sehr präzise sein, aber es kommt immer darauf an, wie sie interpretiert werden. Trotz Datenanalyse und "KI-Magie" muss bei den meisten Algorithmen eine Entscheidung darüber getroffen werden, ob ein bestimmter Wert über oder unter einem Schwellenwert liegt. Und diese Werte basieren oft auf reiner Willkür.

Bei aller Wissenschaft und Mathematik, die man auf Daten anwenden kann, gibt es bei vielen "datengesteuerten" Prozessen mehr Grauzonen, als man glaubt. Das kann dazu führen, dass auch Unternehmen, die massiv in Data Management investiert haben, am Ende "aus dem Bauch heraus" entscheiden.

11. Storage-Kosten explodieren

Ohne Zweifel: Die Festplatten werden immer dicker und der Preis pro Terabyte sinkt. Allerdings sammeln Entwickler Bits schneller, als die Preise fallen können. IoT-Devices laden beispielsweise ständig Daten hoch und die Nutzer erwarten, diese Informationen nutzen zu können. In der Zwischenzeit fordern Compliance-Beauftragte und Regulierungsbehörden immer mehr Daten für künftige Audits.

Es wäre eine Sache, wenn sich jemand einige der Bits tatsächlich ansehen würde, aber das ist meist schon rein zeitlich nicht realisierbar. Der Prozentsatz der Daten, auf die tatsächlich noch einmal zugegriffen wird, sinkt immer weiter ab. Der Preis, um die stets wachsenden Datenmengen zu speichern, steigt jedoch immer weiter an. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.