Data Debt

6 Mittel gegen Datenschulden

03.11.2023 von Isaac Sacolick

Data Debt kann ähnlich vernichtend wirken wie Technical Debt. Das hilft dagegen.

(Daten-)Schulden sind per se nichts Schlechtes - wenn sie auch abgebaut werden.
Foto: eamesBot - shutterstock.com

Um technische Schulden zu vermeiden, setzen Devops-Teams auf Infrastructure as Code, automatisieren Deployments mit CI/CD und etablieren Continuous-Testing-Strategien. Aus gutem Grund: Technical Debt kann agile Entwicklungsteams lähmen. "In kleinen Dosen können technische Schulden nützlich sein", gibt jedoch Marko Anastasov, Mitbegründer von Semaphore CI/CD, zu bedenken und erklärt: "Das eröffnet die Chance, dringende Dinge im Blick zu behalten."

Data-Engineering-Teams, die Data Ops und Data Governance optimieren wollen, sollten technische Schulden in ihrem Code und ihren Automatisierungen abbauen, Datenwissenschaftler ihre Machine-Learning-Modelle und anderen Analysecode entsprechend evaluieren.

Technical Debt auf Codeebene zu reduzieren, reicht für Data- und Analytics-Teams allerdings nicht aus. Sie müssen sich auch mit Data Debt (Datenschulden) befassen, indem sie:

Datenduplikate reduzieren,
die Datenqualität verbessern,
Dark-Data-Quellen identifizieren,
Stammdaten zentralisieren, und
Data-Security-Probleme beheben.

Ähnlich wie technische Schulden sind auch Datenschulden leichter zu erkennen, wenn sie erst einmal entstanden sind. Dann sind die verantwortlichen Teams gefragt, Probleme zu lösen, bevor Verbesserungen an der Daten-Pipeline hinzugefügt oder neue Analytics-Funktionen entwickelt werden. Best Practices zu implementieren, um neue Datenschulden zu minimieren, ist dabei ein diffiziles Unterfangen - vor allem, wenn die Teams nicht sämtliche künftigen Analytics-, Dashboarding- und Machine-Learning-Use-Cases vorhersehen können.

Die folgenden sechs Handlunsgempfehlungen unterstützen Datenteams dabei, Data-Debt-Risiken zu vermeiden, respektive zu mindern.

1. Governance in Analytics integrieren

Devops-Teams sind sich bewusst, dass es deutlich schwieriger ist, sich um Codequalität, Defekte und Sicherheitsprobleme zu kümmern, wenn der Code erst einmal geschrieben ist. Deswegen streben sie nach einem "Shift Left", wenn es um Security- und Qualitätssicherungs-Praktiken geht. Ganz ähnlich sollten Dataops-Engineers und Datenwissenschaftler bei Data-Governance-Praktiken vorgehen - und diese zum Einsatz bringen, während sie Daten-Pipelines, Analytics- und Machine-Learning-Modelle bauen oder warten.

"Datenkataloge, Data-Lineage-Tools und Metadaten-Managementsysteme können Unternehmen dabei unterstützen, Datenquellen und -modelle zu managen und zu tracken. Das kann das Risiko von Data Debt reduzieren", meint Joseph Rutakangwa, Mitbegründer und CEO des Analytics-Dienstleisters Rwazi. Er ergänzt: "Tools für die Datenqualität - etwa Data-Profiling- oder Data-Cleansing-Tools - können dazu beirtragen, Probleme in diesem Bereich zu erkennen und zu verhindern, dass qualitativ schlechte Daten einfließen. Auch das trägt dazu bei, Datenschulden zu vermeiden."

Auch Michael Drogalis, Principal Technologist bei Confluent, erachtet den Einsatz von Technologien als hilfreich - ohne Best Practices gehe es aber nicht. Er empfiehlt: "Wählen Sie Ihre Access Patterns mit Bedacht, halten Sie die Governance aufrecht, setzen Sie auf Versionierung und unterscheiden Sie Source-of-Truth-Daten von Derived Data."

2. Governance-Verantwortlichkeiten schaffen

Agile Datenteams mit Data-Governance-Technologien und Best Practices auszustatten, ist ein guter Start. Allerdings sollten die Teammitglieder sich ihrer spezifischen Rolle und Verantwortlichkeiten in Bezug auf Technologie und Data Debt bewusst sein, um einen Prozess der kontinuierlichen Verbesserung anzustoßen.

CEO Rutakangwa empfiehlt an dieser Stelle, Data-Stewardship-Rollen einzuführen: "Das hilft dabei, Datenmodelle zu pflegen, sicherzustellen, dass die Daten korrekt sind, und Probleme anzugehen, um Datenschulden zu minimieren."

Sasha Grujicic, President beim Analytics-Spezialisten NowVertical, zeigt auf, was Unternehmen zu erwarten haben, die die richtige Data-Governance-Struktur identifizieren und skizzieren, indem sie eine Top-Down-Strategie anwenden und ein skalierbares System aufbauen, das aktuelle und zukünftige Eingaben unterstützt: "In den meisten Fällen wird dies das Data-Debt-Risiko reduzieren, die Kosten senken, die Produktivität steigern und eine Grundlage für Wachstum in den kommenden Jahren schaffen."

3. Trust-Metriken festlegen

Datenteams, die Datenschulden abbauen wollen, sollten in erster Linie darauf abzielen, das Vertrauen (Trust) der Mitarbeiter in die Daten zu verbessern. Geht es um Entscheidungen, sollte man der Genauigkeit und Zuverlässigkeit vertrauen können.

"Um den Level of Trust in Ihre Daten zu bestimmen können Sie Cataloging-Tools zu Rate ziehen und sich ansehen, wie viele Datenexplorationen und Production Reports auf spezifischen Daten beruhen", empfiehlt Michel Tricot, Mitbegründer und CEO des auf Datenintegration spezialisierten Unternehmens Airbyte.

Ein höherer Nutzungsgrad kann ein Anzeichen für Trust sein - ist aber nicht der einzige Faktor, der hier mit hereinspielt. Dataops und Governance-Teams sollten die Datenqualität anhand folgender Metriken erfassen:

Genauigkeit,
Vollständigkeit,
Konsistenz,
Aktualität,
Einzigartigkeit, und
Validität.

Datenverantwortliche sollten darüber hinaus in Erwägung ziehen, Feedback von Führungskräften und Usern einzuholen und eine Bewertung für die Datenzufriedenheit zu entwickeln, die das Vertrauen in die Daten, Reports und Vorhersagen misst.

4. Data Observability implementieren

Eine geringe Nutzung, schlechte Datenqualität oder unzureichende Zufriedenheitsmetriken deuten stark darauf hin, dass Data Debt die Nutzung von Daten zur Entscheidungsfindung beeinträchtigt. Ist das der Fall, müssen Dataops-Teams "rückwärts" arbeiten, um die Data Lineage zu verstehen - und wie sich die Daten auf dem Weg von der Quelle zum Ziel verändern. Ein Weg zum Shift-Left in Sachen Data Lineage: Data Observability implementieren. Und zwar in jedem Schritt des Datenprozesses.

"Data Observability heißt, den Zustand und Status Ihrer Daten über den gesamten Lifecycle hinweg zu kennen", erklärt Grant Fitchey, Devops Advocate beim Lösungsanbieter Redgate Software, und fügt hinzu: "Damit wissen Sie, ob und wo etwas schief gelaufen ist und was zur Behebung des Problems erforderlich ist. Zudem trägt Observability dazu bei, Data Flows an Business-Anwender zu kommunizieren und etabliert einen Audit-Kanal, um Debugging und Compliance zu unterstützen."

Auch aus Sicht der Ingenieure machen diese Leitplanken Sinn, wie Jeff Foster, Director of Technology and Innovation bei Redgate, erläutert: "Das gewährleistet, dass die Daten auf konforme und ethisch vertretbare Weise verwendet werden. Da wir immer ausgefeiltere KI/ML-Pipelines aufbauen und die Datenquellen verstehen wollen, die in umfangreiche ML-Modelle einfließen, wird Dataops immer wichtiger."

5. Offene Standards einsetzen

Data Debt ist zum Teil auch Data Systems Debt - hervorgerufen durch Data-Management-Plattformen, die nicht den Geschäftsanforderungen entsprechen.

"Daten sind so lange irrelevant, bis sie es nicht mehr sind. Und dann wird es kritisch", warnt Erik Bledsoe, Content Marketing Manager beim Observability-Anbieter Calyptia. "Sie sollten deshalb in der Lage sein, Ihre Daten richtig zu verarbeiten und aktuell relevante in den entsprechenden Backends zu speichern. Der Rest sollte in kostengünstige Storage-Lösungen fließen, wo er für zukünftige Analysen bereitsteht."

Dabei empfiehlt Bledsoe, auf herstellerneutrale Tools zu setzen, die offene Standards unterstützen. Er erklärt: "Wenn nur eine bestimmte Applikation, die Sie seit drei Jahren nicht mehr verwenden, auf die Daten zugreifen kann, kommt das einer Geiselhaft für Ihre Daten gleich."

Ein anderer Weg, um Lock-in-Effekte zu vermeiden: Automatisieren Sie die Datenextraktion aus SaaS- und anderen Anwendungen und nutzen Sie zentralisierte Datenplattformen wie Data Lakes oder Data Warehouses für Reporting- und Analysezwecke. Diese zentralisierten Plattformen können auch eine Quelle für Plattformmigrationen sein. Die Archivierung älterer Daten hilft dabei, Compliance-Anforderungen zu erfüllen - ohne Datenvisualisierungs- und Analysetools mit mehr Daten als erforderlich zu überfrachten.

6. Management-Plattformen gut wählen

Zu guter Letzt sollten Data Architects zur Vermeidung von Datenschulden diskutieren, welche Datenbank- und Data-Management-Plattform die optimale ist. Vor einigen Jahren gab es abgesehen von relationalen Datenbanken keine große Auswahl - das hat sich grundlegend geändert. Fällt die Entscheidung auf eine nicht optimale Data-Management-Plattform, können die für Data Analytics nötigen Workarounds zu komplexen Datenschulden führen.

Flexible Datenspeicher und semistrukturierte Datenmodelle einzusetzen, sind ein Weg um damit umzugehen, wie Victor Lee, Vice President of Developer Experience beim Datenbankanbieter TigerGraph, erklärt: "Die Graph-Technologie hilft dabei, Data Debt zu reduzieren, indem sie Unternehmen in die Lage versetzt, ihre Daten schnell auf lockere Art und Weise miteinander zu verbinden und diese intelligenter zu integrieren."

Da immer mehr Unternehmen auf datengetriebene Entscheidungsfindung setzen und ML-Modelle entwickeln wollen, um sich Wettbewerbsvorteile zu verschaffen, sollten Datenteams das Thema Data Debt proaktiv angehen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.