Was ist Data Lineage?

02.06.2021
Von  und


Isaac Sacolick ist Autor des Amazon-Bestsellers "Diving Digital: The Leader´s Guide to Business Transformation thourh Technology". Er schreibt als freier Autor unter anderem für unsere US-Schwesterpublikation CIO.com.

 
Daniel Fejzo ist freier Mitarbeiter der Redaktion COMPUTERWOCHE.
Ein Data-Lineage-System macht nachvollziehbar, wie sich Ihre Daten (weiter)entwickeln. Das müssen Sie zum Thema wissen.
Data Lineage - das müssen Sie über das "Daten-GPS" wissen.
Data Lineage - das müssen Sie über das "Daten-GPS" wissen.
Foto: RDVector - shutterstock.com

Datenbanken sind die erste Wahl, wenn es darum geht, Daten vorzuhalten, zu aktualisieren, abzufragen, zu löschen und ihren gegenwärtigen Zustand darzustellen. Entwickler sind auf Datenkonsistenz angewiesen, damit APIs die richtigen Transaktionen ausführen und Anwendungen auf die richtigen Daten zugreifen können. Auch Data Scientists, die Modelle für maschinelles Lernen entwickeln oder Datenvisualisierungen erstellen, sind auf Daten angewiesen.

Wenn Sie eine SQL- oder NoSQL-Datenbank daraufhin abfragen, wie die Daten vor zwei Tagen aussahen, müssen Sie sich möglicherweise auf Datenbank-Snapshots oder proprietäre Funktionen verlassen. Für Entwickler oder Datenwissenschaftler können Snapshots und Backups zum Vergleich mit historischen Datensets ausreichen. Dennoch stellen sie sind keine adäquaten Tools dar, um die Veränderungen in Sachen Daten nachvollziehen zu können.

Es gibt viele gute Gründe, warum es wichtig ist, zu wissen, wie Menschen und Systeme Daten verändern. Konkret sollten Sie folgende Fragen beantworten können:

  • Welcher Mitarbeiter oder welcher Geschäftsprozess hat die Daten verändert?

  • Welches Tool oder welche Technologie hat für die Änderung gesorgt?

  • Auf welche Weise wurden die Daten geändert? Durch einen Algorithmus, einen Datenfluss, eine API oder die Eingabe von Daten in ein Formular?

  • Welche Änderungen wurden an Datensätzen, Dokumenten, Nodes, Feldern oder Attributen vorgenommen?

  • Wann wurde die Änderung vorgenommen und wenn sie von einer Person vorgenommen wurde, wo befand sich ihr Standort?

  • Warum, beziehungsweise in welchem Kontext wurde die Änderung vorgenommen?

Data Lineage - Definition

Data Lineage umfasst Methoden und Werkzeuge, die den Lebenszyklus von Daten nachvollziehbar machen und die Fragen nach dem Wer, Wann, Wo, Warum und Wie beantworten. Es handelt sich um eine Disziplin innerhalb des Metadaten-Managements, die oft auch eine Funktion von Datenkatalogen darstellt. Data-Lineage-Funktionen ermöglichen es Nutzern, den Kontext derjenigen Daten zu verstehen, die sie zur Entscheidungsfindung und anderen Geschäftszwecken heranziehen.

In gewisser Weise lässt sich ein Data-Lineage-System als "Daten-GPS" bezeichnen, das "Abbiegehinweise sowie einen visuellen Überblick über die vollständig kartierte Route" liefert. Andere sehen Data Lineage als zentralen Aspekt von DataGovOps, wo Data Lineage, Testing und Sandboxes die technischen Praktiken und Automatisierungsmöglichkeiten der Data Governance abbilden.

Data Lineage zu erfassen und zu verstehen ist aus mehreren Gründen wichtig:

  • Compliance-Anforderungen: Viele Unternehmen müssen Data-Lineage-Systeme implementieren, um gesetzliche Vorgaben einhalten zu können. So ist Data Lineage im Risikomanagement und Reporting etwa für Handelsunternehmen am Kapitalmarkt erforderlich, um die BCBS 239- und MiFID II-Vorschriften zu erfüllen. Für große Banken kann die automatisierte Extraktion von Lineage aus den Quellsystemen Zeit einsparen und Risiken erheblich reduzieren. In pharmazeutischen klinischen Studien erfordert der ADaM-Standard die Rückverfolgbarkeit zwischen Analyse und Quelldaten. Auch andere Vorschriften wie die Europäische Datenschutzgrundverordnung (DSGVO/GDPR) oder der California Consumer Privacy Act (CCPA) veranlassen immer mehr Unternehmen, Data-Governance- und Data-Lineage-Funktionen zu implementieren, insbesondere, um private und sensible Daten tracken zu können.

  • Datengetriebene Unternehmenskultur: Organisationen, die Citizen-Data-Science-Programme entwickeln, KPI-Dashboards einrichten, hybride BI-Umgebungen verwalten und andere Schritte unternehmen, um zu einer datengetriebenen Unternehmenskultur zu gelangen, können bei der ein oder anderen Data-Lineage-Herausforderung ins Stolpern geraten. Wenn sich die Finanzdaten in einem Dashboard signifikant ändern, wollen Führungskräfte sicher wissen, was dahintersteckt. Citizen Data Science und andere Self-Service-BI-Programme sind schwer in Gang zu bringen, wenn die Fachexperten den Daten nicht vertrauen. Data Lineage Tools können dabei helfen, die Quellen, Flüsse und Regeln rund um die abgefragten Daten besser zu verstehen, auszuwerten oder sie in Visualisierungen einzubauen.

  • Transparenz: Unternehmen, die Produkte, Dienstleistungen und Workflows entwickeln, versuchen, die Datenqualität zu verbessern, Stammdaten-Hubs zu erstellen oder in Stammdatenmanagement zu investieren. Diese Ansätze beinhalten typischerweise Data-Lineage-Funktionen, um Transparenz über Geschäftsregeln und Änderungen zu schaffen. Beispielhafte Anwendungsfälle sind ausgereifte Customer-360-Funktionen, die Skalierung von digitalen Marketingprogrammen, die Priorisierung von Customer-Experience-Initiativen, die Optimierung von E-Commerce-Shops und die Schaffung von Transparenz in Lieferketten.

  • Analytics und maschinelles Lernen: Data Lineage ist auch wichtig, um ModelOps und den Machine-Learning-Lebenszyklus zu unterstützen. Die Datenherkunft zu erfassen und zu analysieren, hilft dabei, festzustellen, wann ausreichend neue oder geänderte Daten ein erneutes Training der Modelle erfordern und den Model Drift reduzieren. Genauso wichtig ist es aber, den gesamten Modell-Lebenszyklus im Blick zu behalten, da ML-Modelle häufig Input für Services, Applikationen und nachgeschaltete Analysen liefern.

Da immer mehr Unternehmen in Daten, Analytics und maschinelles Lernen investieren, wird der Einsatz von Data Lineage zu einer immer bedeutenderen Data-Governance-Praxis. Während einige Unternehmen aufgrund gesetzlicher Vorschriften dazu gezwungen sind, Data-Lineage-Funktionen zu entwickeln, streben andere nach Transparenz bei der Datenverarbeitung. Wieder andere betrachten Data Lineage als Kernkompetenz bei der Demokratisierung von Daten und Analytics.

Data Lineage - Anwendungsbeispiele

Im Folgenden finden Sie einige Beispiele dafür, wie Unternehmen Data-Lineage-Verfahren und -Tools bei wichtigen Geschäftsvorgängen einsetzen.

  • Eine Bank konnte ihre Effizienz mit Hilfe von Data Lineage über 100 Applikationen um den Faktor 80 steigern und so mehr als eine Million Dollar einsparen.

  • Data Lineage spielt eine wichtige Rolle im Supply Chain Management, zum Beispiel, wenn es darum geht, für Endverbraucher eine Ende-zu-Ende-Transparenz im Bereich Lebensmittel zu schaffen.

  • Non-Profit-Organisationen können Spenden zurückverfolgen und sichtbar machen, wie der Erlös schlussendlich genutzt wird.

Der Schlüssel zum Data-Lineage-Erfolg kann darin liegen, Prioritäten zu setzen und angemessene Ziele zu definieren, insbesondere für Organisationen mit vielen Datenquellen, Technologien und Anwendungsmustern.

Data Lineage - Funktionen

Eine Möglichkeit, Data Lineage "zu denken": Flussdiagramme, die veranschaulichen, wie neue Daten sowie Änderungen in primären Datenquellen durch verschiedene Systeme fließen und sich auf abgeleitete Datenelemente auswirken. Ein Beispiel: Ein Kunde ruft den Kundendienst an, um eine Adressänderung zu beantragen. Data Lineage zeigt den Datenfluss zu anderen Systemen, die mit der neuen Adresse aktualisiert werden.

Ein häufiges Anwendungsgebiet für Data Lineage Tools ist die Prüfung von Informationsrückflüssen. Wenn sich zum Beispiel eine Umsatzprognose ändert, können die Vertriebsleiter alle Datenelementänderungen überprüfen, die zur neuen Prognose beigetragen haben.

Innerhalb von Datenkatalogen ist Data Lineage ein wichtiges Dokumentationswerkzeug für alle Beteiligten, die Daten erstellen, verwalten und analysieren. Sie hilft, ein gemeinsames Verständnis für den Berechnungskontext einer beliebigen Kennzahl zu erzeugen. Ein guter Ausgangspunkt für den Aufbau von Datenkatalogen ist die Erfassung der Datenquellen und die anschließende Verwendung von Tools zur Verfolgung der Data Lineage.

Data Lineage - Anbieter

Public-Cloud-Plattformen verfügen über einige eingebettete Data-Lineage-Funktionen. Azure Purview Data Catalog verfolgt beispielsweise die Source-to-Target-Lineage, einschließlich der auf Spaltenebene. Google Cloud Data Fusion zeigt Änderungen auf Datensatz- und Feldebene für Pipelines an, die auf Googles Datenintegrationsplattform laufen.

Die Herausforderung bei der Implementierung von Data Lineage besteht oft darin, dass die Unternehmen, die am meisten von ihren Transparenz- und Diagnosefunktionen profitieren, sehr wahrscheinlich auch über eine stark heterogene Datenmanagement-, Verarbeitungs- und Analyse-Tool-Landschaft verfügen. Wenn Data Warehouses, Data Lakes, Datenintegrationsdienste und Analytics-Plattformen in mehreren Clouds betrieben werden, sind Datenkataloge und Lineage-Funktionen für mehrere Clouds erforderlich. Zu den konkurrierenden Plattformen, die Data-Lineage-Funktionen anbieten, gehören zum Beispiel:

  • Alex Solutions

  • ASG

  • Ataccama

  • Alation

  • Boomi

  • Collibra

  • DataKitchen

  • Erwin

  • IBM

  • Infogix

  • Informatica

  • Manta

  • Microsoft

  • Octopai

  • Oracle

  • SAP

  • SAS

  • Talend

Darüber hinaus stehen in Sachen Data Lineage auch mehrere Open-Source-Lösungen zur Verfügung. Standards für die plattformübergreifende Unterstützung von Data Lineage zu schaffen, ist das Ziel der Initiative OpenLineage. Initiativen, die Implementierungsstandards, Interoperabilitätsprotokolle und plattformübergreifende Integrationsmöglichkeiten schaffen, sind notwendig, um die Akzeptanz von Data Lineage und anderen Data-Governance-Verfahren zu erhöhen.

In Anbetracht des rasanten Wachstums der Unternehmensdaten, des steigenden geschäftlichen Mehrwerts von Machine Learning und der zunehmenden Datenregulationen werden künftig immer mehr Unternehmen ihre Bemühungen zur Implementierung von Data-Governance- und Data-Lineage-Funktionen intensivieren müssen. (fm)

Dieser Artikel basiert auf einem Beitrag unserer US-Schwesterpublikation Infoworld.com.