Was ist Data Lineage?

23.09.2021 von Isaac Sacolick und Daniel Fejzo
Ein Data-Lineage-System macht nachvollziehbar, wie sich Ihre Daten (weiter)entwickeln. Das müssen Sie zum Thema wissen.
Data Lineage - das müssen Sie über das "Daten-GPS" wissen.
Foto: RDVector - shutterstock.com

Datenbanken sind die erste Wahl, wenn es darum geht, Daten vorzuhalten, zu aktualisieren, abzufragen, zu löschen und ihren gegenwärtigen Zustand darzustellen. Entwickler sind auf Datenkonsistenz angewiesen, damit APIs die richtigen Transaktionen ausführen und Anwendungen auf die richtigen Daten zugreifen können. Auch Data Scientists, die Modelle für maschinelles Lernen entwickeln oder Datenvisualisierungen erstellen, sind auf Daten angewiesen.

Wenn Sie eine SQL- oder NoSQL-Datenbank daraufhin abfragen, wie die Daten vor zwei Tagen aussahen, müssen Sie sich möglicherweise auf Datenbank-Snapshots oder proprietäre Funktionen verlassen. Für Entwickler oder Datenwissenschaftler können Snapshots und Backups zum Vergleich mit historischen Datensets ausreichen. Dennoch stellen sie sind keine adäquaten Tools dar, um die Veränderungen in Sachen Daten nachvollziehen zu können.

Es gibt viele gute Gründe, warum es wichtig ist, zu wissen, wie Menschen und Systeme Daten verändern. Konkret sollten Sie folgende Fragen beantworten können:

Data Lineage - Definition

Data Lineage umfasst Methoden und Werkzeuge, die den Lebenszyklus von Daten nachvollziehbar machen und die Fragen nach dem Wer, Wann, Wo, Warum und Wie beantworten. Es handelt sich um eine Disziplin innerhalb des Metadaten-Managements, die oft auch eine Funktion von Datenkatalogen darstellt. Data-Lineage-Funktionen ermöglichen es Nutzern, den Kontext derjenigen Daten zu verstehen, die sie zur Entscheidungsfindung und anderen Geschäftszwecken heranziehen.

In gewisser Weise lässt sich ein Data-Lineage-System als "Daten-GPS" bezeichnen, das "Abbiegehinweise sowie einen visuellen Überblick über die vollständig kartierte Route" liefert. Andere sehen Data Lineage als zentralen Aspekt von DataGovOps, wo Data Lineage, Testing und Sandboxes die technischen Praktiken und Automatisierungsmöglichkeiten der Data Governance abbilden.

Data Lineage zu erfassen und zu verstehen ist aus mehreren Gründen wichtig:

Da immer mehr Unternehmen in Daten, Analytics und maschinelles Lernen investieren, wird der Einsatz von Data Lineage zu einer immer bedeutenderen Data-Governance-Praxis. Während einige Unternehmen aufgrund gesetzlicher Vorschriften dazu gezwungen sind, Data-Lineage-Funktionen zu entwickeln, streben andere nach Transparenz bei der Datenverarbeitung. Wieder andere betrachten Data Lineage als Kernkompetenz bei der Demokratisierung von Daten und Analytics.

7 Governance-Tipps
1. Gesunder Menschenverstand
Die IT-Governance muss klar verständlich und preisgünstig umsetzbar sein. Testfrage: Würden Sie selbst die IT Governance verstehen und umsetzen wollen?
2. Frühzeitige Organisation
Wenn es noch keine Governance-Organisation im Unternehmen gibt, sollte sie laut Experton mindestens ein Jahr vor einem großen Outsourcing-Vorhaben geschaffen werden. Testfrage: Sind IT-Abteilung und interne Anwender schon an Vorgaben und Kontrolle durch die IT-Governance gewöhnt?
3. Governance vor Vereinbarung
Die IT-Governance sollte stehen, bevor das Outsourcing startet. Testfrage: Sind die neuen Regeln und Prozesse bereits überall bekannt und werden sie gelebt?
4. Aktivitäten im Vorfeld
Die Governance-Organisation sollte bereits während der Ausschreibungs- und Vergabephase beteiligt werden. Testfragen: Hat die Governance-Organisation bereits Input zur Ausschreibung geleistet? Hat sie bereits Anpassungen ihrer Vorgaben und Prozesse im Hinblick auf das Outsourcing vorgenommen?
5. Rasche Einbindung
Die übrige bleibende IT-Abteilung sollte auch frühzeitig in den Outsourcing-Prozess eingebunden werden. Vor allem in der Transitions- und Transformationsphase, so Experton. Testfragen: Sind Personal, Aufgaben und Rollen der Retained Organisation bereits klar definiert? Ist sie vom Kick-Off an in alle Gremien und Prozesse fest eingebunden?
6. Gelebte Kultur
Die neue Governance-Kultur sollte konsequent gelebt und umgesetzt werden. Testfragen: Haben Sie Sanktionen für Verstöße definiert? Haben Sie in den ersten drei Monaten nach Einführung gezielt nach Verstößen gesucht und diese behoben? Weiß jeder Anwender und für Sie tätige Mitarbeiter des Anbieters genau, welche Regeln er einhalten muss?
7. Kontrolle unumgänglich
Key Performance Indicators (KPIs) und Service Level Agreements (SLAs) müssen nach Umsetzung der Transaktion eingehalten, regelmäßig überprüft und anschaulich berichtet werden. "Sonst nützt die schönste IT Governance nichts", warnt Experton. Testfragen: Haben Sie genaue Berichtsvorgaben für die SLA definiert? Wird die Einhaltung aller KPI durch dedizierte Mitarbeiter der Retained Organisation regelmäßig und gezielt nachgeprüft?

Data Lineage - Anwendungsbeispiele

Im Folgenden finden Sie einige Beispiele dafür, wie Unternehmen Data-Lineage-Verfahren und -Tools bei wichtigen Geschäftsvorgängen einsetzen.

Der Schlüssel zum Data-Lineage-Erfolg kann darin liegen, Prioritäten zu setzen und angemessene Ziele zu definieren, insbesondere für Organisationen mit vielen Datenquellen, Technologien und Anwendungsmustern.

Data Lineage - Funktionen

Eine Möglichkeit, Data Lineage "zu denken": Flussdiagramme, die veranschaulichen, wie neue Daten sowie Änderungen in primären Datenquellen durch verschiedene Systeme fließen und sich auf abgeleitete Datenelemente auswirken. Ein Beispiel: Ein Kunde ruft den Kundendienst an, um eine Adressänderung zu beantragen. Data Lineage zeigt den Datenfluss zu anderen Systemen, die mit der neuen Adresse aktualisiert werden.

Ein häufiges Anwendungsgebiet für Data Lineage Tools ist die Prüfung von Informationsrückflüssen. Wenn sich zum Beispiel eine Umsatzprognose ändert, können die Vertriebsleiter alle Datenelementänderungen überprüfen, die zur neuen Prognose beigetragen haben.

Innerhalb von Datenkatalogen ist Data Lineage ein wichtiges Dokumentationswerkzeug für alle Beteiligten, die Daten erstellen, verwalten und analysieren. Sie hilft, ein gemeinsames Verständnis für den Berechnungskontext einer beliebigen Kennzahl zu erzeugen. Ein guter Ausgangspunkt für den Aufbau von Datenkatalogen ist die Erfassung der Datenquellen und die anschließende Verwendung von Tools zur Verfolgung der Data Lineage.

Data Lineage - Anbieter

Public-Cloud-Plattformen verfügen über einige eingebettete Data-Lineage-Funktionen. Azure Purview Data Catalog verfolgt beispielsweise die Source-to-Target-Lineage, einschließlich der auf Spaltenebene. Google Cloud Data Fusion zeigt Änderungen auf Datensatz- und Feldebene für Pipelines an, die auf Googles Datenintegrationsplattform laufen.

Die Herausforderung bei der Implementierung von Data Lineage besteht oft darin, dass die Unternehmen, die am meisten von ihren Transparenz- und Diagnosefunktionen profitieren, sehr wahrscheinlich auch über eine stark heterogene Datenmanagement-, Verarbeitungs- und Analyse-Tool-Landschaft verfügen. Wenn Data Warehouses, Data Lakes, Datenintegrationsdienste und Analytics-Plattformen in mehreren Clouds betrieben werden, sind Datenkataloge und Lineage-Funktionen für mehrere Clouds erforderlich. Zu den konkurrierenden Plattformen, die Data-Lineage-Funktionen anbieten, gehören zum Beispiel:

Darüber hinaus stehen in Sachen Data Lineage auch mehrere Open-Source-Lösungen zur Verfügung. Standards für die plattformübergreifende Unterstützung von Data Lineage zu schaffen, ist das Ziel der Initiative OpenLineage. Initiativen, die Implementierungsstandards, Interoperabilitätsprotokolle und plattformübergreifende Integrationsmöglichkeiten schaffen, sind notwendig, um die Akzeptanz von Data Lineage und anderen Data-Governance-Verfahren zu erhöhen.

In Anbetracht des rasanten Wachstums der Unternehmensdaten, des steigenden geschäftlichen Mehrwerts von Machine Learning und der zunehmenden Datenregulationen werden künftig immer mehr Unternehmen ihre Bemühungen zur Implementierung von Data-Governance- und Data-Lineage-Funktionen intensivieren müssen. (fm)

Dieser Artikel basiert auf einem Beitrag unserer US-Schwesterpublikation Infoworld.com.