Daten-Pipelines automatisieren

5 Wege zum Dataops-Glück

09.01.2024
Von 


Isaac Sacolick ist Autor des Amazon-Bestsellers "Diving Digital: The Leader's Guide to Business Transformation thourh Technology". Er schreibt als freier Autor unter anderem für unsere US-Schwesterpublikation CIO.com.

 

3. Datenanalyse und-klassifizierung verbessern

Dataops-Teams können KI und ML auch dazu nutzen, Daten zu analysieren und zu klassifizieren, während sie durch die Daten-Pipelines fließen. Hillary Ashton, Chief Product Officer bei Teradata, weiß um die Vorzüge dieses Ansatzes: "KI-gesteuerte Datenerfassung verbessert die Qualität der Daten, die in das System einfließen, indem sie frühzeitig Anomalien erkennt, die Relevanz bewertet und Daten abgleicht. ML-Modelle können genutzt werden, um verborgene Muster in Daten zu identifizieren, zu bereinigen und zu harmonisieren und um sensible Daten zu klassifizieren und so eine angemessene Governance zu gewährleisten."

Zu den grundlegenden Klassifizierungen gehört dabei, persönliche Informationen und andere sensiblen Daten als solche zu kennzeichnen. Sobald diese identifiziert sind, können Data-Governance-Teams Automatisierungsregeln definieren, um die Quelle neu zu klassifizieren und andere Geschäftsregeln auszulösen. Ashton ist davon überzeugt, dass generative KI künftig deutlich leistungsfähigere Datenqualitäts- und Governance-Tools hervorbringen wird.

Ein weiterer Compliance-Anwendungsfall: die IT-Sicherheit. Laut Tyler Johnson, Mitbegründer und CTO beim Automatisierungsspezialisten PrivOps, ist Identity und Access Management (IAM) ein weiterer Bereich, in dem Dataops in Kombination mit KI und ML einen Mehrwert schaffen kann: "Automatisierung kann etwa das Risiko minimieren, dass böswillige Akteure veraltete Berechtigungen nutzen, um in das Unternehmen einzudringen. Erweiterte Datenpipeline-Workflows, um Zugriffsprotokolldaten mit KI zu aggregieren und zu integrieren, kann externe und interne Sicherheitsbedrohungen minimieren. Die KI identifiziert verdächtige Zugriffsmuster und alarmiert in diesem Fall das Security Operations Center."

4. Schneller Zugriff auf bereinigte Daten

Sensible Informationen und andere Anomalien innerhalb eines Datenstroms zu identifizieren, ist ein grundlegender Anwendungsfall der Data Governance. Ein schnellerer Zugriff auf bereinigte Daten steht allerdings im Interesse der Business Teams: Ein Haupt-Anwendungsfall in den Bereichen Sales, Marketing und Kundendienst ist es, Kundendatensätze in Echtzeit zu aktualisieren - ein Ansatz, um diese Daten zu zentralisieren, ist dabei, sie in eine Customer-Data-Plattform (CDP) zu streamen.

Karl Wirth, Chief Product and Technology Officer bei Treasure Data, weiß, worauf es dabei ankommt: "Der Einsatz der richtigen Tools, um Datenqualitätsprobleme im gesamten Verarbeitungsprozess zu erkennen und zu beheben, ist von entscheidender Bedeutung. Das beginnt damit, automatisierte, explorative Datenanalysen, Datenbereinigungen sowie den Einsatz deterministischer und probabilistischer Tools zum Abgleich von Benutzer-IDs während der Datenaufnahme zu planen."

Ein weiterer Ansatz, um Kundendaten zu managen, ist das Stammdatenmanagement (auch Master Data Management; MDM). Dabei definiert Dataops die Regeln, um primäre Kundendatensätze und -felder aus mehreren Datenquellen zu identifizieren.

Laut Manish Sood, Gründer und CEO des MDM-Anbieters Reltio, kann maschinelles Lernen auch an dieser Stelle unterstützen: "Moderne Ansätze nutzen Automatisierung und ML-basierte Techniken, um Daten aus verschiedenen Quellen schnell zu vereinheitlichen, und übersteigen den begrenzten Umfang traditioneller MDM-Systeme."

Dabei reduziert die Technologie auch die Zahl und Komplexität der Geschäftsregeln in MDM-Systemen, wie David Cox, Outbound Product Manager beim Datenmanagement-Anbieter Semarchy, erklärt: "Automatisierung wird seit langem im Bereich Dataops eingesetzt, um das Stammdatenmanagement und insbesondere die Datenqualität zu optimieren. Beispielsweise, indem Regeln für Metadaten festgeschrieben werden." Künstliche Intelligenz könne dazu beitragen, die Datenqualität in großem Umfang zu automatisieren, da eine unendliche Anzahl von Regeln erforderlich sein kann, wenn es darum geht, die Qualität großer, schneller und komplexer Datensätze zu kontrollieren, so Cox.

5. Datenbereinigung optimieren

Dataops-Teams haben mit KI und ML die Möglichkeit, ihr Hauptaugenmerk von der Datenbereinigung und Pipeline-Reparatur darauf zu verlagern, Mehrwertdienste bereitzustellen - zum Beispiel im Bereich Data Enrichment.

"Weil die Menge und Komplexität der Daten zunimmt, ist es nicht mehr skalierbar, Regeln für die Datenqualität manuell festzulegen. KI und ML bieten einen vielversprechenden Ansatz, um dieses Problem zu bewältigen", ist Satish Jayanthi, Mitbegründer und CTO des Automatisierungsanbieters Coalesce, überzeugt. Er fügt hinzu: "Diese Technologien können fehlerhafte Daten durch Automatisierung effizient identifizieren und berichtigen und so die negativen Folgen abmildern."

Ashwin Rajeeva, Mitbegründer und CTO von Acceldata, hat einige Beispiele dafür auf Lager, wie Machine Learning eine kontinuierliche Verbesserung der Datenqualität ermöglicht: "Das Gelernte kann angewendet werden, um Fehler zu korrigieren, fehlende Daten zu ergänzen, Beschriftungen hinzuzufügen, eine intelligente Kategorisierung durchzuführen und Daten zu deduplizieren."

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.