Data Management und Data Quality

Ein Hürdenlauf im Datendschungel

04.12.2019
Von 
Iris Lindner ist freiberufliche Fachredakteurin für Elektronik und Automatisierung.
Effektives Datenmanagement soll unter anderem einen schnellen Zugriff auf die Daten sowie eine effiziente Verwaltung großer Datenmengen erlauben. Doch so wünschenswert wie der Nutzen ist auch die Fähigkeit, Daten aus Data Lakes, Silos und Multi-Cloud-Umgebungen in einer dafür notwendigen gemeinsamen Basis vereinen zu können.

Zweifelsfrei hat sich die DSGVO im vergangenen Jahr auf das Datenmanagement ausgewirkt. Konzeptionell war es vor ihrer Einführung relativ einfach, die betrachtungsrelevanten Daten zu verarbeiten und den Forderungen aus den Fachbereichen aufzubereiten. Mittlerweile muss man sich aber weitergehende Gedanken darüber machen, um welche Daten genau es sich dabei handelt und was mit diesen passiert. Gerade die DSGVO-relevanten Daten erfordern ein Konzept, das vorgibt, wie mit den Daten zu einem bestimmten Zeitpunkt umzugehen ist.

Die eingeladenen Experten diskutierten angeregt und kontrovers beim IDG Roundtable zum Thema Data Management.
Die eingeladenen Experten diskutierten angeregt und kontrovers beim IDG Roundtable zum Thema Data Management.
Foto: Michaela Handrek-Rehle

Informationen zu den Partner-Paketen der Data Management & Data Quality Studie

Nicht nur konzeptionell muss man dem Datenschutz in einem Projekt schon relativ früh begegnen. Auch bei der Applikationsentwicklung müssen Funktionen bereitgestellt werden, um Daten später gezielt löschen zu können. Und als wäre das nicht schon Herausforderung genug, kommt mit der Art und Weise der Datenhaltung noch eine Portion Komplexität hinzu. Ob zentral in einem Data Warehouse oder einem Data Lake, verteilt in Silos, On-Premise oder in der Cloud - die verschiedenen Möglichkeiten bringen sowohl Vor- als auch Nachteile mit sich.

Zu viele Töpfe erschweren die Nutzung

Datensilos sind aus guten Gründen entstanden: Unternehmen haben beispielsweise für Logistik, Vertrieb und Einkauf ein System ausgewählt, das sie dabei unterstützt, schneller und effizienter zu werden. Im besten Fall waren die Systeme noch personalisiert, weil jeder Kunde individuell ist. Eine Diese gewachsenen Strukturen zu harmonisieren beziehungsweise zu standardisieren ist nicht nur extrem komplex, sondern auch ein Moving Target, das niemals vollständig erreicht wird. Der Grund dafür: Mobile Anwendungen und Web-Applikationen hinzuzufügen, die am besten noch in der Cloud laufen, erzeugt derzeit wieder neue Datentöpfe.

Die containerisierte Anwendung ist nicht das eigentliche Problem. Die Daten allerdings aus der Datenbank des Cloud-Anbieters zu bekommen ist ein enormer, kostspieliger und langwieriger Aufwand. Wie lässt sich dann ein spezieller Service aus einer Cloud nutzen, wenn die Daten in einer anderen Cloud liegen? Dafür bräuchte es ein Datenmanagement, das selbst verteilt ist und mit einer hybriden Umgebung umgehen kann, um hier nicht weitere Disparitäten zu schaffen.

Multi-Cloud- und hybride Umgebungen in der Datenhaltung gibt es bereits. Wie gut das Datenmanagement damit funktioniert, hängt davon ab, ob diese Möglichkeit der Datenhaltung von vornherein bedacht wurde. Häufig ist Datenmanagement eine zweitrangige Überlegung, der erste Blick fällt meist auf die Anwendungen. Und deshalb werden an dieser Stelle die gleichen Fehler gemacht wie früher, nur entstehen die Datensilos heute in der Cloud. Für den 360-Grad-Blick auf die Kundendaten braucht es aber eine gemeinsame Basis.

Auch wenn Flexibilität, Schnelligkeit, Performance und Skalierbarkeit die Argumente der Silos sind, so wird Data Governance bei ihnen zum Problem. Natürlich ist ein zentraler Ansatz bei der Entwicklung einer Architektur hier eine Herausforderung, aber man sollte sich dabei nicht von Einschränkungen der Technologie leiten lassen, sondern von den Business-Anforderungen.

Für die Datenhaltung war "Single Point of Truth" eines der Konzepte, das in den zurückliegenden Jahren immer wieder diskutiert wurde. Diesem Konzept haben Data Lakes aktuell den Rang abgelaufen. Das bedeutet aber weder, dass alle Daten zentral in einer Datenbank gesammelt werden, noch dass hier bereits Silos aufgebrochen wurden. Ein neuer Trend in der Datenhaltung ist, die Daten dort zu lassen, wo sie entstehen, und sie für die Anwendung mit virtuellen Werkzeugen abzugreifen.

Transparenz innerhalb eines Clicks

Egal mit welcher Methode die Daten optimal organisiert wurden, entscheidend ist, daraus die richtigen Rückschlüsse zu ziehen. Um Daten gewinnbringend zu interpretieren braucht es eine durchgängige Sicht, Transparenz, und ein analytisches Managementsystem, in dem die Daten zusammengebracht werden müssen. Die für die Analysen notwendige Historie in einem operativen Managementsystem im Nachgang aufzubauen ist nicht möglich, da das System dafür wiederum mehr Daten benötigen würde. Aber genau der operative Bereich ist die Herausforderung, in dem die Schnelligkeit über Erfolg oder Misserfolg der Anwendung entscheidet.

Informationen zu den Partner-Paketen der Data Management & Data Quality Studie

Ein Beispiel aus dem Bereich Banking: Sämtliche Kundendaten sind auf lokalen Systemen gespeichert, Mobile-Pay-Anwendungen laufen aber in der Cloud. Führt der Kunde auf seinem Smartphone eine Transaktion aus, müssen sich die Daten aus der Cloud mit den lokal gespeicherten Informationen synchronisieren - und zwar innerhalb eines Clicks. Funktioniert das nicht wie erwartet, wird der Kunde ungeduldig und am Ende vielleicht noch verärgert.

Ähnlich ist es mit Produktvorschlägen bei eBay oder Amazon: Die Intelligenz des Systems ist im mobilen Frontend sichtbar, doch eigentlich steckt sie in einem zentralen System. In der Skalierung liegt einer der Knackpunkte im Datenmanagement: Jeder der mehreren Millionen Kunden soll diesen Service konsumieren können. Deswegen braucht es die Kombination aus analytischen und operativen Managementsystem. Und damit wird die Messelatte extrem hoch auf die Technologie gelegt, die in der Lage ist, dies zu leisten.

Eine Strategie hilft beim Navigieren

Technologie allein führt jedoch nicht zum Erfolg. Auch die Evolution der Unternehmen geht weiter: Zu den bereits bestehenden BI Competence Centern (BI = Business Intelligence) gesellen sich nun Kompetenz-Center hinzu, die für Data Quality, Datamanagement und Data Governance verantwortlich zeichnen. Die sind deshalb notwendig, weil die Schwierigkeit längst nicht mehr darin liegt, Daten zu sammeln, bereitzustellen und verfügbar zu machen. Es gilt, durch diesen Dschungel zu navigieren und dort auch Verantwortlichkeiten zu schaffen.

Auf der Suche nach dem Data Owner können auch auf fachlicher Ebene Konflikte entstehen, für die die Unternehmen häufig noch nicht sensibilisiert sind. Die Menschen im Business zur korrekten Arbeit mit Daten zu befähigen ist ein Weg, Data Management intern voranzutreiben. Voraussetzung dafür ist aber, dass dies einfach zu konsumieren, zu verstehen und vor allem schnell ist.

Zusätzlich ist noch etwas anderes für den Erfolg durch Daten unverzichtbar: eine Datenstrategie. Getrieben von der Fachabteilung und unterstützt von der Geschäftsleitung stellt diese sicher, dass immer eine Verbindung zu der Aufgabe besteht, die gelöst werden soll. Auch mehrere Datenstrategien aus verschiedenen Abteilungen sind möglich, solange sie zum Gesamtziel des Unternehmens beitragen. Wenn zum Beispiel das Unternehmensziel lautet, den Umsatz zu verdoppeln, kann die Datenstrategie eines vertrieblich organisierten Fachbereichs lauten, gezielt aus einer Customer Experience lernen zu wollen, um dann den Kunden einen besseren Service bieten zu können. Dazu muss man die Fachabteilungen aber in die Lage versetzen, ihre Anwendung zeitnah aufzubauen, die richtigen Daten schnell zu bekommen und einfach darauf zugreifen zu können. Dabei darf es nicht die Aufgabe der Fachabteilung sein, sich auch um die Verwaltung der Daten sowie um die Security dahinter kümmern zu müssen.

Nicht zuletzt definiert eine Datenstrategie auch, welchen Wert die Daten haben. In welchen Algorithmen wird beispielsweise ein Geburtsdatum genutzt? Soll die Information verwendet werden, um in verschiedenen Algorithmen das Alter hochwertiger zu bestimmen, oder möchte man sie für eine Kampagne mit Geburtstagsgutscheinen nutzen? Da sich eine Strategie aus dem Blinkwinkel des "Value of Information" permanent ändern kann, stellt sich auch die Frage nach der Halbwertszeit einer Datenstrategie. Zu wissen, dass die jetzt definierte Datenstrategie in einem relativ greifbaren Zeitraum veraltet sein wird, auch weil zwischenzeitlich neue Datenquellen oder neue technologische Möglichkeiten entstehen, bringt ein gewisses Frustpotenzial mit sich. Daher kann ein Punkt der Strategie auch sein, die Daten einfach zu sammeln und für eventuelle spätere Analysen zu speichern.

Dass Security beim Datenmanagement nicht als Treiber gilt, liegt unter anderem daran, dass der Cloud mittlerweile Vertrauen entgegengebracht wird - nicht nur weil die Vorteile in den unterschiedlichen Services überwiegen, sondern weil in den Augen der Nutzer auch noch nichts Schlimmes passiert ist. Hinzu kommt, dass ein mittelständisches Unternehmen nur sehr schwer so viel für Sicherheit investieren kann wie ein Cloud-Anbieter. Und das wird wohl auch so bleiben.

Informationen zu den Partner-Paketen der Data Management & Data Quality Studie