Ratgeber Datenqualität

Gute Daten - schlechte Daten

12.10.2011
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.

In sechs Schritten zum Stammdaten-Management

Das Fraunhofer-Institut für Arbeitswirtschaft und Organisation (IAO) beschreibt in seiner Studie "Stammdaten-Management-Systeme 2009" einen Sechs-Stufen-Plan, wie Anwender ein funktionierendes Stammdaten-Management aufbauen sollten:

  1. Datenanalyse: Analyse des Datenbestands sowie die Identifikation der Systeme, welche Stammdaten enthalten. Die Datenstrukturen dieser Systeme müssen bis auf Attributsebene analysiert werden. Das führt zu einem zentralen Management aller Metadaten sowie Datenstrukturen. Dabei gilt es neben der reinen Datenstruktur auch organisatorische Aspekte zu beachten, beispielsweise welche Systeme welche Datenobjekte verwenden.

  2. Datenmodell: Zunächst müssen alle zu integrierenden Teilschemata sowie die Reihenfolge der Integration festgelegt werden. Im folgenden Schemavergleich werden Korrespondenzen und semantische Korrelationen ermittelt. Mögliche Konflikte lassen sich durch eine Schemaangleichung beheben. Mit der abschließenden Schemafusion erhalten Anwender ein integriertes Datenmodell.

  3. Datenqualität: Im Zuge einer Datenanalyse geht es darum, die Datenqualität zu erhöhen. Dafür gibt es verschiedene Methoden: Beispielsweise statistische Analysen, um unnatürliche Häufungen zu erkennen (Mitarbeiter wählen immer die erste Option in einer Liste aus), Identifikation von Permutationen (Horst, Müller - Müller, Horst) und Bereinung solcher Dubletten sowie Abgleich mit externen Quellen wie zum Beispiel Adressdatenbanken.

  4. Datenintegration: Ziel ist es, die Datensätze aus verschiedenen Systemen zusammenzuführen und künftig zentral zu verwalten. Dies beruht auf Heuristiken, die eine Aussage treffen, welche Datensätze wahrscheinlich identisch sind. Am Ende liegen alle Daten in der zentralen Stammdatenverwaltung. Darüber hinaus gilt es in diesem Schritt, je nach IT-Architektur die technische Integration der Daten in die Fachanwendungen umzusetzen.

  5. Datenanreicherung: Die Datenqualität lässt sich durch Anreicherung mit weiteren Informationen erhöhen. Dazu werden externe Quellen herangezogen: beispielsweise Listenabgleiche zur Betrugsbekämpfung oder Abfragen an Auskunfteien (Schufa).

  6. Datenkontrolle: Nach Schritt fünf verfügen Anwender über eine hochwertige Datenbasis, allerdings sind diese Abbild eines bestimmten Zeitpunkts. Deshalb gilt es, die Datenqualität im Prozess künftiger Veränderungen zu verankern, beispielsweise mit Hilfe von semantischen und syntaktischen Regeln für die Dateneingabe. Außerdem können Prozesse implementiert werden, wonach Änderungen erst durch einen Datenqualitätsbeauftragten freigegeben werden.