Wie sich Datenqualität steigern lässt

16.06.2005
Von Tobias Mathes

Data Cleansing

Data Cleansing
Data Cleansing

Die Bereinigung der Daten im engeren Sinne umfasst ebenfalls verschiedene Methoden, die von entsprechenden Tools unterschiedlich stark genutzt werden (siehe Kasten "Data Cleansing"). Interessante Unterschiede zwischen den Produkten zeigen sich vor allem bei der Identifizierung von Dubletten - einer der Hauptaufgaben von Data Cleansing.

Als Baustein eines umfassenden Datenqualitäts-Managements bietet die Datenbereinigung eine Reihe von Methoden:

Parsing: Zusammengesetzte Einträge in Datenfeldern werden in deren atomare Bestandteile zerlegt.

Standardisierung: Daten werden nach definierten Regeln in Standardwerte und -formate überführt.

Vergleich unternehmensinterner Daten mit externen Datenbestände zur Verifizierung.

Matching: Identifikation von Datenfeldern mit unterschiedlichem Inhalt aber potenziell gleicher Bedeutung beziehungsweise gleichem Bezug auf ein reales Objekt (beispielsweise die Zuordnung von Produktbeschreibungen in verschiedenen Datenbanken zu einheitlichen Produktnummer

Deduplizierung: Dubletten werden aus den Datenbeständen herausgefiltert.

Konsolidierung: Zusammenführen von verstreuten Informationen zu vollständigen Datensätzen;

Householding: Aufdecken von Zusammenhängen in den Daten, wie etwa alle Privatpersonen eines Haushalts oder die Tochtergesellschaften eines Konzerns.

Datenanreicherung: Mit Hilfe von Referenzdaten soll der Nutzen der bereinigten unternehmensinternen Daten gesteigert werden.

Grundsätzlich lassen sich hier probabilistische und nichtprobabilistische Verfahren unterscheiden. Die Algorithmen der Ersteren basieren auf der Wahrscheinlichkeitsrechnung. Anhand von statistisch ermittelten Charakteristika der Daten bekommen einzelne Datenelemente wie etwa Attribute in einem Datensatz unterschiedliche Wahrscheinlichkeiten, anhand derer sie bei Übereinstimmung als Dublette gewertet werden. Wird dieses Verfahren häufiger angewendet, passt es sich so den vorliegenden Datenbeständen an. Sind dann allerdings große Mengen anders strukturierter Daten auf Dubletten zu untersuchen, beispielsweise nach einer Unternehmensfusion, führen die bislang verwendeten Wahrscheinlichkeiten zu unzureichenden Ergebnissen. Der probabilistische Ansatz sollte daher stets zusammen mit Algorithmen wie den deterministischen Verfahren zum Einsatz kommen.