Wie sich Datenqualität steigern lässt

16.06.2005
Von Tobias Mathes

Data Profiling

Im Einzelnen wird mit Data Profiling die Beschaffenheit von Daten analysiert und ein Datenprofil mit identifizierten Mängeln und Eigenschaften der untersuchten Daten erstellt. Grundsätzlich sind drei Varianten der Datenprofilierung zu unterscheiden:

Die Analyse von Inhalt und Struktur einzelner Attribute lässt Datenqualitätsprobleme im Zusammenhang mit Datentypen, Wertebereichen, Verteilungen und Varianzen einzelner Attributwerte, Nullwerte sowie der Eindeutigkeit der Attribute oder Datenmuster (zum Beispiel dd/mm/yy) erkennen.

Im Rahmen der Abhängigkeitsanalyse werden die Verbindungen zwischen Attributen einer Relation überprüft. Hierbei offenbaren sich erwartete und unerwartete sowie unscharfe funktionale Abhängigkeiten sowie potenzielle Schlüsselattribute.

Durch die Analyse der Überlappungen zwischen Attributen verschiedener Relationen können Redundanzen und Fremdschlüsselbeziehungen innerhalb eines Datenbestandes aufgedeckt werden.

Tools für die Datenqualitätsanalysen setzen Verfahren der deskriptiven Statistik (Verteilungsanalysen, Ausreißertests etc.) sowie des Data Mining (regelbasierende oder Cluster-Analysen und Entscheidungsbaumverfahren) ein. Letztlich bestimmt aber der Mensch die Qualität der automatisierten Analyseprozesse: Nur durch eine enge Zusammenarbeit zwischen IT-Experten und qualifizierten Datennutzern aus den Fachabteilungen können die Ergebnisse des Datenprofils richtig interpretiert und anschließend die notwendigen Regeldefinitionen oder Prozessänderungen eingeleitet werden. Das Data Profiling dient im Kontext des DQM also zur Standortbestimmung und Aufwandsschätzung für alle weiteren Aktivitäten. Durch seine Automatisierung werden Datenqualitätsprobleme wesentlich schneller erkannt als mit einer manuellen Analyse.