Wie sich Datenqualität steigern lässt

12.05.2005
Von Tobias Mathes
Zahlreiche Methoden und Tools stehen bereit, um solide Geschäftsinformationen zu schaffen.

Eine mangelnde Qualität der Geschäftsinformationen verursacht Unternehmen hohe Kosten, beeinträchtigt ihre Kundenbeziehungen und lässt sie manche strategische Chance verpassen. Schlechte Daten sind der Grund für irrlaufende Postsendungen, Fehlproduktionen, Mehrfachauslieferungen oder falsche Kennzahlen im Berichtswesen -um nur einige Beispiele aus dem Firmenalltag zu nennen. Auch scheitern Vorhaben zur Systemmigration, Datenintegration oder einem Data Warehouse oft an der geringen Qualität der Daten. Diese zeigt sich in fehlenden, nicht zugeordneten, inhaltlich oder formal falschen oder nicht mehr interpretierbaren Daten. Zu den Folgen zählen auch Probleme im Projekt-Management, da sich der Zeit- und Ressourcenbedarf aufgrund der Vielfalt möglicher Fehlerquellen nur schwer einschätzen lässt. Hinzu kommt, dass viele Mängel spät entdeckt werden, zum Beispiel erst dann, wenn Berichte aus dem Data Warehouse erzeugt werden.

Immer mehr Unternehmen wird mittlerweile klar, dass Daten- und Informationsqualität ein Wertschöpfungsfaktor ist, den sie bisher zu wenig beachtet haben. Die Situation lässt sich jedoch nicht mit isolierten Projekten, sondern nur mit übergreifenden Initiativen zum Datenqualitäts-Management (DQM) nachhaltig verbessern. Ziel ist die Entwicklung eines iterativen Prozesses aus Analyse, Anpassung und Kontrolle, der die große Komplexität des Vorhabens mit seinen zahlreichen Beteiligten und Facetten abdecken muss. Hierbei ist es ratsam, neben allen datengetriebenen Prozessen auch die interne Organisation und vor allem die beteiligten Mitarbeiter in den Zyklus einzubeziehen. Ein wichtiger Bestandteil im DQM sind zudem Softwarewerkzeuge. Sie erleichtern die oft mühselige manuelle Suche und Behebung von Problemen, indem sie die Daten per Data Profiling unternehmensweit automatisch erfassen, ihre Qualität durch ein Data Cleansing verbessern helfen und diese überwachen (Monitoring). Die drei Methoden sollten stets gemeinsam angewendet werden.

Data Profiling verschafft Einblick in die Daten

Im Einzelnen wird mit Data Profiling die Beschaffenheit von Daten analysiert und ein Datenprofil mit identifizierten Mängeln und Eigenschaften der untersuchten Daten erstellt. Grundsätzlich sind drei Varianten der Datenprofilierung zu unterscheiden:

- Die Analyse von Inhalt und Struktur einzelner Attribute lässt Datenqualitätsprobleme im Zusammenhang mit Datentypen, Wertebereichen, Verteilungen und Varianzen einzelner Attributwerte, Nullwerte sowie der Eindeutigkeit der Attribute oder Datenmuster (zum Beispiel dd/mm/yy) erkennen.

- Im Rahmen der Abhängigkeitsanalyse werden die Verbindungen zwischen Attributen einer Relation überprüft. Hierbei offenbaren sich erwartete und unerwartete sowie unscharfe funktionale Abhängigkeiten sowie potenzielle Schlüsselattribute.

- Durch die Analyse der Überlappungen zwischen Attributen verschiedener Relationen können Redundanzen und Fremdschlüsselbeziehungen innerhalb eines Datenbestandes aufgedeckt werden.

Tools für die Datenqualitätsanalysen setzen Verfahren der deskriptiven Statistik (Verteilungsanalysen, Ausreißertests etc.) sowie des Data Mining (regelbasierende oder Cluster-Analysen und Entscheidungsbaumverfahren) ein. Letztlich bestimmt aber der Mensch die Qualität der automatisierten Analyseprozesse: Nur durch eine enge Zusammenarbeit zwischen IT-Experten und qualifizierten Datennutzern aus den Fachabteilungen können die Ergebnisse des Datenprofils richtig interpretiert und anschließend die notwendigen Regeldefinitionen oder Prozessänderungen eingeleitet werden. Das Data Profiling dient im Kontext des DQM also zur Standortbestimmung und Aufwandsschätzung für alle weiteren Aktivitäten. Durch seine Automatisierung werden Datenqualitätsprobleme wesentlich schneller erkannt als mit einer manuellen Analyse.

Wahrscheinlichkeitsrechnung gegen Dubletten

Die Bereinigung der Daten im engeren Sinne umfasst ebenfalls verschiedene Methoden, die von entsprechenden Tools unterschiedlich stark genutzt werden (siehe Kasten "Data Cleansing"). Interessante Unterschiede zwischen den Produkten zeigen sich vor allem bei der Identifizierung von Dubletten - einer der Hauptaufgaben von Data Cleansing.

Grundsätzlich lassen sich hier probabilistische und nichtprobabilistische Verfahren unterscheiden. Die Algorithmen der Ersteren basieren auf der Wahrscheinlichkeitsrechnung. Anhand von statistisch ermittelten Charakteristika der Daten bekommen einzelne Datenelemente wie etwa Attribute in einem Datensatz unterschiedliche Wahrscheinlichkeiten, anhand derer sie bei Übereinstimmung als Dublette gewertet werden. Wird dieses Verfahren häufiger angewendet, passt es sich so den vorliegenden Datenbeständen an. Sind dann allerdings große Mengen anders strukturierter Daten auf Dubletten zu untersuchen, beispielsweise nach einer Unternehmensfusion, führen die bislang verwendeten Wahrscheinlichkeiten zu unzureichenden Ergebnissen. Der probabilistische Ansatz sollte daher stets zusammen mit Algorithmen wie den deterministischen Verfahren zum Einsatz kommen.

Tiefe Einblicke durch Algorithmen

Die wichtigsten nichtprobabilistischen Ansätze bilden die deterministischen und wissensbasierenden Verfahren. Ersteres ermittelt ausschließlich durch den Vergleich der Datenfeldinhalte auf Zeichenebene, ob eine Dublette vorliegt. Für unterschiedliche Vergleichsoperationen sind wiederum spezialisierte Algorithmen nötig. Neben dem Keycode Matching (Aufbau eines Matchcodes zum Datenabgleich) bilden das Fuzzy Matching (unscharfe Vergleichsoperationen) und das Soundex Matching (Überprüfung der Daten auf phonetische Übereinstimmung) die wichtigsten Methoden.

Der wissensbasierende Ansatz nutzt landesspezifische Wissensdatenbanken zur Adresszusammensetzung, Namen oder Rechtsformen. Diese Verzeichnisse werden von den Softwareherstellern aufgebaut und aktualisiert. Die Informationen in den Wissensdatenbanken helfen, die Ergebnisse im Dublettenabgleich zu verbessern. Die tatsächliche Leistungsfähigkeit hängt jedoch vom Umfang und der Aktualität der Wissensdatenbank ab. Zur Bereinigung der Datenbestände werden die Data-Cleansing-Werkzeuge zumeist als Batch-Version angeboten. Diese reaktive Herangehensweise verbessert zwar die Ist-Situation, fördert aber nicht die Nachhaltigkeit eines ganzheitlichen Qualitäts-Managements. Daher bringen immer mehr Hersteller einzelne Module ihrer Data-Cleansing-Lösung als Realtime-Version auf den Markt, um zum Beispiel als Web-Service Dateneingabefehler und Redundanzen unmittelbar erkennen beziehungsweise vermeiden zu können.

Die Überwachung der Qualitätsstandards obliegt dem Data Monitoring. Häufig werden hierfür Profiling- und Cleansing-Methoden kombiniert, da beide auch Informationen zum aktuellen Stand der Qualität liefern. Die periodische Anwendung von Data-Profiling-Methoden hilft, die Qualität der gesamten Datenbasis von Zeit zu Zeit zu überwachen. Wenn der IT-Mitarbeiter dies jedes Mal eigens in Gang setzen muss, spricht man von manuellem Monitoring. Eine automatische und fortlaufende Überprüfung neuer Daten kann dagegen mit speziellen Monitoring-Werkzeugen oder mit Hilfe von Data-Cleansing-Tools erreicht werden. (as)