Wie sich Datenqualität steigern lässt

16.06.2005
Von Tobias Mathes

Tiefe Einblicke durch Algorithmen

Die wichtigsten nichtprobabilistischen Ansätze bilden die deterministischen und wissensbasierenden Verfahren. Ersteres ermittelt ausschließlich durch den Vergleich der Datenfeldinhalte auf Zeichenebene, ob eine Dublette vorliegt. Für unterschiedliche Vergleichsoperationen sind wiederum spezialisierte Algorithmen nötig. Neben dem Keycode Matching (Aufbau eines Matchcodes zum Datenabgleich) bilden das Fuzzy Matching (unscharfe Vergleichsoperationen) und das Soundex Matching (Überprüfung der Daten auf phonetische Übereinstimmung) die wichtigsten Methoden.

Der wissensbasierende Ansatz nutzt landesspezifische Wissensdatenbanken zur Adresszusammensetzung, Namen oder Rechtsformen. Diese Verzeichnisse werden von den Softwareherstellern aufgebaut und aktualisiert. Die Informationen in den Wissensdatenbanken helfen, die Ergebnisse im Dublettenabgleich zu verbessern. Die tatsächliche Leistungsfähigkeit hängt jedoch vom Umfang und der Aktualität der Wissensdatenbank ab. Zur Bereinigung der Datenbestände werden die Data-Cleansing-Werkzeuge zumeist als Batch-Version angeboten. Diese reaktive Herangehensweise verbessert zwar die Ist-Situation, fördert aber nicht die Nachhaltigkeit eines ganzheitlichen Qualitäts-Managements. Daher bringen immer mehr Hersteller einzelne Module ihrer Data-Cleansing-Lösung als Realtime-Version auf den Markt, um zum Beispiel als Web-Service Dateneingabefehler und Redundanzen unmittelbar erkennen beziehungsweise vermeiden zu können.

Die Überwachung der Qualitätsstandards obliegt dem Data Monitoring. Häufig werden hierfür Profiling- und Cleansing-Methoden kombiniert, da beide auch Informationen zum aktuellen Stand der Qualität liefern. Die periodische Anwendung von Data-Profiling-Methoden hilft, die Qualität der gesamten Datenbasis von Zeit zu Zeit zu überwachen. Wenn der IT-Mitarbeiter dies jedes Mal eigens in Gang setzen muss, spricht man von manuellem Monitoring. Eine automatische und fortlaufende Überprüfung neuer Daten kann dagegen mit speziellen Monitoring-Werkzeugen oder mit Hilfe von Data-Cleansing-Tools erreicht werden.