Adress-Datenqualität

Richtige Kontaktdaten - zufriedene Kunden

25.07.2012
Von Rainer Neumann
Adressdaten sind für Unternehmen der Goldstandard unter den Unternehmensressourcen – allerdings haben sie nicht immer die gewünschte Qualität. So schaffen Sie Abhilfe.
Die Pflege der Adress-Datenbanken spart Kosten und verhindert, dass Kunden unzufrieden sind.
Die Pflege der Adress-Datenbanken spart Kosten und verhindert, dass Kunden unzufrieden sind.
Foto: fotolia.com/SVLuma

Unternehmen, die auf Adress-Datenqualität achten, sind häufig erfolgreicher. Sie steigern nicht nur die Kundenzufriedenheit, sondern sparen Kosten und erhöhen ihre Wettbewerbsfähigkeit. Die Qualität der Kontaktdaten ist ein kritischer Erfolgsfaktor und maßgebender Umsatzhebel für den Vertrieb. Die Anforderungen an eine qualifizierte Kundenbetreuung haben sich durch technischen Fortschritt, Internet und Social Media in den letzten Jahren gewandelt und verändern sich durch die Reform des EU-Datenschutzrechts noch einmal. Es besteht also Handlungsbedarf, um die Datenqualität zu sichern und damit Vertrauen sowie Zufriedenheit der Kunden zu erhalten.

Fünf Gründe lassen sich für die mangelhafte Qualität bei Adressdaten festhalten:

  • Falsche Kriterien bei der Wahl der Lösung oder des Dienstleisters

  • Mangelndes Wissen über die Technik der Dubletten-Prüfung

  • Verunsicherung und fehlende Rechtssicherheit

  • Zu geringes Risikobewusstsein und geringes Budget

  • Adressen gelten nicht als dynamische Unternehmensressource

Dienstleister richtig auswählen

Einige Unternehmen begehen den Fehler, pauschal eine Stichprobe aus den Adressdatensätzen zur Dubletten-Prüfung an mehrere Anbieter zu liefern. Das Resultat ist, dass der Anbieter mit den meisten gefundenen Fehlern engagiert wird. Dabei ist ihnen nicht bewusst, dass die Überprüfung eine komplexe Angelegenheit ist, deren Ergebnis von den individuellen Projektanforderungen abhängt. Um möglichst viele zu finden, muss nur die Empfindlichkeit des Algorithmus entsprechend geregelt werden, was zu vielen unnötigen sogenannte "false positives", also fälschlicherweise als Dublette identifizierten Datensätzen führen kann (Overkill).

Die hohe Kunst besteht darin, ein Kosten-Nutzen-Optimum zu finden. Ziel ist es, ein ökonomisches Gleichgewicht zwischen der Zahl der gefundenen, aber falschen Dubletten (Overkill) und der Zahl der nicht gefundenen, aber echten (Underkill) zu erreichen. Dieses Optimum sollte man im Rahmen eines Beratungsgesprächs mit dem Lösungsanbieter definieren und wichtige Rahmenparameter festgelegen.

Folgende Fragen sollten sich Unternehmen im Vorfeld stellen: Was ist das Ziel der Überprüfung und Bereinigung? Welche Probleme bestehen? Wie sind die spezifischen Vorgehensweisen bei Dateneingabe, Datenaufbereitung und Datenhaltung? Welche zusätzlichen Datenfelder könnten für eine bessere Identifizierung verwendet werden? Auf diese Weise kommen Unternehmen dem gewünschten Projekterfolg wesentlich näher als durch einen simplen Vergleich der Anzahl der gefundenen Fehler.

Fehlendes Know-how bei der Dubletten-Prüfung

Die Prüfung von Dubletten geht weit über den einfachen Vergleich zweier Datenfelder hinaus. Datenbanksuchanfragen finden häufig zu viele Treffer, oder es fehlen Ergebnisse aufgrund verschiedener Schreibweisen. Ein bekanntes Beispiel sind ähnliche Name: Wird Meier mit "ay", "ey", "ei" oder "ai" geschrieben?

Der phonetische "Soundex-Algorithmus" liefert einen Code für identisch klingende Namen. Im Fallbeispiel von Mayer, Meyer, Meier oder Maier zum Beispiel "M600", so dass ein Vergleich der Zeichenfolge möglich ist und eine Dublette entdeckt werden kann (sogenannte "Äquivalenzklassen"). Durch Differenzbildung der Werte zweier Zeichenfolgen wird die Qualität der Übereinstimmung bewertet und weitere Maßnahmen können folgen. Das Problem des Soundex-Algorithmus ist die sprachliche Abhängigkeit. Phonetische Fehler lassen sich zwar ermitteln, Tippfehler aber nicht. Bedingt durch die Sprachabhängigkeit ist Soundex im Zusammenhang mit Adressdaten daher eher ungeeignet.

COMPUTERWOCHE Events

Big Data 2012, 26./27. September 2012, Offenbach

Creating Value from Data

Mehr Daten – höhere Geschwindigkeit – bessere Qualität – erfolgreicheres Business

Hier anmelden!

Ein weiterer Algorithmus basiert auf der "Levenshtein-Distanz". Diese drückt aus, wie viele Operationen notwendig sind, um eine Zeichenfolge in eine andere zu überführen. Im Vergleich von Mayer zu Maier wäre dies eine einzige Operation, die Zeichenfolge ist also recht ähnlich. Die gefürchteten Zeichenvertauschungen, zum Beispiel Myaer statt Mayer, kann beispielsweise das Programm "AdressExpert" mit einer Fortentwicklung, dem "Damerau-Levenshtein-Algorithmus", aufspüren. Im Beispiel "Myaer" benötigt der einfache Levenshtein-Algorithmus zwei Operationen, mit dem Damerau-Levenshtein-Algorithmus ist nur eine einzige Operation notwendig. Das Tool berechnet mögliche Fehlersituationen, wie:

  • Einsetzen von einzelnen Zeichen (zum Beispiel: May[i]er)

  • Löschung von Zeichen (zum Beispiel: Ma[_]er)

  • Substitution einzelner Zeichen (zum Beispiel: Ma[y --> i]er)

  • Vertauschung von benachbarten Zeichen (zum Beispiel: Myaer) (Damerau-Levenshtein)

  • Vertauschungen von Worten und Zeichengruppen (Block-Edit-Distanz)

  • Gleichsetzen von Zeichen, Umlautexpansionen

  • Deakzentuierung und Ignorieren von Sonderzeichen

  • Lokale Zeichenalternativen in der Abfrage (H[ao]mburg)

Darauf aufbauend kann je nach spezieller Abfragesituation ein breites Spektrum an string-basierten Algorithmen zum Einsatz kommen:

  • Die erweiterte Levenshtein Edit-Distanz für Präfix-, Suffix-, Infix- Suche und zwar für beide Situationen, so dass die Abfrage Teil des gesuchten Eintrags ist.

  • Block-Edit-Distanz-Berechnung, bei der ganze Buchstabengruppen verschoben werden können.

  • Positionsgebundene Abgleiche zum Lesen von festen Formularfeldern.

Noch schwieriger wird es, die Dublette eines Datensatzes mit alter und neuer Adresse zu identifizieren - es könnten ja auch zwei verschiedene Personen sein. Bei AdressExpert werden zur Prüfung neben diesen sowie weiteren bekannten Algorithmen auch eigene Weiterentwicklungen und Know-how von Partnern, wie Exorbyte, auf mathematischer und statistischer Basis sowie Referenzdatenbanken eingesetzt.