Adress-Datenqualität

Richtige Kontaktdaten - zufriedene Kunden

25.07.2012 von Rainer Neumann

Adressdaten sind für Unternehmen der Goldstandard unter den Unternehmensressourcen – allerdings haben sie nicht immer die gewünschte Qualität. So schaffen Sie Abhilfe.

Die Pflege der Adress-Datenbanken spart Kosten und verhindert, dass Kunden unzufrieden sind.
Foto: fotolia.com/SVLuma

Unternehmen, die auf Adress-Datenqualität achten, sind häufig erfolgreicher. Sie steigern nicht nur die Kundenzufriedenheit, sondern sparen Kosten und erhöhen ihre Wettbewerbsfähigkeit. Die Qualität der Kontaktdaten ist ein kritischer Erfolgsfaktor und maßgebender Umsatzhebel für den Vertrieb. Die Anforderungen an eine qualifizierte Kundenbetreuung haben sich durch technischen Fortschritt, Internet und Social Media in den letzten Jahren gewandelt und verändern sich durch die Reform des EU-Datenschutzrechts noch einmal. Es besteht also Handlungsbedarf, um die Datenqualität zu sichern und damit Vertrauen sowie Zufriedenheit der Kunden zu erhalten.

Fünf Gründe lassen sich für die mangelhafte Qualität bei Adressdaten festhalten:

Falsche Kriterien bei der Wahl der Lösung oder des Dienstleisters
Mangelndes Wissen über die Technik der Dubletten-Prüfung
Verunsicherung und fehlende Rechtssicherheit
Zu geringes Risikobewusstsein und geringes Budget
Adressen gelten nicht als dynamische Unternehmensressource

Dienstleister richtig auswählen

Einige Unternehmen begehen den Fehler, pauschal eine Stichprobe aus den Adressdatensätzen zur Dubletten-Prüfung an mehrere Anbieter zu liefern. Das Resultat ist, dass der Anbieter mit den meisten gefundenen Fehlern engagiert wird. Dabei ist ihnen nicht bewusst, dass die Überprüfung eine komplexe Angelegenheit ist, deren Ergebnis von den individuellen Projektanforderungen abhängt. Um möglichst viele zu finden, muss nur die Empfindlichkeit des Algorithmus entsprechend geregelt werden, was zu vielen unnötigen sogenannte "false positives", also fälschlicherweise als Dublette identifizierten Datensätzen führen kann (Overkill).

Die hohe Kunst besteht darin, ein Kosten-Nutzen-Optimum zu finden. Ziel ist es, ein ökonomisches Gleichgewicht zwischen der Zahl der gefundenen, aber falschen Dubletten (Overkill) und der Zahl der nicht gefundenen, aber echten (Underkill) zu erreichen. Dieses Optimum sollte man im Rahmen eines Beratungsgesprächs mit dem Lösungsanbieter definieren und wichtige Rahmenparameter festgelegen.

Folgende Fragen sollten sich Unternehmen im Vorfeld stellen: Was ist das Ziel der Überprüfung und Bereinigung? Welche Probleme bestehen? Wie sind die spezifischen Vorgehensweisen bei Dateneingabe, Datenaufbereitung und Datenhaltung? Welche zusätzlichen Datenfelder könnten für eine bessere Identifizierung verwendet werden? Auf diese Weise kommen Unternehmen dem gewünschten Projekterfolg wesentlich näher als durch einen simplen Vergleich der Anzahl der gefundenen Fehler.

Fehlendes Know-how bei der Dubletten-Prüfung

Die Prüfung von Dubletten geht weit über den einfachen Vergleich zweier Datenfelder hinaus. Datenbanksuchanfragen finden häufig zu viele Treffer, oder es fehlen Ergebnisse aufgrund verschiedener Schreibweisen. Ein bekanntes Beispiel sind ähnliche Name: Wird Meier mit "ay", "ey", "ei" oder "ai" geschrieben?

Der phonetische "Soundex-Algorithmus" liefert einen Code für identisch klingende Namen. Im Fallbeispiel von Mayer, Meyer, Meier oder Maier zum Beispiel "M600", so dass ein Vergleich der Zeichenfolge möglich ist und eine Dublette entdeckt werden kann (sogenannte "Äquivalenzklassen"). Durch Differenzbildung der Werte zweier Zeichenfolgen wird die Qualität der Übereinstimmung bewertet und weitere Maßnahmen können folgen. Das Problem des Soundex-Algorithmus ist die sprachliche Abhängigkeit. Phonetische Fehler lassen sich zwar ermitteln, Tippfehler aber nicht. Bedingt durch die Sprachabhängigkeit ist Soundex im Zusammenhang mit Adressdaten daher eher ungeeignet.

COMPUTERWOCHE Events

Big Data 2012, 26./27. September 2012, Offenbach

Creating Value from Data

Mehr Daten – höhere Geschwindigkeit – bessere Qualität – erfolgreicheres Business

Hier anmelden!

Ein weiterer Algorithmus basiert auf der "Levenshtein-Distanz". Diese drückt aus, wie viele Operationen notwendig sind, um eine Zeichenfolge in eine andere zu überführen. Im Vergleich von Mayer zu Maier wäre dies eine einzige Operation, die Zeichenfolge ist also recht ähnlich. Die gefürchteten Zeichenvertauschungen, zum Beispiel Myaer statt Mayer, kann beispielsweise das Programm "AdressExpert" mit einer Fortentwicklung, dem "Damerau-Levenshtein-Algorithmus", aufspüren. Im Beispiel "Myaer" benötigt der einfache Levenshtein-Algorithmus zwei Operationen, mit dem Damerau-Levenshtein-Algorithmus ist nur eine einzige Operation notwendig. Das Tool berechnet mögliche Fehlersituationen, wie:

Einsetzen von einzelnen Zeichen (zum Beispiel: May[i]er)
Löschung von Zeichen (zum Beispiel: Ma[_]er)
Substitution einzelner Zeichen (zum Beispiel: Ma[y --> i]er)
Vertauschung von benachbarten Zeichen (zum Beispiel: Myaer) (Damerau-Levenshtein)
Vertauschungen von Worten und Zeichengruppen (Block-Edit-Distanz)
Gleichsetzen von Zeichen, Umlautexpansionen
Deakzentuierung und Ignorieren von Sonderzeichen
Lokale Zeichenalternativen in der Abfrage (H[ao]mburg)

Darauf aufbauend kann je nach spezieller Abfragesituation ein breites Spektrum an string-basierten Algorithmen zum Einsatz kommen:

Die erweiterte Levenshtein Edit-Distanz für Präfix-, Suffix-, Infix- Suche und zwar für beide Situationen, so dass die Abfrage Teil des gesuchten Eintrags ist.
Block-Edit-Distanz-Berechnung, bei der ganze Buchstabengruppen verschoben werden können.
Positionsgebundene Abgleiche zum Lesen von festen Formularfeldern.

Noch schwieriger wird es, die Dublette eines Datensatzes mit alter und neuer Adresse zu identifizieren - es könnten ja auch zwei verschiedene Personen sein. Bei AdressExpert werden zur Prüfung neben diesen sowie weiteren bekannten Algorithmen auch eigene Weiterentwicklungen und Know-how von Partnern, wie Exorbyte, auf mathematischer und statistischer Basis sowie Referenzdatenbanken eingesetzt.

Verunsicherung durch fehlende Rechtssicherheit

Datenschutzbestimmungen verschärfen sich im Zuge von Social Media und Cloud Computing. Aber nur selten achten Anwender darauf, von Anfang an nicht nur alle bestehenden Regeln zu berücksichtigen, sondern auch auf künftige Änderungen vorbereitet zu sein. Erst im Januar 2012 wurde der Entwurf für die aktualisierte EU-Datenschutzverordnung vorgestellt, die die Harmonisierung des europäischen Datenschutzrechts erreichen soll. So soll es beispielsweise ein "Recht auf Vergessenwerden" geben und das Einwilligungsprinzip wird ausgeweitet. Dennoch besteht kein Grund, Projekte zur Datenqualität im vorauseilenden Gehorsam zurückzustellen.

Datenqualität

Datenqualität
CW-Umfrage Datenqualität

Mangelhafte Adress-Datenqualität und Dubletten bergen enorme verdeckte Risiken für den Unternehmenserfolg. Es geht um wesentlich mehr als nur die Mehrfachzusendung von Katalogen und das doppelte Porto. Zu den Risiken und versteckten Kostentreibern gehören:

1. in der IT-Abteilung

Mehraufwand für nicht automatisierbare Datenpflege.
Mehraufwand für Ausnahmebehandlung beim Programmieren.
Verschwendung von Speicherplatz und Rechenleistung.
Systemgeschwindigkeit bei Suchen, Abfragen und Analysen verlangsamen sich.

2. in Marketing und Vertrieb

Überschreiten des Kreditlimits.
Betrugsversuche.
Falsche Kundenanalysen und Statistiken, Gesamtumsatz des Kunden nicht bekannt.
Eingeschränkte Vermarktungspotenziale, kein erfolgversprechendes "cross-selling" möglich.
Einhaltung rechtlicher Vorgaben, zum Beispiel der "Robinsonliste" .
Schlechte Kennzahlen und daraus resultierende falsche Rückschlüsse und Fehlplanungen.
Vertrauen in die Daten schwindet.
Auswirkung auf die Mitarbeiterzufriedenheit.

3. beim Kunden

Sinkende Kundenzufriedenheit.
Imageverlust durch falsche Anrede, mehrfache Zusendungen.

Mangelndes Verständnis

Häufig fehlt in den Unternehmen das Bewusstsein, wo und warum Dubletten immer wieder entstehen. Oft ist es nicht möglich, ein einmal erreichtes Qualitätsniveau ohne weitere Anstrengung zu halten. Am besten ist es daher, wenn Probleme gar nicht erst entstehen. Aber selbst diesem Ideal kann man sich nur annähern, denn wir haben es bei Adressen mit Menschen zu tun, die sich nicht vollständig berechnen lassen. Doch nicht nur Lebensereignisse wie Umzug, Hochzeit oder Tod beeinflussen die Datenqualität. Aus einer Vielzahl an Quellen strömen heutzutage Adressdaten in ein Unternehmen hinein: etwa aus Marketing-Aktionen und Bestellungen per Internet, aus Datenankauf, aus der Übernahme oder Fusion von Unternehmen oder Unternehmenssparten.

COMPUTERWOCHE Marktstudien zum Thema ECM

Gründe für Fehleingaben sind Unwissenheit oder Zeitdruck des Kunden-Managers, Betrugsversuche oder falsch verstandener persönlicher Datenschutz, da immer mehr Daten von den Kunden online eingegeben werden. Daher sollte die Prüfung der Datenqualität von Adressen bereits bei der Erfassung sowie beim Kundenkontakt erfolgen. Über den Web-Service von "Das Telefonbuch" kann man etwa seine Datenbank mit regelmäßig aktualisierten Kontaktdaten vergleichen und Fehler schon vor dem Kundenkontakt eliminieren. Den Firmen muss klar sein, dass nur ein strukturierter Prozess für die konsequente Qualitätssteigerung sowie ein Adressdaten-Qualitätskreislauf mit ständiger iterativer Verbesserung, die Probleme löst. (tw)