Daten managen

So halten Sie Ihre Kundendaten sauber

26.04.2012
Von Jochen Bühler

Suchtechnologie und Deduplizierung

Firmenadressen zu suchen und von Dubletten zu bereinigen ist ungleich komplexer als bei Personenadressen. Mathematische, phonologische und statistische Vergleichsverfahren reichen nur bedingt aus, um korrekte Daten zu gewinnen. Neben dem Einsatz herkömmlicher Algorithmen kann eine konsistente Dekomposition und Interpretation der Firmenbezeichnungen für eine hohe Treffsicherheit sorgen und die automatische Verarbeitung vereinfachen.

Morphologische Analysen und Interpretationen ermöglichen, dass unterschiedliche Schreibweisen von Namen und Bezeichnungen auf eine linguistische Grundform reduziert werden und somit als inhaltlich identisch erkannt werden können. Durch die linguistische Interpretation und unterschiedliche Gewichtung einzelner Namensbestandteile wie etwa Rechtsformen oder Vor- und Nachnamen können geeignete Matching- und Bewertungsmodelle entwickelt werden, die in höheren Trefferquoten resultieren, als dies mit herkömmlichen Verfahren möglich ist.

Je nach Datenqualität und Unternehmenstyp (Handelsregister-/Nicht-Handelsregisterunternehmen) werden unterschiedliche Verfahrensarten gewählt: Während bei natürlichen Personen eine rein technische Duplizierung oft ausreicht, wird bei Unternehmen idealerweise eine fachliche Strukturierung der Datensätze als Vorverarbeitungsschritt zwischengeschaltet.

Hier werden inkonsistente, unstrukturierte und falsch platzierte Informationen erkannt und nach bestimmten Mustern aufgeteilt. So sind häufig im Firmierungsfeld auch Informationen wie Abteilung oder Ansprechpartner hinterlegt. Bei Handelsregister-Unternehmen werden die Daten auch fachlich geprüft. Dadurch können Dubletten erkannt werden, die sich durch Sitzverlegungen, Umfirmierungen oder veraltete Handelsregisternummern ergeben haben.