Wie man bessere Stammdaten bekommt

08.06.2005
Von Arnd Oerter

Nachdem die künftigen Pflegeprozesse und das Datenkonzept eindeutig beschrieben sind, sollte der Anwender sich an die eigentliche Datenbereinigung machen. In den meisten Fällen ist die Datenanalyse zur Konsolidierung der Datensätze im Rahmen eines Stammdatenprojektes noch reine Handarbeit. Es gibt jedoch zahlreiche spezialisierte Tools für das Datenqualitäts-Management, mit denen sich die Datenanalyse unterstützen lässt. Speziell in der Dublettenanalyse, dass heißt dem Auffinden identischer Datensätze, bieten solche Werkzeuge mit ihren komplexen Suchalgorithmen eine gute Hilfe. So haben sie insbesondere beim Vergleich von Partnerstammdaten (Kunden und Lieferantenstämme) ihre Stärke und ermöglichen es, Daten auch im Vergleich mit externen Datenbeständen zu prüfen, zum Beispiel zur Validierung von Adressen oder Bankdaten.

Vor der Datenanalyse mit externen Tools sind zunächst die Felder zu definieren, die bei der Auswertung berücksichtigt werden sollen. Diese ausgewählten Felder lassen sich dann mit Normalisierungsregeln entsprechend überarbeiten. Dabei werden beispielsweise Klein- in Großbuchstaben umgewandelt, Umlaute ersetzt und Sonderzeichen erfasst. Um Partnerstammdaten zu prüfen, werden viele dieser Normalisierungsregeln schon standardmäßig in den Produkten ausgeliefert. Sie lassen sich aber auch um eigene Regeln erweitern. Geht es hingegen um Materialstammdaten, müssen die notwendigen Regeln meist kundenspezifisch überarbeitet und ergänzt werden. Nach der Überarbeitung mit Normierungsregeln werden die Felder dann im nächsten Schritt gemäß ihrer Bedeutung für die Auswertung gewichtet.

Die Datenanalyse-Tools ermitteln im Weiteren abhängig von diesen Gewichtungsfaktoren einen prozentualen Wert für die Gleichheit einzelner Datensätze. Der Anwender kann dabei die Ober- und Untergrenzen selber bestimmen, also ab welchem Schwellwert ein Datensatz als sichere Dublette gilt oder bis zu welchem Schwellwert ein Datensatz mit Sicherheit ein Unikat darstellt. Die Ergebnisse werden automatisch in verschiedenen Datentöpfen zusammengefasst, je nachdem, ob die definierten Schwellwerte über- oder unterschritten wurden. So gibt es eine Datei für die sicheren Dubletten, eine für die potenziellen Dubletten und einen Datensatz für die sicheren Unikate. Die einzelnen Ergebnisdateien können anschließend manuell nachbearbeitet werden, um die Ergebnisse des Analyse-Tools zu überprüfen.

Datenqualität muss ständig überwacht werden