Das Ende der Handarbeit

Mainframe-Tools suchen nach inkonsistenten Datenbestaenden

26.01.1996

Das Problem inkonsistenter oder einfach unbrauchbarer Daten ist alles andere als neu. An Aktualitaet gewinnt das Thema nun jedoch durch Client-Server-Techniken und Data-Warehouse-Plaene. In beiden Faellen wird zunehmend von Fremdsystemen auf Mainframe-Daten zugegriffen, um zum Beispiel aufgrund historischer Informationen Management-Entscheidungen zu unterstuetzen. Um so wichtiger ist es, dass die selektierten Daten auch tatsaechlich brauchbar sind.

Zu den haeufigsten Problemen zaehlt, dass Kunden mehrfach unter verschiedenen Namensschreibweisen oder Wohnorten gefuehrt werden. Solche Fehler werden von den in Datenbanken eingebauten Integritaets-Pruefungen meist nicht erfasst.

Hier sollen Werkzeuge greifen, die, wie es im Englischen heisst, die Datenbank "schrubben" (Data-Scrubbing). Der Funktionsumfang der angebotenen Werkzeuge reicht von der blossen Auflistung von problematischen Dateinamen und Adressen bis zur automatischen Beseitigung von Inkonsistenzen (vgl. Kasten).

Grundsaetzlich lassen sich zwei Tool-Kategorien unterscheiden, wovon die einen sich lediglich auf die Ueberpruefung von Namens- und Adressdubletten beschraenken, waehrend die anderen die gesamte Datenbank saeubern sollen. Die Einstiegspreise fuer Werkzeuge der zweiten Kategorie liegen zwischen 18000 und 250000 Dollar. Ein Aufwand, der sich nach Ansicht von Analysten und Anwendern durchaus lohnt.

So berichtet John Murphy, Datenadministrator der J.M. Huber Corp., Edison, New Jersey, dass "Integrity Data Re-Engineering" von Validy 17 Abrechnungsnummern fuer einen Kunden zutage foerderte, dessen Name zudem in acht Varianten geschrieben war. Nach der Bearbeitung mit dem Tool hatte die Datenbank, die als Quelle fuer das interne Data Warehouse dient, schlagartig 36 Prozent weniger Kunden.

Doch mit der Beseitigung von Dubletten ist es oft nicht getan. So ist die Telefongesellschaft US West, Denver, Colorado, seit 1991 dabei, die Millionen von Datensaetzen der verschiedenen Tochterorganisationen des Telekom-Riesen Bell, der sogenannten Baby Bells, zu konsolidieren. Hierbei geht es um die umfassende Synchronisation der Informationen in verschiedenen Datenbanken. Der dort in einer stark angepassten Version eingesetzte "Enterprise Integrator" von Apertus wird vor allem als kostensenkendes Werkzeug geschaetzt.

Werkzeuge zur Datenbereinigung

Postalsoft Inc., La Crosse, Wisconsin: "Adress Correction and Encoding Library", "True Name Library", "Merge/Purge Library"

Gladstone Computer Services, Morgan Hill, Kalifornien: "Data Quality Administrator"

Platinum Technology Inc., Oakbrook Terrace, Illinois: "Info Refiner"

Validy Technology Inc., Boston, Massachusetts: "Integrity Data Re- Engineering"

Group 1 Software Inc., Landham, Maryland: "Nadis"

QDB Solutions Inc., Cambridge, Massachusetts: "QDB Analyze"

SAS Institute GmbH, Heidelberg: "SAS System for Data Warehousing"

Hard-Hanks Data Technologies, Bilerica, Massachusetts: "Trillium Software System"