Business Intelligence/Hochwertige Datenbestände managen

Am Anfang steht die Datenqualität

02.11.2001
Der Produktionsfaktor Information lässt sich nur dann erfolgreich nutzen, wenn eine hohe Datenqualität gegeben ist - gleiches gilt für die Akzeptanz entscheidungsorientierter Informationssysteme im Sinne von Data Warehouse und Business Intelligence (BI). Die Einführung und Nutzung von Tools zum Aufbau und zur Sicherstellung hochwertiger Datenbestände stellen sich zunächst allerdings als undankbare Aufgaben dar. Entsprechend schwer tun sich Unternehmen mit der Umsetzung derartiger Projekte. Von Carsten Bange und Heiko Schinzer*

Mit der zunehmenden internen und externen Vernetzung unterschiedlicher Informationssysteme rückt die Frage nach der syntaktischen und semantischen Korrektheit der Datenbasis immer weiter in den Vordergrund. Damit fällt häufig der Startschuss für eine Qualitätsoffensive im Daten-Management.

Grundsätzlich spielt die Datenqualität bei allen Applikationen eine wichtige Rolle. Besonders deutlich wird ihr Stellenwert beim Aufbau von Data-Warehouse- beziehungsweise Data-Mart-Lösungen. Untersuchungen haben ergeben, dass fünf bis 20 Prozent aller gespeicherten Daten in Unternehmen fehlerhaft oder nicht zu nutzen sind. Konkreter wird diese Zahl, wenn man sich vor Augen führt, dass eine Textseite mit einem Fehleranteil von fünf Prozent mehr als 100 Tippfehler enthalten würde.

Hinzu kommt, dass mangelhafte Datenbestände enorme Kosten verursachen. Allein in den USA werden diese auf zwei bis vier Milliarden Dollar jährlich geschätzt. Dabei lassen sich die Folgekosten, die durch Entscheidungen auf Basis fehlerhafter Daten entstehen, noch nicht einmal beziffern. Nach einer Untersuchung der Meta Group findet dieser Kostenfaktor in den Firmen bislang allerdings nur wenig Beachtung.

Bei gut 75 Prozent aller Unternehmen herrschen diesbezüglich enorme Defizite, die sich vor allem mit der geringen Attraktivität der Aufgabenstellung sowie dem schwierigen Erfolgsnachweis erklären lassen.

ProblemfelderUm einen qualitativ hochwertigen Datenbestand zu schaffen, gilt es, die Problemfelder Datendefinition, -inhalt, -verarbeitung und -präsentation in den Griff zu bekommen.

Datendefinitionen beschreiben Struktur und Inhalt von Daten. Dabei handelt es sich um Metadaten, die Informationen über gespeicherte Daten aus technischer und aus fachlicher Sicht liefern. Nur anhand hochwertiger Metadaten lässt sich Hintergrundwissen über das vorhandene Datenmaterial speichern und weitergeben. Zu den Qualitätsmängeln bei technischen Datendefinitionen zählen in erster Linie falsche Datentypen, Feldlängen oder falsche Verknüpfungen zwischen Daten. Auf fachlicher Ebene interessiert vor allem die inhaltliche Richtigkeit von Berechnungsformeln oder die Abbildung der Geschäftslogik. Eine Änderung der Geschäftsprozesse muss möglich sein, ohne die zugrunde liegenden Daten und Datenmodelle gravierend zu modifizieren.

Enorme Kosten durch DatenfehlerEin Beispiel für mangelhafte Datenqualität in dieser Phase: Am 4. Juni 1996 explodierte die erste Rakete vom Typ Ariane 5 nur 40 Sekunden nach dem Start. Der Grund: Aufgrund einer falschen Datendefinition hatte die Steuerungssoftware versucht, die horizontale Geschwindigkeit der Rakete als 64-Bit-Fließkommazahl in einem 16-Bit-Integer-Feld zu speichern. Da die Messgröße über der Zahl "32.768" lag, konnte das Datenfeld diese nicht aufnehmen und erzeugte einen Datentypfehler. Durch dieses kleine Defizit in der Qualität der Datendefinition geriet die für rund sieben Milliarden Dollar entwickelte Rakete außer Kontrolle und zerstörte Material sowie Ladung im Wert von 500 Millionen Dollar.

Die Richtigkeit des Dateninhalts ist ebenfalls entscheidend für alle datenverarbeitenden Prozesse. So müssen Zahlen, Namen und Adressen stimmen, um beispielsweise Fehlbuchungen oder Rücksendungen und daraus resultierende Kosten zu vermeiden. Neben dem korrekten Dateninhalt ist dessen einheitliche Repräsentation von Bedeutung. So lässt sich etwa der Fimenname IBM auch als I.B.M., IBM Corp., International Business Machines oder Int. Bus. Machines darstellen. Eine solche unterschiedliche Repräsentation des gleichen Objekts erschwert die Zusammenführung von Informationen aus verschiedenen Datenbanken erheblich. Doch gerade durch die Vernetzung von Information und das Herstellen von Bezügen lassen sich interessante Informationen gewinnen.

Typische Probleme in Adressbeständen sind Duplikate (Joachim Müller, Kanalstraße 12; Jo Müller, Kanal Str. 12) und falsche Referenzen wie Postleitzahlen (Jo Müller, Kanalstr. 12, 8900 Würzburg), die zu erheblichen Kosten durch Doppel- oder Fehlsendungen führen.

Alle Prozesse, die Daten erzeugen, bewegen oder verändern, müssen einer Qualitätsprüfung unterzogen werden. Dies gilt insbesondere bei CRM- und ERP-Systemen für die manuelle Erfassung von Daten und in Data-Warehouse-Systemen für die Ladeprozesse aus internen und externen Quellen. Vor dem Einspielen in die Data-Warehouse-Datenbank werden in der Regel Transformationsprozesse für die Harmonisierung, Verdichtung und Anreicherung der Daten durchgeführt. Die Qualität dieser Prozesse hat einen direkten Einfluss auf Informationsgehalt, Richtigkeit und Verständlichkeit der im BI-System zur Verfügung stehenden Informationen.

DatenpräsentationSelbst korrekt beschriebene, präsentierte und auch inhaltlich einwandfreie Daten sind nutzlos, wenn sie sich nicht auslesen lassen, die Darstellung zu lange dauert oder die Ausgabe nur schwer zu interpretieren ist. Zur Datenqualität gehört daher auch, dass der Empfänger der Daten diese in angemessener Zeit und in für seine Aufgabe verständlicher und brauchbarer Form erhält.

In den meisten Organisationen existieren bereits große Datenbestände, die für bestehende Systeme und neue Anwendungen wie CRM-Lösungen oder Data Warehouses herangezogen werden. Die Verbesserung der Datenqualität ist für die Effizienz und Akzeptanz solcher Systeme entscheidend. Um das Problem an der Wurzel zu packen, sollte eine Bereinigung des Datenmaterials möglichst direkt in den Beständen derjenigen Systeme erfolgen, in denen die Daten anfallen. Aufgrund des breiten Problemspektrums lässt sich die Optimierung der Datenbasis nur über die gleichzeitige Betrachtung der Qualität aller datenspeichernden, -verändernden und -lesenden Prozesse erzielen.

Zur Ermittlung der bestehenden Datenqualität (Data Quality Audit) ist es notwendig, relevante Datenbestände und ihre Metadaten zu identifizieren sowie typische Inhalte, Kodierungen und Problemfelder zu analysieren. Eine aktive Datenqualitätssicherung beginnt allerdings bereits bei der Entstehung von Daten wie der manuellen Eingabe. Wichtigstes Hilfsmittel hierfür ist eine Datenvalidierung durch zuvor hinterlegte Geschäfts- und Plausibilitätsregeln, die Falscheingaben erkennen und eine Speicherung verhindern.

Methoden zur QualitätsverbesserungQualitätsverbesserungen lassen sich über eine Vielzahl von Mechanismen erzielen. So helfen beispielsweise Auswahllisten anstelle einer freien Eingabe, Schreibfehler zu vermeiden, während vorgegebene Standardwerte beziehungsweise erzwungene Eingaben verhindern, dass leere Felder entstehen. Ähnlichkeitsprüfungen wiederum wirken Doppeleingaben entgegen. Sofern Daten im Unternehmen erzeugt werden, ist es ratsam, die Mitarbeiter im Rahmen einer Schulung in die korrekte Art der Eingabe einzuweisen. Viele Datenfehler lassen sich nicht maschinell auffinden und korrigieren, sondern erfordern nach wie vor manuelles Ausbessern. Im Idealfall werden sie daher bereits bei ihrer Entstehung vermieden.

Bevor inhaltliche Verbesserungen der Daten in Angriff genommen werden können, sind einzelne Datenelemente zu strukturieren und zu standardisieren. Zunächst gilt es, atomare Elemente zu identifizieren, um eine eindeutige Zuordnung von Daten zu Datenfeldern zu gewährleisten. So muss etwa bei Namenseinträgen wie "Prof. Dr. Rainer-Maria Graf v. Hohenfels" eine eindeutige Identifikation von Vor- und Nachname, akademischem Grad, Adelsprädikat oder Präfix gewährleistet sein. Neben solchen Attributinhalten und zulässigen Wertmengen sind auch die Entitäten, die abzubildenden Objekttypen und die relevanten Geschäftsregeln zu standardisieren.

Die Validierung wird vorgenommen, um fehlende und falsche Daten direkt bei der Eingabe oder in vorhandenen Datenbeständen zu erkennen. Zum Einsatz kommen in erster Linie Verfahren der Plausibilitätsprüfung, statistische Verfahren sowie eine Datenmustererkennung durch Data-Mining-Algorithmen.

Bei einer Plausibilitätsprüfung können vor allem Wertebereiche, Datentypen und - über Referenztabellen - Bezüge zwischen Daten überprüft werden. Die Plausibilität muss durch feste Rahmendaten (etwa: sinnvolle Eingaben liegen zwischen 1 und 100), Mechanismen wie eine Prüfziffer oder logische Regeln vorgegeben werden.

PlausibilitätsprüfungEin Beispiel: Ist die Nationalität deutsch, der Vorname in der Namenstabelle weiblich und deutsch, und dann folgt die Ansprache "Sehr geehrte Frau ...". Referenztabellen müssen entweder selbst erstellt werden oder lassen sich - für Standarddaten - von externen Quellen beziehen (Beispiele: die Postleitzahlentabelle der Deutschen Post, das Wörterbuch der deutschen Sprache, Namenstabellen). Über den Einsatz von Thesaurus oder eines ähnlichen Programms werden Synonyme erkannt, und bei auftretenden Homonymen helfen phonologische Regeln. Grundlage der Plausibilitätsprüfung ist demnach ein fester Bezugsrahmen an Regeln.

Anders gehen statistische Verfahren zur Fehlersuche sowie Data-Mining-Algorithmen vor. Beide werden bei der Validierung insbe-sondere zur Beschreibung des Datenbestands und zur Identifikation von Ausnahmewerten eingesetzt. Statistische Verfahren können in einzelnen Datenfeldern Maximal- und Minimalwerte, aber auch seltene oder ungewöhnliche Werte über Häufigkeitsverteilungen identifizieren. Data-Mining-Algorithmen, die neben statistischen Verfahren auch auf Methoden der "Künstlichen Intelligenz" und des "Maschinellen Lernens" (wie Neuronale Netzen und Entscheidungsbäume) beruhen, dienen insbesondere der automatischen Extraktion von Regeln wie dem Auffinden von Assoziationen zwischen Datenelementen. Die Regel "Wenn im Feld A der Wert x auftritt, tritt zu 99 Prozent in Feld B der Wert y auf" lässt vermuten, dass dieses eine Prozent der Datensätze, für das diese Regel nicht gilt, keine exotischen Daten, sondern schlicht Datenmüll enthält.

Bereinigung (Cleansing)Nachdem falsche oder fehlende Datensätze identifiziert wurden, geht es an die Reinigung des Datenbestands. Diese kann softwaregestützt, häufig aber auch nur manuell erfolgen. In vielen Mischfällen identifiziert eine Datenqualitätssoftware vermutete Datenfehler und schlägt eventuell auch den Eintrag des korrekten Werts vor, während die letzte Entscheidung dann beim menschlichen Bearbeiter liegt, der Sachverstand und Urteilsvermögen einbringt. Bei der Bereinigung ist zwischen Stammdaten - insbesondere Namens- und Adressdaten - und Bewegungsdaten wie Transaktionsdetails zu unterscheiden. Stammdaten enthalten Werte, die sich relativ selten verändern. Gerade in Data-Warehouse-Anwendungen ist allerdings ein Bezug zwischen Stammdaten und ihrer Gültigkeit wichtig. Die Historisierung der Datenstrukturen ermöglicht es festzustellen, zu welchem Zeitpunkt welche Daten gültig sind. Fehler in Bewegungsdaten sind deutlich schwerer zu finden und lassen sich häufig auch nicht maschinell beseitigen.

Zu den einfachsten Verfahren der Datenreinigung gehören das Suchen und automatische Ersetzen von Zeichenkombinationen sowie das Filtern von Datenfeldern. Grundlage hierfür sind die für die Validierung herangezogenen Regeln, die teilweise eine automatische Bereinigung der Daten zulassen oder eine Liste unsauberer Datensätze produzieren, die dann manuell korrigiert werden können.

AktualisierungZur Aktualisierung von Adressdaten liefern Dienstleister wie die Deutsche Post, oder Pan Adress beispielsweise Umzugsdaten in Adress- und Telefonverzeichnissen oder speziellen Umzugsdatenbanken. Allerdings können die Lizenzkosten für solche Referenzdaten den finanziellen Aufwand für Datenqualitätssoftware leicht übersteigen.

Sowohl bei der Entstehung von Daten als auch in existierenden Datenbeständen müssen Dubletten identifiziert und beseitigt werden. Wichtig ist dies insbesondere für die Qualität von Adressdaten, die es - beispielsweise bei der Migration eines Kundendatenbestands in ein neues CRM- oder ERP-System - von eventuellen "Altlasten" zu befreien gilt. Dadurch lässt sich die Effizienz insbesondere von Marketing-Prozessen, etwa der Kundenansprache über Database-Marketing, steigern.

Um Dubletten maschinell aufspüren zu können, muss zunächst der Grad der Übereinstimmung zwischen zwei Datensätzen bestimmt werden. Zum Einsatz kommen hierbei fehlertolerante und regelunterstützte Methoden. Für ein möglichst gutes Verhältnis zwischen nicht erkannten Dubletten ("Underkills") und fälschlicherweise zugeordneten Dubletten ("Overkills") muss sich der Toleranzgrad anwendungsspezifisch parametrisieren lassen. Bei hoher Übereinstimmung sind Datenqualitätsprogramme in der Lage, die Sätze automatisch zu verknüpfen oder dem Anwender gefundene Datensätze zur Genehmigung anzuzeigen. Vor einer Zusammenführung ist jedoch auf abhängige Datensätze zu achten. Kundenkonten mit offenen Salden sollten nicht gelöscht werden.

Eine DaueraufgabeQualität kann man nur produzieren, nicht kontrollieren - so lautet die Devise vieler Hersteller seit der Einführung von Total-Quality-Management-Systemen. Dies gilt in besonderem Maße auch für die Unternehmensdaten: Je später Qualitätsprobleme entdeckt werden, desto aufwändiger ist deren Korrektur. Und die Datenqualität wird immer wieder aufs Neue strapaziert, etwa durch die Integration zusätzlicher Informationsquellen sowie die Eingabe weiterer Daten. Das Management der Datenqualität bleibt demnach ein kontinuierlicher Prozess, dem sich kein Unternehmen entziehen kann.

*Carsten Bange ist Geschäftsführer des Business Application Research Center,

Dr. Heiko Schinzer ist Vorstand der Administration Intelligence AG in Würzburg.

Abb.1: Einflussfaktoren auf die Datenqualität

Quelle: Bange/Schinzer

Abb.2: Pflege des Dateninhalts

Quelle: Bange/Schinzer