Data-Warehouse-Technologie im Umbruch

Metadatenzentrierte Lösungen erobern den Markt

24.03.2000
MÜNCHEN (CW) - Beim Aufbau und der Verwaltung von Data Warehouses vollzieht sich gegenwärtig ein dramatischer Wandel. Durch metadatengesteuerte Transformations-Tools für Entwurf und laufenden Betrieb lassen sich jetzt Informationsprojekte realisieren, die bislang an ihrer Komplexität scheiterten. Rainer Volck* beschreibt den Trend.

Jedes Data-Warehouse-Projekt steht vor der Herkulesaufgabe, Daten aus verschiedenen Quellen innerhalb und außerhalb der Organisation zu einer konsistenten Datenbasis zusammenzuführen. Große Probleme bereitet es dabei, dass die gewünschten Daten in ihren Strukturen nicht übereinstimmen und eine unterschiedliche, fast immer verbesserungsbedürftige Qualität aufweisen. So treten beim Zusammenführen unterschiedlicher Quellen und der Modellierung des Warehouse Unklarheiten, Mängel und Versäumnisse an den Tag wie etwa unterschiedliche Buchhaltungsfunktionen (Nummernkreise) in verschiedenen Einheiten der Organisation, eine nie vollzogene Harmonisierung der Berichtswege oder nie beseitigte historische Brüche in der Berichterstattung. Hinzu kommen der laufende Wandel in der Organisation und IT-Infrastruktur sowie neue Anwenderwünsche, die zu ständigen Aktualisierungen das Data Warehouse zwingen. Bisher erfolgten diese Änderungen manuell, was jedoch zu lange dauerte, um die geforderte Aktualität und damit die Akzeptanz der Anwender zu erzielen. Kein Wunder also, dass bis heute viele Data-Warehouse-Projekte an der Komplexität der beschriebenen Aufgabe scheitern.

Aus dieser Situation heraus begann vor etwas mehr zwei Jahren der Siegeszug einer neuen Generation von Data-Warehouse-Tools für die Extraktion, Transformation und das Laden (ETL) von Daten: Metadatengetriebene Transformationsmaschinen mit grafischen Entwurfswerkzeugen (siehe Kasten "Auswahlkriterien"). Metadaten beschreiben dabei Geschäftsregeln und Berichtswege. Da Spezifikation, Implementierung und Dokumentation in einem Arbeitsgang zusammenfallen, können dank der Tools neue Erkenntnisse und Änderungen in der Umgebung unmittelbar eingearbeitet werden. Wochen- oder gar monatelanges Zurückziehen ins Entwicklerstübchen entfällt. Die Erfahrung, dass sich gegenüber dem bisherigen Vorgehen mindestens 50 Prozent des Entwicklungsaufwandes und damit auch der Zeit bis zum Produktivbetrieb sparen lassen, bestätigt sich mit der steigenden Zahl der eingesetzten Lösungen.

Noch stärker reduziert sich der Wartungsaufwand, da die Dokumentation anwendernah in grafischen Darstellungen vorliegt, so dass Auswirkungen von Änderungen leicht überschaubar sind.

Diese Eigenschaften führen in Projekten regelmäßig dazu, dass nicht lediglich eine Datenbank mit Geschäftsdaten herauskommt, die mit einem Tool für Online Analytical Processing (Olap) ausgewertet werden kann, sondern eine vollständige und allgemein akzeptierte Beschreibung der Berichtswege im Unternehmen sowie ein komplettes, konsistentes, auf diesen Regeln basierendes Zahlenwerk. Leider hat der Einsatz von metadatenzentrierten Tools auch seinen Preis: Die Metadaten sind nur in dem speziellen Data-Warehouse-Kontext nutzbar, für den sie erarbeitet wurden. Metadaten für operative Datenbanken oder für Objektmodelle sind dazu nicht kompatibel und können allenfalls als Entwurfsquelle verwendet werden. Daher muss im Projekt vorab die Entscheidung getroffen werden, ob der Anwender standardisierte Metadaten mit Codierung und langen Projektzyklen vorzieht oder spezielle, Tool-gebundene Metadaten mit jedoch kurzen Iterationszyklen wünscht.

Das Einsatzgebiet grafischer, metadatenzentrierter Werkzeuge umfasst die fünf Phasen des Data-Warehouse-Entwurfs:

- Bestimmen der Zielstrukturen (Kennzahlen und Dimensionen),

- Analysieren der Quellen, die zu diesen Kennzahlen beitragen,

- Beschreiben der Transformationen, um aus Quelldaten Zielinformationen zu formen,

- Generieren und Füllen der Zieldatenbank, regelmäßiges Aktualisieren sowie

- Weitergabe der Metadaten an Report- und Analyse-Tools.

Etwa 75 bis 90 Prozent des Aufwandes in einem Data-Warehouse-Projekt entfallen auf die Beschreibung der Transformationen. Datenprobleme, die es hierbei zu meistern gibt, sind unter anderem die unterschiedlichen Datenformate in den Quellsystemen, lückenhafte Datenbestände, Inkonsistenzen, Überlappungen sowie historische Brüche. Das Fatale ist, dass diese Aufwände sich im Voraus kaum beziffern lassen.

Genau hier greifen die metadatengetriebenen Tools ein. Die im Projektverlauf anfallenden Metadaten (Datenbeschreibungen) werden vom Design-Tool in einem Repository (Ablage) gespeichert und anschaulich dokumentiert, danach können sie vom Server gelesen und abgearbeitet werden. Zwischen dem Ende der Spezifikationsarbeit und der ersten Nutzung der fertigen Software liegen dabei nur Minuten. Ein Codieren von Hand ist bei echten metadatengesteuerten Werkzeugen nicht mehr nötig. Die Dokumentation stimmt idealerweise mit dem tatsächlichen Ablauf überein, und es besteht die Möglichkeit, die einzelnen Schritte beliebig oft zu wiederholen. Zudem weisen die Tools dank eines für sie optimierten Arbeitsspeichers im Server eine gute Performance auf.

Mit ETL-Werkzeugen geschaffene Anwendungen werden deutlich früher produktiv als handcodierte Lösungen. Die Phasen "Implementierung" und "Dokumentation" verschmelzen mit der Spezifikationsphase. Daneben entsteht eine enge Kooperation von Mitarbeitern aus den Fachabteilungen und Datenbankdesignern, die gemeinsam nach und nach das Fachkonzept erstellen. Erstere können anhand einfacher Grafiken darauf Einfluss nehmen, wie ihre Berichtswege DV-technisch abgebildet werden. Ergebnisse des Data Warehouse, die nicht mit den bisherigen Berichten übereinstimmen, lassen sich mit den Tools unmittelbar analysieren und angleichen. Dieses "Ringen um die richtigen Informationen" ist der eigentliche Wert eines Data-Warehouse-Projektes, da von allen Beteiligten akzeptierte Berichtsregeln entstehen. Dies steigert die Akzeptanz und sichert den sofortigen Nutzen und damit raschen Return on Investment für das Projekt.

Die Vorteile der Metadatenorientierung zeigen sich umso deutlicher, je komplexer das konsistente Zusammenführen der Daten ist, je schwieriger sich der logische Datenabgleich gestaltet und je umfassender die Aufgabenstellung ist. Besonders anspruchsvoll in dieser Hinsicht sind in der Regel Projekte für die Geschäftsleitung, Controlling, Rechnungswesen, strategisches Marketing, Vertriebssteuerung oder in der strategischen Planung. In diesen "Business-getriebenen" Einsatzgebieten dominiert Komplexität, nicht Datenmenge. Im Gegensatz dazu stehen "datengetriebene" analytische Warehouse-Anwendungen, die das Kundenverhalten insbesondere in den Branchen Handel, Banken oder Telekommunikation bewerten helfen sollen. Hier steht die Massenverarbeitung mit relativ klar definierten Daten im Vordergrund.

Die geschilderten Vorteile im Entwurfsprozess werden weniger wirksam, da eher einfache und bekannte Transformationen genutzt werden. Solche Anwendungen sind heutzutage meist ausprogrammiert und stehen unter erheblichem Performance-Druck. Überraschenderweise hilft jedoch auch hier der metadatenorientierte Ansatz: Die automatisch aus den Metadaten generierten Abläufe sind unter Ausnutzung von Parallelprozessen und dynamischen Verknüpfungen deutlich schneller, als sie ein Anwendungsprogrammierer einrichten könnte.

* Rainer Volck ist Senior Consultant Data Warehouse bei Siemens Business Services in Nürnberg.

"Auswahlkriterien"Der wachsende Erfolg des metadatenorientierten Ansatzes lockt immer mehr Hersteller von ETL-(Extraktion-, Transformation-, Laden-)Werkzeugen an, deren Produkte jedoch oftmals hinter den Möglichkeiten des Konzepts zurückbleiben. Anwender sollten deshalb eine Checkliste wie die hier vorgestellte benutzen. Ein "Ja" als Antwort bei allen Fragen garantiert echte Metadatenzentrierung:

-Werden die Metadaten von Quellen, Zieldatenbanken, Transformationen und Mappings einheitlich in einer Metadaten-Datenbank (Repository) von einem einzigen Tool verwaltet?

-Sind die Metadaten die einzige Ablage für Entwurfsergebnisse (dokumentieren die Metadaten den Entwurf vollständig) ?

-Dienen die Metadaten ohne Umwandlung sowohl der Dokumentation der Strukturen und Abläufe für Designer und Fachleute als auch als dynamische Generierungsbasis für das Betreiben des Data Warehouse?

-Enthalten die Metadaten auch die Dokumentation der Abläufe (Logbuch, Aktualität) ?

-Können die Anwendererläuterungen zu den Daten im Entwurfsprozess eingebracht und von den Olap-Tool-Anwendern genutzt werden?

-Ist nach Abschluss des Entwurfes und dem erfolgreichen Test der Abläufe auch die Dokumentationsarbeit abgeschlossen?

Metadatenzentrierte Produkte (Auswahl):

- "Actaworks" ; Acta Technology www.acta.com,

- "Datastage", Ardent (jetzt bei Informix), www.ardent.com,

- "Powermart"/"Powercenter"; Informatica, www.informatica.com,

- "Sagent Solution", Sagent Technology, www.sagent.com.

Eine umfangreiche Tabelle unterschiedlichster ETL-Werkzeuge findet sich unter http://www.dwinfocenter.org/clean.html

Abb.: Ein Grossteil der Arbeiten in einem Data-Warehouse-Projekt entfallen auf das Design des Systems und die Transformation der Quelldaten. Mit metadatenzentrierten Tools lassen sich hier viele Schritte und Arbeiten automatisieren. Quelle: Volck