Data-Warehouse/Data-Warehouse auf den Begriff gebracht

Analysewerkzeug für Endbenutzer ohne Informatikstudium

02.04.1999
Die Fähigkeit, gezielt Daten zu sammeln, auszuwerten und daraus strategische Entscheidungen abzuleiten, wird in Zukunft unverzichtbar sein. Eine Methode, Entscheidungen derart zu fundieren, ist das vielzitierte Data-Warehousing. Dabei fallen sehr große Datenmengen an - bis in den Terabyte-Bereich hinein. Und die Datenflut steigt weiter. Gaby Regler* geht dem Begriff Data-Warehousing auf den Grund.

Ein Data-Warehouse enthält idealerweise konsistente und qualitativ hochwertige Daten. Mit Online-Analytical-Processing-Werkzeugen (OLAP) lassen sich aus diesen Daten Informationen gewinnen. Die momentan entstehenden Data-Mining-Werkzeuge bieten noch weitergehende Möglichkeiten, Einsichten in Trends, Korrelationen und Muster zu gewinnen, die unter dem Begriff Knowledge Discovery - Wissensentdeckung - zusammengefaßt werden.

Ein Data-Warehouse kann sich in weniger als einem Jahr amortisieren - doch dauert sein Aufbau in der Regel länger als seine Amortisation. Nach einer Untersuchung von IDC ist der mittlere Return on Investment (ROI) 400 Prozent - allerdings mit einer sehr hohen Varianz. Das heißt, ein Unternehmen benötigt spezielles Know-how im Hinblick auf Data-Warehouse-Technologie, -Methodologie und -Projektorganisation.

Die Fähigkeit, aus Datenfluten ad hoc aussagefähige Informationen zu extrahieren, ist für Entscheider unverzichtbar geworden. In den Management-Etagen sind "geschäftsrelevante Daten aus einer geschäftlichen Perspektive" gefragt. Und zu Recht fordert der Anwender etwas Realitäts- und Benutzernäheres als die Abfrage in nacktem SQL.

Ein erster Schritt zur Einlösung dieses alten Versprechens gelang der Software-Industrie mit Abfragewerkzeugen, die die relationalen Tabellen und Spalten durch verständlichere Begriffe aus dem Geschäftsleben ersetzten. Diese neue Generation unter den Abfragewerkzeugen erleichtert zwar die Suche nach dem wertvollen Gut Information, es hat sich aber auch gezeigt, daß sie schnell an ihre Grenzen stößt.

Der gravierendste Grund dafür ist die Belastung des operativen Systems durch solche Abfragen, das heißt Störung des operativen Betriebs, oder die unbefriedigende Antwortzeit, wenn Abfragen typischerweise über eine größere Anzahl von Tabellen gehen. Außerdem wird in der Regel ein Datenbankspezialist gebraucht, der die Tabellen und ihre Abhängigkeiten genau kennt.

Es gibt noch mehr gute Gründe, die operativen Systeme von einem zentralen dispositiven System - einem Data-Warehouse - zu trennen:

- Operative Systeme sind für die Dateneingabe optimiert, nicht für komplexe Abfragen,

- die Orientierung in Hunderten von Tabellen ist schwierig,

- Daten aus verschiedenen Systemen sind nicht "vergleichbar",

- zwei verschiedene Joins/Wege zur gleichen Information führen in der Praxis oft zu verschiedenen Ergebnissen,

- dieselbe Abfrage zu verschiedenen Zeitpunkten eines Tages gestellt, führt ebenfalls zu verschiedenen Ergebnissen,

- Daten stehen nicht über einen längeren Zeitraum hinweg zur Verfügung.

Die Arbeit mit einem Ad-hoc- oder Reporting-Tool in einem Data-Warehouse ist da schon sehr viel erfolgversprechender. Aber man möchte noch einen Schritt weiter gehen.

Das Kürzel OLAP steht für Online Analytical Processing und bezeichnet eine "Softwaretechnologie, die Analytikern, Managern und Geschäftsleitern Einsicht in die Daten verschafft, und zwar durch schnellen, konsistenten, interaktiven Zugang zu einer Vielzahl von möglichen Ansichten auf Informationen, die aus Rohdaten so destilliert worden sind, daß sie die realen Dimensionen eines Unternehmens aus Benutzersicht wiedergeben". Was in der Genauigkeit wissenschaftlicher Sprache so kompliziert klingt, ist im Grunde genommen nichts anderes als ein leistungsfähiges Analysewerkzeug für Endbenutzer ohne Informatikstudium.

Statt in relationalen Systemen können die Daten auch in Würfelform, das heißt in spezialisierten "multidimensionalen Datenbanken", gespeichert werden. Die Datenwürfel lassen sich dann mit entsprechenden Abfragewerkzeugen drehen und entlang jeder Dimension "schneiden" (Slice and dice). Die Schnittmenge ergibt das gewünschte Resultat in Form sogenannter Kenn- oder Maßzahlen, zum Beispiel Umsatz, Kosten oder verkaufte Stückzahlen. Dimensionen sind Fragestellungen an das Data-Warehouse, etwa: Welches Produkt (1. Dimension: was?) wurde zu welchem Zeitpunkt (zweite Dimension: wann?) in in welcher Region (3. Dimension: wo?) verkauft.

Die Dimensionen sind meist in Hierarchien eingeteilt, wie zum Beispiel Zeit in Tag, Monat und Jahr. Während der Abfrage kann ein höherer Detailgrad bis hin zur untersten Hierarchiestufe erreicht werden - (Drill down), zum Beispiel von Monat zum Tag. Umgekehrt kann aus der Detailsicht in eine Vogelperspektive gewechselt werden - (Drill up), etwa vom Monat zum Jahr.

Derartige multidimensionale Datenbanken, auch MOLAP-Systeme genannt, haben ihre Nische. Aber für große und insbesondere wachsende Data-Warehouses mit vielen Detaildaten sind sie von beschränkter Brauchbarkeit, da sie nicht in ausreichendem Maße skalieren. MOLAP-Systeme können heute zwischen 50 und 100 GB Daten verwalten - inklusive aller Vorberechnungen -, das Datenvolumen der Rohdaten kann dabei erheblich geringer sein.

Nach Meinung der Marktanalysten der Meta Group liegt die durchschnittliche Größe eines Data-Warehouse derzeit bei etwas über 100 GB - Tendenz steigend. In der Telekommunikation oder beim Handel sind Data- Warehouses im Terabyte-Bereich schon realisiert. Möglich wurde diese Entwicklung durch relativ kostengünstige Mehrprozessorsysteme und konsequent parallelisierte Datenbanken, die diese Prozessoren voll ausschöpfen. Und hier setzt eine neue Generation von OLAP-Werkzeugen auf: die ROLAP-Tools. Das R steht für Relationales OLAP.

Multidimensionalität läßt sich nämlich auch präzise in relationalen Systemen modellieren und zwar als sogenanntes Star-Schema. Dieses Schema ist einfach und aus Geschäftssicht verständlich. Es verhindert, daß zu viele Tabellen miteinander verknüpft werden müssen, das heißt, es ist performant für entscheidungsunterstützende Abfragen. Im Mittelpunkt des Sterns steht die "Fact-Tabelle", die neben den Verweisen auf die Dimensionstabellen, das heißt Fragestellungen zum Produkt, über Zeit und Region, auch die Kenn- oder Maßzahlen speichert, etwa zum Umsatz, zu den Kosten oder über die verkauften Stückzahlen.

ROLAP-Tools benutzen natürlich die SQL-Schnittstelle, das heißt, sie senden SQL-Befehle an die Datenbank. Diese werden auf einer Hardware mit mehreren Prozessoren parallel abgearbeitet - nach dem Motto: "Teile und herrsche." Oder konkreter: "Mache aus einer großen Aufgabe mehrere kleine, und führe diese gleichzeitig aus." Dies bringt einen erheblichen Geschwindigkeitsschub. Wo SQL sich schwertut, zum Beispiel bei Vergleichen, da hilft die ROLAP-Engine, die die multidimensionale Sicht auf die Daten liefert, indem sie mehrere SQL-Kommandos generiert und die Ergebnisse zusammenführt - und zusätzliche über SQL hinausgehende analytische Funktionalität bietet.

Größenbeschränkung praktisch passé

Eine Größenbeschränkung gibt es praktisch nicht mehr. Verdoppelt sich die Datenmenge, behält man selbst beim sequentiellen Durchsuchen der gesamten Datenmenge auf unterster Detailebene in guter Näherung ein konstantes Antwortzeitverhalten, wenn man die eingesetzte Hardware verdoppelt, während die Zeit zum Aufbau eines Würfels in einer multidimensionalen Datenbank deutlich überproportional ansteigen würde.

In das zentrale, unternehmensweite (Enterprise-)Data-Warehouse werden in regelmäßigen Intervallen neue Daten aus den unterschiedlichen Datenquellen hinzugeladen. Die Datenversorgung erfolgt mit entsprechenden Werkzeugen oder gegebenenfalls eigenen Routinen. Dabei werden die Daten aus den verschiedenen Datenquellen extrahiert, anschließend konsolidiert und in die jeweilige Data-Warehouse-Umgebung integriert. Die Quelldaten haben typischerweise ähnliche, aber dennoch unterschiedliche Definitionen. Sie müssen bereinigt und in ein unternehmensweit gültiges Modell transformiert werden. Die Analyse der Quelldaten, die Definition des unternehmensweiten Datenmodells und der entsprechenden Transformationen unter Berücksichtigung der Datenqualität, sind zentrale, meist sehr schwierige Aufgaben. Deren Lösung ist jedoch Voraussetzung für die erfolgreiche Realisierung eines Data- Warehouse-Projekts. Als Ergebnis enthält das zentrale Data- Warehouse unternehmensweit vereinheitlichte Daten.

Aus dem zentralen Data-Warehouse werden über Replikationsmechanismen Data-Marts abgeleitet, um Informationen für einzelne Abteilungen wie vorzugsweise Vertrieb, Marketing, Controlling etc. zur Verfügung zu stellen.

Die eigentliche Analyse der Daten erfolgt dann - wie oben beschrieben - mit den entsprechenden Datenzugriffs- und Analysewerkzeugen für Abfrage, Reporting, OLAP beziehungsweise Data-Mining.

ANGEKLICKT

Nur 30 Prozent der Data-Warehouse-Projekte erfüllen laut Meta Group die in sie gesetzten Erwartungen, und 20 Prozent scheiterten komplett. Die Gründe hierfür liegen in der Datenqualität und -hygiene, im Projekt-Management und auf der Datenbankseite. Dennoch prognostizieren die Marktforscher ein weiterhin steiles Wachstum des Data-Warehouse-Markts und beschreiben die nächste Runde als den Wechsel von den Technologien zu fertigen Lösungen. Viele Anbieter dürften diesen Schritt hin zu Komplettlösungen gehen. Die entsprechenden Pakete stehen teilweise bereits zur Verfügung. Sie versprechen einen einfachen und effizienten Einstieg in geschäftskritische Analysen - praktisch mit unbegrenzter Wachstumsmöglichkeit.

*Gaby Regler ist Business Development Manager für Data-Warehousing bei der Informix Software GmbH in Ismaning.