Ein Data-Warehouse ist nur mit viel Aufwand zu bauen Anbieter erhoffen sich fundiertere Management-Entscheidungen

24.02.1995

Hersteller und Marktanalysten sind dabei, den Boden fuer einen neuen Markt zu bereiten. Den Unternehmen wird die Einrichtung eines "Data- Warehouse" ans Herz gelegt. Darunter ist in der Regel eine zusaetzliche Datenbank zu verstehen, in der operative Daten in verstaendliche Informationen umgesetzt werden, die das Unternehmens-Management zu wettbewerbsrelevanten Entscheidungen befaehigen sollen. Bis es jedoch soweit ist, hat der Anwender hohe Huerden zu ueberwinden. So kann die Errichtung eines umfassenden Data-Warehouse vor allem von ihrer Komplexitaet her durchaus mit der Einfuehrung von SAPs Standardsoftware R/3 verglichen werden. Hinzu kommt, dass die Preise fuer ein solches Gebaeude im Bereich von mehreren Millionen Mark liegen koennen.

Die Vorzuege eines Data-Warehouse erscheinen bestechend. Quasi auf Knopfdruck, so das Versprechen einiger Anbieter, bekommt zum Beispiel der Marketing-Leiter eines europaweit agierenden Unternehmens die Umsatzzahlen fuer ein bestimmtes Produkt, aufgeschluesselt nach Regionen und Zielgruppen. Mit einer weiteren Ad-hoc-Anfrage informiert er sich ein anderes Mal, wie sich eine Uebernahmeankuendigung auf den Boersenkurs seines Unternehmens und der Konkurrenten ausgewirkt hat.

Richard Hackarthorn, Gruender von Micro Decisionware, bezeichnet das Data- Warehouse als Instrument, "das es den Managern ermoeglicht, ihre Unternehmen richtig zu fuehren". Moeglich werde das, weil die Front-end-Tools des Data-Warehouse die Geschaeftswirklichkeit auf eine aehnlich kompakte Weise darstellen wie die Instrumententafel eines Flugzeugs die Flugsituation. Darueber hinaus lasse sich die gegenwaertige Lage eines Unternehmens mit frueheren Zustaenden vergleichen. Dadurch sei es moeglich, Entwicklungsprognosen zu treffen, Trends zu erkennen und Innovationen anzuregen.

Dass es sich hier nicht um leere Versprechungen handelt, bestaetigt das Beispiel der britischen Handelskette Smith Ltd., Swindon. Das 3,6- Milliarden-Dollar-Unternehmen hatte allerdings vor der Data- Warehouse-Einfuehrung bereits eine wesentliche Vorleistung erbracht: Alle wichtigen Produkt- und Lieferanteninformationen waren in einer zentralen "DB2"-Mainframe-Datenbank gesammelt worden.

Die Manager verdross jedoch, dass viele dort abgelegten marktrelevanten Informationen fuer sie unzugaenglich waren. Daher beschloss man, es mit dem Data-Warehouse von NCR (heute AT&T GIS) zu versuchen, das im Unterschied zu den konkurrierenden Konzepten keinen Unterschied zwischen operativen und Informationsdaten macht.

Das System greift auf konsolidierte Betriebsdaten zu, wie sie bei Smith vorliegen. Die DV-Verantwortlichen kauften die Recherchewerkzeuge von der AT&T-Division und entwickelten Front- end-Applikationen in Visual Basic fuer die Produktbereiche Schreibgeraete, Freizeitbuecher und Computerspiele.

Fuer die Unternehmensfuehrung ueberraschend stellte sich bei ersten Abfragen Mitte Oktober 1993 heraus, dass der Absatz fuer Computerspiele sechs Wochen vor Weihnachten um etwa 40 Prozent sinken wuerde. Nach einigen Diskussionen entschloss man sich, den Prognosen Glauben zu schenken, und stoppte eine Reihe von Kaufauftraegen, waehrend der Mitbewerb in der Hoffnung auf einen Boom orderte, der nie kam. Nach dem Weihnachtsgeschaeft gehoerte Smith zu den wenigen Spielehaendlern, die nicht auf vollen Lagern sitzenblieben.

Bei Tests in zwei anderen Bereichen blieb ein aehnlich spektakulaeres Ergebnis allerdings aus. Dennoch haben sich die Briten inzwischen fuer den Ausbau ihres Data-Warehouse eine High- end-Datenbank und einen massiv parallelen Rechner des Typs "3600" von AT&T GIS angeschafft.

Peter La Porte, Direktor von Prism Solutions, rechnet darueber hinaus vor, dass der Einsatz eines Executive-Information-Systems (EIS) ohne ein Data-Warehouse im Hintergrund teurer wird als mit. Schliesslich muessen bei jeder EIS-Abfrage die Datenkanaele zu den operativen Systemen neu aufgebaut werden.

Bei der Verwendung eines Data-Warehouse sei diese Arbeit nur einmal erforderlich. Als weitere Nachteile von EIS-Loesungen gegenueber dem Data-Warehouse fuehrt La Porte an, dass eine Abfrage operativer Daten den Transaktionssystemen CPU-Zeit wegnimmt, man zusaetzlichen Plattenplatz fuer die ausgewerteten Daten bereitstellen muss und zudem einen Analytiker damit beschaeftigt, immer wieder neue Informationsanforderungen zu formulieren. Die Meta Group sieht darueber hinaus Kostenersparnisse durch Downsizing. Die Daten wuerden naemlich nicht nur aus den Transaktionssystemen befreit, sondern in der Regel auch von den proprietaeren Grossrechnern auf offene und zudem preisguenstigere Unix-Systeme gebracht.

Die Angaben der Data-Warehouse-Propagandisten sind jedoch mit Vorsicht zu geniessen. So verspricht zum Beispiel die Software AG (SAG), dass der Einstieg in das Data-Warehousing bereits ab 80 000 Mark moeglich sei. Bei dem europaeischen Vorzeigeprojekt des Unternehmens hat die Stadt Koeln jedoch allein fuer die Software-Entwicklung rund vier Millionen Mark ausgegeben. Die Summe liege so hoch, weil es sich um ein Pilotprojekt gehandelt habe, argumentieren die Softwerker. Nachfolgevorhaben seien billiger abzuwickeln.

Doch schon einzelne Komponenten koennen ueber dem von der SAG genannten Einstiegspreis liegen. So verlangt Prism Solutions fuer die in diesem Markt weitverbreiteten Management-Tools zwischen 125 000 und 250 000 Dollar. Die Datenbank der renommierten Red Brick Systems Inc. kostet bis zu einer halben Million Dollar.

Werner Niebel, Geschaeftsfuehrer der Informix-Tochter Garmhausen und Partner, haelt daher eine Summe von rund 400 000 Mark als Einstiegspreis fuer realistisch. Er macht auch kein Hehl daraus, dass er im Data-Warehouse die lange vermisste "Killeranwendung" sieht, mit der man gegenueber den Kunden die Anschaffung einer teuren Hochleistungsdatenbank rechtfertigen koenne. Konsequenterweise haben Informix und HP sich zu einer, wie sie es nennen, "Data-Warehouse-Alliance" zusammengetan, um in gemeinsamen Projekten die Datenbank "Infomix Online Dynamic Server" und Rechner des Typs "HP9000" zu verkaufen.

Hewlett-Packard bietet in den USA Komplettloesungen fuer Datenmengen bis zu 10 GB fuer 150000 Dollar bis 400000 Dollar an. Datenmengen im Terabyte-Bereich sind bei Data-Warehouses jedoch keine Seltenheit, da dort auch historische Informationen gespeichert sind. Die Einfuehrung eines Data-Warehouse muss als Projekt aufgefasst werden.

Die Kosten des Dienstleisters bemessen sich dabei, so die klassische Formulierung, insbesondere daran, wie aufwendig die Kundenwuensche sind. Hinzu kommt der Nachbesserungsaufwand, der entsteht, wenn das Unternehmen im Projektverlauf feststellt, dass die Manager andere Ad-hoc- und Regelfragen stellen wollen, als bei der Planung angenommen wurde.

Vor allem geht es um die Steuerung von Informationsfluessen. Auf der Stufe des sogenannten "Inflow" werden operative Daten aus verschiedenen Datenbank- und OLTP-Systemen in das Data-Warehouse geladen. Als Quellen kommen aber auch Texte, E-Mails, Bilder und Online-Dienste in Frage, aus denen die Manager zum Beispiel die aktuellen Aktienkurse entnehmen wollen.

Da der Zweck der Daten hier ein ganz anderer ist, muessen sie nicht nur konsolidiert, sondern auch restrukturiert werden. Tabellen sind umzugestalten, nutzlose Daten auszumustern und neue Felder hinzuzufuegen. Je groesser die Datenmengen sind, um die es sich handelt, und je heterogener ihre Datenhaltungsformen, desto schwieriger wird ihre regelmaessige Umsetzung in Data-Warehouse- Informationen. Ausserdem kann die so entstehende Mehrbelastung des Netzes den Ausbau der Uebertragungskapazitaeten erforderlich machen.

Weitere Tools, die haeufig eigens geschrieben werden muessen, sorgen fuer die Aufbereitung der Data-Warehouse-Informationen zum Beispiel fuer Decision-Support-Systeme oder fuer die Auslagerung nicht staendig benoetigter Informationen in Archivsysteme.

Die zentrale Komponente, die all diese Informationsfluesse steuert, ist die sogenannte Metadatenbank. Sie gleicht in Funktions- und Arbeitsweise dem "Repository Manager", mit dem sich die IBM vor einigen Jahren ueberhoben hat. In der Metadatenbank wird festgelegt

- welche Daten wie von welcher Datenbank geholt werden,

- wie sie aufbereitet werden muessen,

- welcher Benutzer auf welche Daten zugreifen darf und

- welche Informationen ausgemustert werden koennen.

Die Festlegung dieser Regeln setzt voraus, dass der Anwender im voraus genau weiss, welche Abfragen er spaeter zulassen moechte. Dabei ist es noch nicht einmal fuer alle Unternehmen selbstverstaendlich zu wissen, welche Daten wo gespeichert sind. Von zentraler Bedeutung ist die sorgfaeltige Planung der Metadatenbank auch deshalb, weil die Benutzer sich nur dort einen Ueberblick verschaffen koennen, wie das Data-Warehouse aufgebaut ist und wo sie welche Informationen finden.

Angesichts des noetigen Projektaufwandes sowie der hohen Soft- und Hardwarekosten liegt der Verdacht nahe, dass die Anbieter tatsaechlich das Beste der Kunden wollen: ihr Geld. Dennoch handelt es sich bei dem Konzept keineswegs um eine Marketing- Eintagsfliege. Schon seit Jahren unterhalten vor allem grosse Handelsketten ein Data-Warehouse. Als diese Loesungen installiert wurden, zahlte man dafuer nicht selten fuenf Millionen Dollar und musste zudem noch fast alle Werkzeuge selbst erstellen. Dass die betreffenden Unternehmen das in Kauf nahmen, scheint doch auf erhebliche Wettbewerbsvorteile zu verweisen.

In sieben Schritten zum Data-Warehouse

Um operative Daten in Informationen fuer das Data-Warehouse umzusetzen, sind folgende Schritte notwendig:

1. Festlegung der Benutzerberduerfnisse des Datenmodells,

2. Definition all der Datenquellen, die herangezogen werden sollen,

3. Analyse der Daten in bezug auf ihren Informationsgehalt und ihre Bedeutung fuer das Unternehmen sowie auf ihre Form,

4. Aufbau einer Transformations- und Integrationslogik aufgrund der Informationen aus Punkt 3,

5. Zusamenstellung aller Metadaten, die Quelldaten identifizieren und die Transformations- und Integrationsprozesse beschreiben,

6. Schaffung der physikalischen Data-Warehouse-Datenbank und Implementierung der Gateways sowie

7. Entwickung der Enduser-Tools fuer den Zugriff auf das Data-Warehouse.

Die Geschichte

William Inmon, Vice-President bei Prism Technologies, praegte und definierte den Begriff Data-Warehouse Mitte der 80er Jahre (vgl. Kasten "Eigenschaften des Data-Warehouse"). Diese Pionierleistung hat Prism eine Sonderstellung als Partner fast jedes Data- Warehouse-Anbieters gesichert.

Bekannt wurde das Konzept 1991, als die IBM das "Information Warehouse" vorstellte. Kern des Vorhabens war die Mainframe- Datenbank DB2 und der inzwischen gescheiterte Repository Manager. Ziel war es, ueber Schnittstellen den Zugriff auf saemtliche Unternehmensdatenbanken zu ermoeglichen. Die Verwaltung dieser heterogenen Informationen sollte mit Hilfe des Repository Managers erfolgen. Ueber ihn sollten auch die Benutzer auf die Daten zugreifen koennen. Das Konzept verschwand jedoch mit dem Repository Manager in der Versenkung.

Die Digital Equipment Corp. reagierte damals auf die IBM- Ankuendigung mit dem Hinweis, man habe ein aehnliches Projekt in der Pipeline. Auch davon hoerte man spaeter nichts mehr.

Als eine Vorstufe zum Data-Warehouse koennen die dezidierten Datenbankrechner gelten. So muendeten die Projekte von Teradata unter Regie von NCR, jetzt AT&T GIS, in die "Enterprise Information Factory", deren Komponenten bereits seit 1992 verkauft werden. Da jedoch allein der Teradata-Rechner nicht unter 1,5 Millionen Dollar zu haben war, blieb Data-Warehousing ein exklusives Geschaeft fuer besonders solvente Grossunternehmen wie zum Beispiel die US-Handelskette Walmart.

Hewlett-Packard unternahm Mitte 1993 einen Versuch, sein Konzept "Open Warehouse" bekannt zu machen (vgl. die Abbildung auf Seite 7). Definiert wurde es dort als Decison-Support-Datenbank. Aus Mangel an eigenen Techniken arbeitet der Hardwarehersteller mit einer Reihe von Schluesselunternehmen aus diesem Bereich zusammen. Warehouse-Manager stammen von Prism und der Evolutionary Technologies Inc. (ETI). Als Warehouse-Datenbank sind alle gaengigen relationalen Systeme verwendbar, aber auch das "Warehouse" von der Red Brick Systems Inc., die auch Gateways liefert. Weitere Middleware-Produkte kommen von Metaphor, Microsoft (ODBC), Sybase und von der Information Builders Inc. (IBI), die mit ihrem Datenbankzugriffs-Tool "Eda/SQL" bereits Big Blues Information Warehouse versorgt hat.

Die Situation hat sich seither durch die Etablierung von Unix- basierten Parallelrechnern und von Datenbanksystemen fuer diese Architektur veraendert. Heute kann AT&T GIS eigenen Angaben zufolge den Einstieg ins Data-Warehousing zu einem Preis ab 250 000 Dollar bieten.

Konsequenterweise haben 1994 die Datenbankanbieter Informix, Oracle, Sybase und Software AG Data-Warehouse-Konzepte angekuendigt. Aber auch die Rechnerproduzenten HP, IBM und AT&T GIS wollen sich dieses Geschaeft nicht entgehen lassen. Eine Sonderrolle spielt der Middleware-Spezialist SAS Institute. Dessen Hauptprodukt "SAS System" uebernimmt schon laengst wesentliche Funktionen des Data-Warehousing. Es stellt im Kern einen Layer dar, der die Anwendungen von den heterogenen Hardware-, Betriebssystem-, aber eben auch Datenbankplattformen abschirmt. Dies geschieht mit Hilfe einer Metadatenbank, die auch den Informationsfluss steuert. Eine Konsolidierung der Daten ist hier also nicht mehr noetig. Allerdings greifen die Data-Warehouse- Anwender ueber die Metadatenbank auf operative Daten zu, was zu Performance-Nachteilen und Schwierigkeiten bei der Aufbereitung der Daten fuer den Anwender fuehren kann.

Eigenschaften des Data-Warehouse

William Inmon, Vice-President bei Prism Technologies, beschrieb das Data-Warehouse als ein Datenbanksystem mit subjektorientierten, integrierten, zeitvariablen und zugleich bestaendigen Informationen.

Subjektorientiert: Ueblicherweise werden Daten nicht fuer Menschen, sondern zur Unterstuetzung von Anwendungen organisiert. Zu den Funktionen des Data-Warehouse gehoert es, diese operativen Daten in Informationen umzusetzen, die Menschen, vor allem Manager, direkt oder ueber entscheidungsunterstuetzende Front-end-Tools (Decision- Support-Systeme=DSS) verstehen und benutzen koennen. Ein gut entworfenes Data-Warehouse bildet die Unternehmensprozesse in einer verstaendlichen Weise ab.

Integriert: Um Unternehmensprozesse vollstaendig abzubilden, muessen verschieden formatierte Daten aus unterschiedlichen Quellen und Datenhaltungssystemen zusammengefuehrt und so konsolidiert werden, dass man in einer einheitlichen Weise darauf zugreifen kann.

Zeitvariabel: Operative Daten spiegeln nur einen Moment des Unternehmensgeschehens wider, nicht aber den Wandel der Ereignisse. Um jedoch ueber eine Geschaeftsentwicklung urteilen zu koennen, werden Informationen ueber Veraenderungen benoetigt.

Bestaendig: Informationen werden benoetigt, die in einer operativen Datenbank laengst geloescht worden waeren. In einem Data-Warehouse dagegen ergaenzen neue operative Daten bestehende Informationen zu immer laenger werdenden Zeitreihen.