Fuer die produktive IT-Nutzung muss teuer bezahlt werden

Ein Data-Warehouse verlangt Know-how auf allen Gebieten

16.02.1996

Waehrend ueber das Ziel einer Data-Warehouse-Implementierung weitgehend Klarheit besteht, liegt bezueglich der technischen Realisierung vieles im argen. Manche Anwender stellen sich etwa noch immer die Frage, ob es unerlaesslich ist, den Kern des Data-Warehouse, die Datenbank, separat auf einem leistungsstarken Rechner einzurichten. Reicht es nicht aus, die operative Datenbank einfach zu kopieren und zum Warehouse-System zu erklaeren?

Schon aus Gruenden der zu erwartenden Performance-Probleme beantwortet die Butler Group diese Frage in ihrer Studie "Data Warehousing" mit einem klaren Nein. Die einfache Replikation der operativen Daten genuege vielleicht grundsaetzlichen Informationsbeduerfnissen, doch entfalte ein Warehouse erst dann vollstaendig seine Moeglichkeiten, wenn die Art und Weise der Informationsnutzung neu durchdacht werde.

Ein Warehouse fuellt man nicht nur mit operativen, sondern auch mit historischen Daten. Diese sollen teilweise bereits aufbereitet abgelegt werden - also gefiltert, verdichtet, teilweise zu Summaries zusammengefasst und im Sinne der Datenhygiene bereinigt. Ausserdem ist zu beruecksichtigen, dass das Datenlager auch aus externen Quellen gespeist werden soll - beispielsweise mit Aktienkursen, Umfrageergebnissen, Marktinformationen oder Informationen aus dem World Wide Web. Erst mit diesen Daten lassen sich vergleichende Untersuchungen beziehungsweise Leistungsmessungen (Benchmarks) durchfuehren.

Die operativen Daten sind also nur ein Teil der Informationen, mit denen das Datenlager gefuellt wird. Hinzu kommt, dass sich nur mit einem eigenstaendigen Warehouse neue Datensichten erschliessen lassen. Erst wenn man es vom operativen System isoliert, erhaelt man die noetige Flexibilitaet, um die Datenschemata solange zu variieren, bis der Prototyp von den kuenftigen Anwendern komplett akzeptiert ist.

Die bestehenden Datenhaltungssysteme sind in der Regel fuer eine transaktionsorientierte Verarbeitung optimiert. Im Warehouse dagegen sollten die Daten in einer fuer die Abfrage-Verarbeitung optimierten Form vorliegen. In der Datenbankszene hat sich folgerichtig die Diskussion dahin verschoben, welches Datenbanksystem fuer ein solches Warehouse am geeignetsten ist. Soll ein traditionelles relationales Datenbank-Management-System (RDBMS) oder eines der abfrageoptimierten Pendants zum Einsatz kommen?

Organisation und Indizierung von Warehouse-Daten funktionieren anders als bei operativen Systemen. Waehrend fuer Daten mit einem hohen Transaktionsdurchsatz die Indizes ueblicherweise auf ein Minimum beschraenkt werden, muessen bei einem Warehouse eine Vielzahl unterschiedlicher Spalten indiziert werden, um die Retrieval-Zeiten in Grenzen zu halten. Der Datenbank-Server muss enorme Leistung aufbieten, um den fuer eine Abfrage jeweils guenstigsten Index zu waehlen.

Zu den Spezialsystemen, die fuer sich in Anspruch nehmen, diese Aufgaben besser zu loesen als klassische relationale Datenbanken, zaehlen beispielsweise das abfrageoptimierte System "Red Brick VPT" von der britischen Red Brick Systems in Billingshurst, West Sussex, oder auch "Universe" von der Vmark Software Inc. in Westboro, Massachusetts. Universe wird von den Marktforschern der Butler Group zu den "postrelationalen" Systemen gezaehlt. Dabei handelt es sich um mehrdimensionale Systeme, die sich dadurch auszeichnen, dass sie vielfaeltige Datensichten ermoeglichen.

Oracle und Informix haben sich verstaerkt

Anbieter wie Red Brick und Vmark argumentieren, fuer das Warehousing sei eine auf Abfragen hin optimierte Hochleistungsmaschine notwendig. Dagegen warnen die RDBMS-Anbieter ihre Kunden, ein weiteres Spezial-Datenbanksystem zu kaufen, weil dieses zusaetzliche Kosten und Skills in Anspruch nehme. Eine multidimensionale Analyse sei auch mit ihren Produkten moeglich; durch den Zukauf entsprechender Spezialisten haben sich Anbieter wie Oracle und Informix hier verstaerkt.

So kann Oracle durch die UEbernahme der Information Resources Inc. (IRI), Chikago, die multidimensionale Datenbank "Express DB" anbieten, die langfristig mit dem relationalen Datenbanksystem des Herstellers verschmolzen werden soll. Anwender koennen sich derzeit aussuchen, ob sie fuer ihr Warehouse die mehrdimensionale Spezial-Datenbank oder das relationale Oracle-System mit entsprechenden Olap-Tools wollen. Laut Meta Group liegt Express hinter "Arbor Essbase" von Arbor Software auf Rang zwei in der Verkaufsliste mehrdimensionaler Datenbanksysteme. Oracle hat sich ausserdem mit Herstellern wie Dynamic Information Systems verbuendet, deren besondere Indizierungstechnik gebraucht wird, um die Abfrage-Performance der eigenen Datenbank zu optimieren.

Auch Informix hat die eigene Technologiebasis durch die UEbernahme eines Spezialisten, der Stanford Technology Group, verstaerkt. Deren Olap-Software "Metacube", mit der sich mehr- dimensionale Datensichten erstellen lassen, ermoeglicht einer Studie der Gartner Group zufolge den optimierten Zugriff auf relationale Datenbanksysteme - statt auf ein explizit mehrdimensionales System setzt Informix also auf die Kombination RDBMS und Olap.

Die Anbieter relationaler Systeme scheinen diesen Markt allmaehlich unter Kontrolle zu bekommen. Marktforscher orakeln bereits, dass die traditionellen RDBMS-Hersteller Firmen wie Red Brick und Vmark ueber kurz oder lang uebernehmen werden, um ihr Warehouse-Portfolio weiter auszubauen.

Der komplizierte Prozess, Daten von den Datenquellen zur Warehouse-Datenbank zu befoerdern (Bridging), schliesst eine Reihe von Vorgaengen ein. Da ist etwa das Auffinden der benoetigten Quelldaten: Die Daten muessen den operativen, zum Teil heterogenen Datenhaltungssystemen entnommen werden. Im Rahmen einer Konsolidierung werden die verschiedenen Datenformate in ein Masterformat umgesetzt. Der vielleicht wichtigste Vorgang im Bridging-Prozess ist die Bereinigung der Datenbestaende - Inkonsistenzen und Ungenauigkeiten werden hier so weit wie moeglich beseitigt. Um die Antwortzeiten akzeptabel zu halten, ist es ferner noetig, bestimmte Informationen in verdichteter Form - teilweise als Summaries zusammengefasst - in das Warehouse zu bringen. Und schliesslich muessen auch die Metadaten (beispielsweise die Datendefinitionen) im Repository konsistent und auf dem neuesten Stand gehalten werden.

Neben dem Datenbanksystem sind also auch die Werkzeuge fuer die Datenmodellierung von entscheidender Bedeutung. Die bestehenden Datenmodelle sind zumeist auf eine OLTP-orientierte Datenverarbeitung und damit auf Tuning und Performance-Steigerung ausgerichtet. Ein Warehouse-Datenmodell orientiert sich dagegen auf inhaltliche Belange, denn die jeweilige Fachabteilung moechte die Daten auf ihre Fragestellungen hin optimiert ausgerichtet haben. Das bedeutet unter anderem, dass die Daten in einem relationalen Warehouse denormalisiert werden muessen.

Mit entsprechenden Tools koennen Entwickler die Beziehungen zwischen Daten beschreiben und im weitesten Sinne festlegen, wie das Datenmodell auf die abteilungsspezifischen Strukturen abgestimmt werden kann. Zu den bekannteren Werkzeugen in diesem Umfeld zaehlt die "Visual Analyst Workbench" von der Visible Systems Corp. Damit lassen sich Entity-Relationhip-Diagramme produzieren, mit denen in der ersten Phase des Warehouse-Projektes die Beziehungen zwischen Daten dargestellt werden koennen. Mit den kuenftigen Anwendern wird anhand der Diagramme diskutiert, ob die richtigen Informationen zur Verfuegung gestellt werden.

Auch andere CASE-Tools wie "ADW" von Knowledegeware, "IEF" von Texas Instruments oder der "DB Analyst" von Bachman werden in Warehouse-Umgebungen eingesetzt - oft weil sie im Unternehmen ohnehin genutzt werden. Wolfgang Martin, Analyst der Meta Group, ist allerdings skeptisch bezueglich ihrer Warehouse-Tauglichkeit. Natuerlich koenne man ein Datenmodell fuer das Warehouse mit relativ konservativen Methoden aufsetzen. Allerdings unterscheide sich die Analyse-Phase im klassischen OLTP-Umfeld von der im Warehousing - hier wuerden teilweise andere Features benoetigt.

Zu den schwierigen Aufgaben im Warehouse-Projekt zaehlt die Extraktion, Bereinigung und Aufbereitung der Quelldaten, die aus so unterschiedlichen Systemen stammen koennen, wie IBMs VSAM oder IMS, CAs IDMS oder Datacom, den gaengigen RDBMS, den Groupware-Bestaenden von Arbeitsgruppen, Online-Datenbanken oder dem World Wide Web.

Fuer die Extraktion dieser Daten und die UEbertragung der zugehoerigen Metadaten in das Warehouse-Repository werden Tools wie der "Warehouse Manager" von Prism, "Extract" von der Evolutionary Technologies Inc. oder die "Passport Workbench" von Carleton benoetigt. Mit ihnen lassen sich die notwendigen UEbertragungs- und Aufbereitungsprogramme generieren. Schwierigkeiten entstehen vor allem deshalb, weil der Transformationsvorgang moeglichst haeufig, zumeist taeglich, stattfinden soll und daher weitgehend automatisiert werden muss.

Die Tools unterstuetzen nicht nur den kompletten Prozess der Datentransformation, sie uebernehmen auch die Identifikation und Verschmelzung von Daten, die in unterschiedlicher Auspraegung mehrfach vorgehalten werden. Abkuerzungen werden standardisiert, Redundanzen abgebaut und unterschiedliche Feldlaengen fuer dieselben Daten angeglichen.

Den Zugriff auf die unterschiedlichen Systeme vom Mainframe ueber die AS/400 bis hin zum Abteilungs-Server ermoeglicht entsprechende Middleware. Dabei handelt es sich um Connectivity-Tools, die die entsprechenden Gateways bereitstellen, ueber die sich die verschiedenen Quellsysteme mit dem Warehouse verbinden lassen.

Typische Produkte fuer den Zugriff auf Daten in unterschied- lichen Quellbestaenden sind "EDA/SQL" von Information Builders, "Open Connect" (SQL Connect) von Oracle, "Sequelink" von Techgnosis - inzwischen von Intersolv uebernommen - oder "Info Hub" von Trinzic. Ausserdem bietet jeder grosse Datenbankhersteller Tools fuer diese Aufgaben an.

Im Repository laufen alle Faeden zusammen

Im Warehouse-Repository werden die Informationen ueber Daten - sogenannte Metadaten - abgelegt. Sie beschreiben unter anderem, woher die Warehouse-Daten stammen, wie der Zugriff erfolgt, welches Datenformat und welcher -typ vorliegen, mit welchen Mitteln sie in das Warehouse uebertragen wurden und ob sie dabei veraendert beziehungsweise konsolidiert wurden etc. Nahezu jedes in einem Warehouse-Konzept benutzte Tool muss auf solche Metadaten zurueckgreifen. Datenmodellierungswerkzeuge brauchen sie, um Beziehungen zwischen den Daten herzustellen. Werkzeuge fuer die Datenextraktion und den -transport benoetigen sie, um die richtigen Daten zu finden, zu transformieren und am richtigen Platz im Warehouse zu positionieren. Auch die Tools, mit denen die Datenbestaende aufbereitet, standardisiert und verdichtet werden, kommen ohne Metadaten nicht aus.

Die von den verschiedenen Tools erzeugten und von den Quelldaten uebernommenen Metadaten sind zumeist werkzeug- beziehungsweise umgebungsspezifisch. Es zaehlt daher zu den groessten Hindernissen beim Warehousing, die Vielzahl unterschiedlicher Metadaten-Typen zu synchronisieren. Sie sind proprietaer und damit nicht von allen Werkzeugen gleichermassen nutzbar. Projektmitarbeiter muessen viel Zeit und Energie darauf verwenden, die verschiedenen Metadaten zu integrieren - oder sie muessen lernen, mit verschiedenen Kategorien umzugehen.

Ein Industriekonsortium, das "Metadata Council", hat sich des Problems angenommen, wie Metadaten zu synchronisieren sind. Dort soll eine herstellerunabhaengige Programmier-Schnittstelle (API) fuer Metadaten entstehen. Das Ziel: Metadaten sollen einheitlich definiert und von allen relevanten Tools gleichermassen genutzt werden koennen. Ein White Paper, das die Erstellung des Metadaten-Austausch-Standards beschreibt, existiert bereits. Gruendungsmitglieder der Organisation sind Arbor Software, Business Objects, Cognos, Evolutionary Technologies International und Texas Instruments. Inzwischen sind dem Konsortium eine Reihe weiterer Anbieter beigetreten.

Zu den in Warehouse-Umgebungen meistgenutzten Repositories zaehlen nach Angaben der Meta Group das "CASE Dictionary" von Oracle sowie "DD/S" von der Platinum-Tochter Brownstone. Noch haeufiger kommen jedoch die hausintern gewachsenen Loesungen der Unternehmen fuer entsprechende Projekte zum Einsatz.

Waehrend die Datenmodellierungs-, -extraktions- und Connectivity-Tools ausschliesslich fuer die Akquise der relevanten Daten und das "Fuettern" der Warehouse-Datenbank benoetigt werden, befassen sich die Front-end-Tools fuer den Endanwender mit dem Zugriff auf das Warehouse. Diese entscheidungsunterstuetzenden Tools lassen sich unterschiedlich kategorisieren; eine sinnfaellige Einordnung bietet die Meta Group an, die vier Kategorien unterscheidet: Tools fuer die Ad-hoc-Abfrage, Managed Queries, Olap-Tools und Data-Mining-Werkzeuge.

Fuer die schnelle Abfrage eignen sich demnach Spreadsheets oder die gaengigen Query- und Reporting-Tools, die von den Anwendern bisher auch eingesetzt wurden, ohne dass der Zugriff auf ein Warehouse moeglich war. Ein "Access" oder "Excel" von Microsoft lassen sich beispielsweise fuer ein einfaches "Hineinschnuppern" in das Datenlager ebenso verwenden wie zahlreiche Tools, die von Datenbank- und Tool-Anbieter angeboten werden.

Sogenannte Managed Query Environments bieten dagegen bereits komplexe Reporting- und Abfragemoeglichkeiten. Tools wie "Business Objects" vom gleichnamigen Pariser Hersteller, "Esperant" von der Software AG, Darmstadt, oder "Impromptu" vom kanadischen Anbieter Cognos ermoeglichen beispielsweise eine sehr einfache Datenabfrage.

Allerdings kommen sie ohne intensive Einstellungsarbeiten durch DV-Spezialisten nicht aus. "Die typische Ausdrucksweise in unserer DV-Abteilung ist: Wir richten dem Anwender ein Business Object ein", beschreibt ein Anwender den Aufwand.

Die Moeglichkeiten eines Data-Warehouse lassen sich jedoch erst voll ausschoepfen, wenn Tools fuer das Online Analytical Processing (Olap) zum Einsatz kommen. Mit diesen Werkzeugen koennen die Warehouse-Bestaende aus den verschiedensten Perspektiven betrachtet werden. Meta-Group-Analyst Martin spricht von einem "mehrdimensionalen Wuerfel", als den man sich das Warehouse vorstellen koenne. Je nach Interesse liessen sich verschiedenste, kombinierte Abfragen absetzen, so dass beliebige "Scheiben" oder "Tabellen" mit den geforderten Informationen herausselektiert werden koennen.

Interessiert sich der Anwender fuer naehere Details zu den gefundenen Daten, kann er diese durch entsprechende Drill-down-Funktionen beschaffen. Auf diese Weise lassen sich beispielsweise detaillierte Informationen ueber die gegenwaertige Vertriebsleistung im Vergleich zur vergangenen einholen. Besteht Interesse, koennen diese Informationen auf Produkte, Regionen, Vertriebskanaele etc. erweitert werden.

Zu den wichtigsten Anbietern solcher Produkte, die teilweise mit, teilweise ohne mehrdimensionales Datenbanksystem aus- geliefert werden, gehoeren wie bereits erwaehnt Oracle mit den von IRI uebernommenen Express-Tools, Informix mit Stanfords "Metacube", Arbor Software mit "Essbase", Dimensional Insight mit "Cross Target" sowie die Softwarehaeuser, die sich bereits als Anbieter von Executive Information Systems (EIS) hervorgetan haben. Hier sind unter anderem die Pilot Executive Software GmbH mit "Lightship" oder auch Comshare zu nennen. Beide Anbieter haben ihre Produkte fuer den Warehouse-Markt fit gemacht, indem sie beispielsweise die Performance optimiert, die Abfrage- und Client-Server-Faehigkeiten verbessert und den Anschluss an das World Wide Web realisiert haben.

Das Data-Mining, die vierte Kategorie unter den entscheidungsunterstuetzenden Werkzeugen, dient dazu, anhand von Warehouse-Informationen Hypothesen ueber bestimmte Entwicklungen oder das Verhalten von Kunden, Maerkten etc. aufzustellen. Ging es in den anderen Kategorien darum, bestehende Annahmen des Anwenders zu verifizieren, dient Data-Mining dazu, bisher unbekannte Muster oder Trends zu entdecken und zu visualisieren. In der Regel weiss der Anwender zunaechst nicht konkret wonach er sucht. Die Tools durchsuchen das fertige Warehouse zunaechst nach Summary-Informationen, um eine Beurteilung aus der Vogelperspektive zu erhalten, und ermoeglichen dann per Drill-down das "Schuerfen" nach wichtigen Detailinformationen.

Gibt es einen Zusammenhang zwischen dem Verkauf von Windeln und Bier? Es gibt ihn tatsaechlich, wie eine amerikanische Einzelhandelskette mit Hilfe von Data-Mining-Tools herausgefunden hat. Wie die Butler Group berichtet, erhoehte sich der Absatz von Windeln in diesen Laeden jeden Abend zwischen sechs und acht Uhr sprunghaft. Naehere Untersuchungen ergaben, dass Arbeiter und Angestellte auf ihrem abendlichen Heimweg die Windeln mitnahmen. Die Einkaufskette plazierte daraufhin ihr Bier unmittelbar neben den Windeln, und prompt verdreifachte sich der Absatz des Gerstensafts. Data-Mining-Tools, wie sie beispielsweise die Software AG mit "Netmap" als Bestandteil ihres Warehouse-Pakets anbietet, sind Bestandteil vieler Warehouse-Komplettangebote.

Nachdem das Warehouse gefuellt ist und die Abfrageprozesse laufen, geht es in einer dritten Phase darum, die Daten zu verbreiten. Je nach Art der zu publizierenden Informationen benoetigen die meisten Abfragewerk- zeuge eine Schnittstelle zu den gaengigen E-Mail-Systemen, zu Groupware wie Lotus Notes oder zum World Wide Web. Ausserdem kann es sinnvoll sein, die Rechercheergebnisse in den Workflow einzubauen - eine Entwicklung, die noch ganz am Anfang steht.

"Im Grunde handelt es sich beim Data-Warehousing um den Versuch, einen Rueckkopplungsmechanismus aufzubauen", erlaeutert Meta-Group-Analyst Martin. "Man moechte Erkenntnisse darueber sammeln, ob die den Kunden beziehungsweise den Vertrieb betreffenden Unternehmensprozesse funktionieren - unter Beruecksichtigung der jeweiligen Wettbewerbsbedingungen." Das Warehouse biete die Moeglichkeit, die Prozesse permanent an Marktgegebenheiten und Wettbewerb anzupassen.

Die schnelle Warehouse-Loesung

Mit dem "virtuellen Data-Warehouse" hat sich die Intersolv Inc. ins Gespraech gebracht. Weil sich viele Unternehmen den kostspieligen Aufbau eines komplexen Datenlagers weder leisten koennen noch wollen, bieten die Softwerker eine Low-cost-Alternative, die sich in kurzer Zeit implementieren laesst. Der Aufbau eines Warehouse im physikalischen Sinne ist dabei ueberfluessig; die Daten bleiben im produktiven System, nur die Zugriffsmoeglichkeiten des Endanwenders werden optimiert.

Intersolv bietet einen offenen semantischen Mapping-Layer namens "Smart Data". Benutzer verwenden die ihnen bekannten Begriffe - zum Beispiel "Sales" - und erhalten die benoetigten Daten, ohne zu wissen, woher sie kommen. Sie sind von der Komplexitaet der verschiedenen zugrundeliegenden Datenquellen komplett abgeschirmt. Tools mit aehnlichen Funktionen bieten auch andere Hersteller, nur sind diese meistens proprietaer, waehrend Intersolv Microsofts Industriestandard Open Database Connectivity (ODBC) als Zugriffsmethode nutzt.

Wird ein produktives Datenbanksystem mit entscheidungsunterstuetzenden Abfragen belastet, sind in der Regel gravierende Performance-Einbussen die Folge. Auch Intersolv hat fuer dieses Problem keine Loesung. Der Hersteller konzediert denn auch, dass ein virtuelles Warehouse ein reales nicht ersetzen kann. Es eignet sich eher fuer kleine Aufgaben oder als Interims-Loesung, wenn der Aufbau eines echten Warehouse angedacht ist.

Aufwand und Nutzen

Die Gretchenfrage beim Warehousing ist zweifellos die nach den Kosten. Da es sich um keine Fertigloesung handelt, die Projekte unterschiedlich gross sind und eine Reihe von Lieferanten ihre Tools beisteuern, ist es sehr schwer, pauschale Aussagen zu machen. Die Gartner Group hat einmal das Rechenexempel gemacht und das Profil eines ueber fuenf Jahre laufenden Budgetplans aufgestellt. Das zugrundegelegte Warehouse wird in einer Groessenordnung von 50 Gigabyte aufgesetzt, liefert Informationen zu zwei Gebieten, und bedient zunaechst zwei Geschaeftsbereiche. Im Laufe der fuenf Jahre waechst es auf 250 Gigabyte an, liefert Informationen zu sechs Themenbereichen und bedient eine Vielzahl von Geschaeftsbereichen.

Dieses Warehouse kostet im ersten Jahr rund 3,5 Millionen Dollar, wobei der groesste Teil auf Personalkosten und Hardware entfaellt. Im zweiten und dritten Jahr fallen jeweils gut zwei Millionen Dollar an, und im vierten und fuenften Jahr pendeln sich die Kosten auf jeweils gut eine Million Dollar ein. Die Reduzierung kommt unter anderem zustande, weil laut Gartner Group die Implementierungskosten bis 1998 um rund 30 Prozent fallen werden, die Tools ausgereifter und besser werden und die Hersteller die noetige Erfahrung gesammelt haben.

Kosten entstehen unter anderem im Laufe der fuenf Jahre, weil die Unternehmen zusaetzliche Software fuer das Warehouse-Management anschaffen muessen und neue Hardware fuer die Verwaltung historischer Daten und Tabellen brauchen. Zusaetzliche Rechnerleistung faellt an, wenn weitere Anwender bedient werden muessen und die Abfragen an Komplexitaet gewinnen. Dies sollte sich das Projekt-Management schon zu Projektbeginn bewilligen lassen, damit die Geschaeftsleitung auf derlei Kosten vorbereitet ist.

Personelle Ressourcen werden unter anderem fuer die Erstellung des physikalischen und logischen Datenmodells, die Kreierung von Extraktionsanwendungen und das effiziente Management der Metadaten benoetigt. DV-Spezialisten muessen fuer eine ansprechende Datenqualitaet sorgen und sich um die Einrichtung der Enduser-Tools kuemmern.