Trend: Anforderungen im Data Warehousing steigen

27.05.2004 von Carsten Bange

Data Warehouses spielen eine zentrale Rolle in der betrieblichen Datenverarbeitung. Sie finden sich heute in allen Bereichen des Unternehmens: von der Lieferkette über Finanzen und Controlling bis hin zu Kundenbeziehungen. Durch neue Anforderungen werden sich in den nächsten Jahren Funktionen und Leistung der Systeme erheblich wandeln. *Carsten Bange ist geschäftsführender Gesellschafter des Business Application Research Center (Barc) in Würzburg.

Werkzeuge und Methoden zur Integration, Speicherung und Aufbereitung von Unternehmensdaten sind die zentralen Komponenten eines Data Warehouse. Sie müssen vor allem die Extraktion, Transformation und das Laden (ETL) technisch gut unterstützen, um den Erfolg eines Projektes zu sichern. Dabei spielt eine Bestandsaufnahme und Messung der Qualität vorhandener Daten (Data Profiling) sowie die fehlertolerante Suche und Verbesserung von Daten für bestimmte Anwendungsfälle (Data Cleansing) eine wachsende Rolle.

Brennpunkte auf allen Systemebenen: Bei der Aufbereitung, Speicherung und Integration von Daten im Data Warehouse kommen neue Probleme und Anwendungsfelder auf die Agenda. (Quelle: Barc)

Während etablierte Datenbankhersteller erst langsam diese Thematik erkennen, bieten zahlreichen Spezialisten und Business-Intelligence-(BI-) und ETL-Anbieter bereits eigene oder zugekaufte Produkte. So erwarb SAS Institute den Datenqualitätsspezialisten Dataflux, und Ascential Software bietet mit "Quality Stage" ein Produkt für Profiling und Cleansing ergänzend zu ETL an. Dessen Konkurrenten Informatica und Oracle haben erste Entwicklungen für Data Profiling auf den Markt gebracht. Andere Beispiele sind der Qualitätsspezialist Group 1, der sich ETL-Technik durch den Zukauf des Anbieters Sagent sichert, sowie der Cleansing-Spezialist Trillium, der kürzlich Data-Profiling-Technik von Avellino übernahm.

Ein weiterer Trend zeichnet sich mit Realtime-Data-Warehousing ab. Ziel ist es, Geschäftsprozesse zu überwachen (Business Activity Monitoring) und geschäftsrelevante Ereignisse unmittelbar mit Hilfe von Alarmfunktionen (Alerting) zu melden. Technisch erfordert dies eine Kombination bisheriger Batch-Verarbeitung insbesondere mit Messaging-Technik, wie sie Software für Enterprise Application Integration (EAI) bietet. Produktbeispiele für eine Kombination von ETL- und EAI sind Engines mit Listener-Technologien von Ascential und Informatica, Messaging-Funktionen im "Data Integrator" von Business Objects oder die Einbeziehung des "Business Warehouse" in die Infrastrukturplattform "Netweaver" der SAP. Auch Erweiterungen von ETL-Produkten um Lösungen für den (Massen-)Transaktionsdatentransfer wie bei Ascential durch den Kauf von Mercator oder die Übernahme von Adaptern des EAI-Spezialisten Actional durch Iway Software fallen in diese Kategorie.

Wachsende Datenmengen lassen ferner angemessene Lade- und Abfragezeiten des Data Warehouse zu einer großen Herausforderung werden. Hersteller versuchen diesem Problem zu begegnen durch 64-Bit-Hardware, den Einsatz massiv-paralleler Datenbanken oder durch die Kombination von symmetrischem Multiprozessing (SMP) und massiv-parallelem Processing (MPP) wie sie IBM, NCR oder Netezza entwickeln. Oracle setzt hingegen auf kostengünstige Hardwarearchitekturen als Basis für seine Data-Warehouse-Systeme und nutzt auch vernetzte Linux-Rechner. ETL-Werkzeuge zeigen indes bei der Verarbeitung von Massendaten oft Leistungsprobleme beim Datendurchsatz. Hilfe versprechen Techniken wie eine Applikations-Parallelisierung bei Ascential, der Einsatz eines Bulk Loader oder die noch performanteren Array-Einfügeoperationen der Zieldatenbank in der ETL-Skriptsprache, wie

sie etwa Hummingbird in seinem Produkt "Genio" bietet.

Die Nützlichkeit von multidimensionalen Datenbanken (MDBs) als dezentral administrierte Data Marts in Fachabteilungen oder Ergänzung zu relationalen Data Warehouses für aggregierte Daten mit hohen Anforderungen hinsichtlich der Abfragegeschwindigkeit ist unbestritten. Es hapert jedoch weiterhin an der Integration beider Ansätze in Bereichen wie durchgängige Datenmodelle, Abfragesprachen oder Schnittstellen. Integrationspfade eröffnen beispielsweise Microsoft und SAS oder Oracle, das mit 10g inzwischen beide Speichertechniken vereint. Ferner stärken Spezialisten wie Applix, Hyperion, MIS oder MIK ihre Anbindungs- und Austauschmöglichkeiten mit anderen Datenbanken.

Da Data Warehouses sich ständig weiterentwickeln, wird ein Lifecycle-Management immer wichtiger. Es umfasst das Management der Stammdaten, die Überwachung und Optimierung der Datenbankressourcen sowie die Abrechnung und Sicherstellung der Performance. Betreiber könnten sich so auch unabhängiger von der Güte der externen Berater oder der IT machen. Beispiele sind die weitgehende Optimierung von Anfragen und Speicherstrukturen bei IBM und NCR oder ein Gegenbeispiel die schlechte Performance von SAP BW bei nicht oder falsch gepflegten Aggregaten. Eine Modellierung und Nachhaltung der sich ständig ändernden Data-Warehouse-Strukturen kann zudem auf der Ebene der Datenintegration durch ETL-Tools wie Cognos "Decisionstream", durch Applikations-Server wie SAP BW oder Spezialanwendungen wie Kalido unterstützt werden.

Ein Trend ist auch die Modernisierung des Data-Warehouse, dessen Architektur künftig Web-fähig sein muss und einen skalierbaren und robusten Applikations-Server umfasst. Viele Funktionen übernimmt nun die Datenbank, etwa für Reporting und Analyse (Data Mining, die Ausführung von Modellen oder zeitnahe Überwachungs- und Notifikationsmechanismen (Alerting). So werden etwa Standardberichte zusehends von besonderen Servern oder den Data-Warehouse-Datenbanken übernommen, da sie anders als in operativen Systemen eine Historisierung von Daten oder die Integration von Daten aus verschiedenen Quellen erlauben. Produktbeispiele sind die "Reporting Services" bei Microsoft sowie Lösungen für das Massenberichtswesen von Actuate, Business Objects (Crystal), Cognos, Information Builders oder Microstrategy.

Ein wesentlicher Nutzen von Data Warehouses wird zudem künftig immer mehr auch in den Metadaten gesehen werden. Diese sollen nicht mehr nur technische Informationen wie Datentypen bereitstellen, sondern auch geschäftsorientierte Informationen für Anwender vorhalten. Analog werden neue Ansätze zur Metadatenspeicherung, Austausch und Bereitstellung benötigt. Ein Beispiel ist das Common Warehouse Model, das ein standardisiertes Beschreibungs- und Austauschformat bietet. Zwar nutzen Oracle, Hyperion und SAS dieses schon, allerdings weitgehend zum einfachen Austausch von Datenmodellen. Spezielle Metadatentechnik bietet auch Ascential mit seinen "Meta Brokern" oder Informatica mit "Super Glue", das zum Aufbau eines Metadata Warehouse dient. Alle ETL-Tools dienen heute zur Integration und auch Analyse von Metadaten, doch steckt eine Verbindung dieser Informationen mit der Datenaufbereitung und Endanwenderwerkzeugen noch in den Kinderschuhen.

Schließlich wird auch die Nutzung unstrukturierter Daten Anwender beschäftigen. So liegen 80 Prozent aller Daten und potenzieller Informationen als Text, Bild oder Tondateien vor und sind nicht integriert mit den strukturierten Daten (Kennzahlen und Metriken) eines Data Warehouses. Hier gilt es künftig, auf allen Ebenen des Systems Lösungen zu finden. So liefert IBM mit dem "Information Integrator" einen ersten Ansatz zur Datenintegration, und alle Datenbankanbieter arbeiten an Techniken zur Speicherung für XML- und unstrukturierte Daten. Speziell mit der Aufbereitung unstrukturierter Daten beschäftigt sich etwa Hummingbird durch die Integration einer Suchmaschine, während Microsoft mit "Smart Tags" eine Option zur Referenzierung solcher Informationen eingeführt hat.