Trend: Anforderungen im Data Warehousing steigen

27.05.2004
Von 
Gründer und Geschäftsführer des Business Application Research Center (BARC)
Data Warehouses spielen eine zentrale Rolle in der betrieblichen Datenverarbeitung. Sie finden sich heute in allen Bereichen des Unternehmens: von der Lieferkette über Finanzen und Controlling bis hin zu Kundenbeziehungen. Durch neue Anforderungen werden sich in den nächsten Jahren Funktionen und Leistung der Systeme erheblich wandeln. *Carsten Bange ist geschäftsführender Gesellschafter des Business Application Research Center (Barc) in Würzburg.

Werkzeuge und Methoden zur Integration, Speicherung und Aufbereitung von Unternehmensdaten sind die zentralen Komponenten eines Data Warehouse. Sie müssen vor allem die Extraktion, Transformation und das Laden (ETL) technisch gut unterstützen, um den Erfolg eines Projektes zu sichern. Dabei spielt eine Bestandsaufnahme und Messung der Qualität vorhandener Daten (Data Profiling) sowie die fehlertolerante Suche und Verbesserung von Daten für bestimmte Anwendungsfälle (Data Cleansing) eine wachsende Rolle.

Brennpunkte auf allen Systemebenen: Bei der Aufbereitung, Speicherung und Integration von Daten im Data Warehouse kommen neue Probleme und Anwendungsfelder auf die Agenda. (Quelle: Barc)
Brennpunkte auf allen Systemebenen: Bei der Aufbereitung, Speicherung und Integration von Daten im Data Warehouse kommen neue Probleme und Anwendungsfelder auf die Agenda. (Quelle: Barc)

Während etablierte Datenbankhersteller erst langsam diese Thematik erkennen, bieten zahlreichen Spezialisten und Business-Intelligence-(BI-) und ETL-Anbieter bereits eigene oder zugekaufte Produkte. So erwarb SAS Institute den Datenqualitätsspezialisten Dataflux, und Ascential Software bietet mit "Quality Stage" ein Produkt für Profiling und Cleansing ergänzend zu ETL an. Dessen Konkurrenten Informatica und Oracle haben erste Entwicklungen für Data Profiling auf den Markt gebracht. Andere Beispiele sind der Qualitätsspezialist Group 1, der sich ETL-Technik durch den Zukauf des Anbieters Sagent sichert, sowie der Cleansing-Spezialist Trillium, der kürzlich Data-Profiling-Technik von Avellino übernahm.

Ein weiterer Trend zeichnet sich mit Realtime-Data-Warehousing ab. Ziel ist es, Geschäftsprozesse zu überwachen (Business Activity Monitoring) und geschäftsrelevante Ereignisse unmittelbar mit Hilfe von Alarmfunktionen (Alerting) zu melden. Technisch erfordert dies eine Kombination bisheriger Batch-Verarbeitung insbesondere mit Messaging-Technik, wie sie Software für Enterprise Application Integration (EAI) bietet. Produktbeispiele für eine Kombination von ETL- und EAI sind Engines mit Listener-Technologien von Ascential und Informatica, Messaging-Funktionen im "Data Integrator" von Business Objects oder die Einbeziehung des "Business Warehouse" in die Infrastrukturplattform "Netweaver" der SAP. Auch Erweiterungen von ETL-Produkten um Lösungen für den (Massen-)Transaktionsdatentransfer wie bei Ascential durch den Kauf von Mercator oder die Übernahme von Adaptern des EAI-Spezialisten Actional durch Iway Software fallen in diese Kategorie.

Wachsende Datenmengen lassen ferner angemessene Lade- und Abfragezeiten des Data Warehouse zu einer großen Herausforderung werden. Hersteller versuchen diesem Problem zu begegnen durch 64-Bit-Hardware, den Einsatz massiv-paralleler Datenbanken oder durch die Kombination von symmetrischem Multiprozessing (SMP) und massiv-parallelem Processing (MPP) wie sie IBM, NCR oder Netezza entwickeln. Oracle setzt hingegen auf kostengünstige Hardwarearchitekturen als Basis für seine Data-Warehouse-Systeme und nutzt auch vernetzte Linux-Rechner. ETL-Werkzeuge zeigen indes bei der Verarbeitung von Massendaten oft Leistungsprobleme beim Datendurchsatz. Hilfe versprechen Techniken wie eine Applikations-Parallelisierung bei Ascential, der Einsatz eines Bulk Loader oder die noch performanteren Array-Einfügeoperationen der Zieldatenbank in der ETL-Skriptsprache, wie