Data Warehousing

Die Datenverwaltung und Auswahl der richtigen Datenbank geraten zur Wissenschaft

28.04.2008 von Sascha Alexander

Die Datenverwaltung und neue Basistechnologien für Data Warehousing stellen Unternehmen vor wachsende Herausforderungen, warnt Philip Howard, Research Director bei Bloor Research im Gespräch mit der COMPUTERWOCHE.

CW: Bisher lagern Unternehmensdaten oft verteilt und unkoordiniert in diversen Datenhaltungen. Doch immer mehr Anwender zeigen aus strategischen und wirtschaftlichen Gründen Interesse an einer systematischen und übergreifenden Datenverwaltung. Gehört einem Enterprise Data Management (EDM) die Zukunft?

Howard: Es gibt erste Unternehmen, die Projekte für Data Governance gestartet und Data Stewards für die Datenqualität benannt haben. Wichtig ist, dass IT und Business dabei zusammenarbeiten und sich schnell Erfolge aufzeigen lassen. Ein Beispiel ist der Pharmakonzern GlaxoSmithKline. Ein Jahr nach Start der Initiative konnten die Projektverantwortlichen dem Vorstand erste wirtschaftliche Vorteile durch Data Governance präsentieren. Das schafft Vertrauen. Ein umfassendes EDM habe ich aber bisher nicht gesehen. Es gibt einfach zu viele Probleme im Daten Management, wie beispielsweise die Verwaltung von Excel-Spreadsheets. Oft weiß die IT gar nicht, dass es in den Fachabteilungen Daten gibt. Ein klares Verständnis für die im Unternehmen befindlichen Daten fehlt, Tools für Data Discovery kommen nicht zum Einsatz, und bei Datenintegrations- und -migrationsprojekten findet nur selten ein Profiling der Daten statt (siehe auch wie sich Datenqualität steigern lässt).

CW: Dann stecken vermutlich auch Ansätze zu einem übergreifenden Datenmodell noch in den Kinderschuhen? Die Idee ist ja, mit dessen Hilfe die Beziehungen zwischen den Daten zu strukturieren. Ebenso ließen sich solche Modelle beispielsweise für den Aufbau von Data Services verwenden, die als zentrale Bausteine Service-orientierter Architekturen (SOA) diskutiert werden (zum Thema SOA und SOA Services siehe auch den SOA Expertenrat der Computerwoche).

Vom Datenmodell zum SOA-Service

Howard: Das Interesse an solchen Modellen steigt. Am Anfang hatten Unternehmen sich bei SOA nur um die Anwendungen gekümmert und nicht über die Daten nachgedacht. Mittlerweile sieht man in Projekten, dass Data Services und ein gemeinsames Datenmodell nötig sind, um die Daten über Web Services zu integrieren. Aber insgesamt steht das Thema noch am Anfang.

Datenbankexperte Philip Howard sieht die relationalen Datenbanken als Basis für Data Warehousing ins Hintertreffen geraten.
Foto:

CW: Wie sehen Lösungen für ein übergreifendes Daten-Management aus? Wo sollten Stammdaten und Metadaten verwaltet werden? Im Data Warehouse oder in einer eigenen Lösung?

Howard: Geht es nur um die Datenbasis für Datenanalysen und Reporting, ist das Data Warehouse der beste Ort. Sind hingegen beispielsweise CRM-Anwendungen zu synchronisieren (Transaktionsdaten), sollte dies mit Hilfe einer OLTP-Datenbank geschehen. Werden diese Daten zugleich im Data Warehouse gebraucht, müssen sie sich entweder föderieren oder replizieren lassen. Bei Stammdatenverwaltung zeigt sich ein Wandel: War bisher das Data Warehouse das "System of Record", etablieren sich nun auch eigene Lösungen für die Stammdatenverwaltung (Siehe auch "Stammdaten - der Business Case für SOA"). Manche Unternehmen fragen sich daher, ob sie überhaupt noch ein zentrales "Enterprise Data Warehouse" (EDW) brauchen oder ob nicht föderierte Data Marts ausreichen.

Netezza wirbelt den Markt durcheinander

CW: Welche neuen Ansätze bei der Datenverwaltung und Abfragen sehen Sie?

Howard: Der Anbieter von Data-Warehouse-Appliances Netezza hat eine große Wirkung im Markt, da er die traditionellen Datenbankanbieter in puncto Abfragegeschwindigkeit herausfordert. Das zeigt sich insbesondere bei Ad-hoc-Abfragen, für die vorab keine Datenbank-Indizes angelegt sind, sowie bei Large Table Scans für komplexe Analysen. Eine Abfrage ist dann komplex, wenn sie viele Joints enthält oder gar einen Full Table Scan erfordert. Auch Hersteller wie Sybase haben mit Sybase IQ ihre Technik in diese Richtung entwickelt.

CW: Würden Sie Data Warehouse Appliances heute schon uneingeschränkt empfehlen?

Howard: Manche Angebote sind reifer als andere. Kognitio zum Beispiel ist seit vielen Jahren im Markt aktiv (siehe auch "Was bringt das Data Warehouse aus der Box?"). Doch erst mit dem Appliance-Thema kam der Hersteller wieder in Fahrt. Er hat aber nur wenige Kunden. Netezza hingegen kann schon rund 200 Kunden vorweisen. Andere Hersteller kamen erst später in den Markt. Alle diese Neueinsteiger verkaufen ihre Produkte über Proof of Concepts, was Unternehmen die Chance gibt, sich zunächst einen besseren Eindruck von der Technik zu verschaffen.

Zudem werben die Appliance-Anbieter mit einem besseren Preis-Leistungs-Verhältnis im Vergleich zu traditionellen Data-Warehouse-Lösungen. So ersetzte beispielsweise Netezzas erster Kunde, Catalina Marketing, sein Data Warehouse von Teradata, weil der Preis eines Netezza-Systems geringer war als die jährliche Wartungsgebühr von Teradata (kürzlich hat Teradata neue Datenbank-Server und Einstiegsmodelle vorgestellt).

Data-Warehouse-Appliances

CW: Gibt es auch Fälle, wo eine Appliance als EDW zum Einsatz kommt?

Howard: Unternehmen setzen eine Data-Warehouse-Appliance oft ergänzend (und entlastend) zum bestehenden Data Warehouse ein, etwa für Kundenanalysen (siehe zum Beispiel, wie Wal-Mart die Appliance von Hewlett-Packard nutzen will). Ich kenne aber kein Unternehmen, das eine Appliance als EDW nutzt. Stattdessen verfolgen manche Anwender einen föderierten Ansatz mit mehreren Appliances und verzichten auf ein EDW als System of Record.

CW: Erwarten Sie, dass Appliances in die Rolle eines EDW hineinwachsen?

Howard: Die Angebote entwickeln sich in diese Richtung. Die zentrale Herausforderung für die Produkte ist der Umgang mit Mixed Query Workloads. Netezza, DatAllegro und andere führen erste Techniken hierfür ein.

CW: Auch etablierte Datenbankhersteller setzen auf Appliances für Data Warehousing. Neben Teradata, das seit langem in diesem Geschäft ist, bieten Hewlett-Packard und IBM entsprechende integrierte Angebote (siehe auch "IBM fordert Oracle im Data Warehousing heraus"). Oracle und seine Hardwarepartner werben unter dem Namen "Optimized Warehouse" mit Referenzkonfigurationen, Microsoft kooperiert mit Dell. Wie offen sind denn solche Angebote?

Auswahl der Hardware wird beschränkt

Howard: In puncto Hardwareauswahl sind die Angebote von IBM und HP nicht sehr offen. Nur Oracle macht eine Ausnahme, da sie keine Hardware haben.

CW: Also droht ein Lock-in?

Howard: Man muss zwischen Software- und Hardware-Appliance-Anbietern unterscheiden. Erstere sind offener, haben aber auch ihre bevorzugten Partner.

CW: Manche Analysten haben schon einmal provokant vom "Tod des traditionellen RDBMS" gesprochen.

Howard: Relationale Datenbank-Management-Systeme entstanden vor über 20 Jahren, um Limitationen in der Hardware auszugleichen. Das ist heute nicht mehr nötig. Es gibt sogar mit "H"-Store ein Forschungsprojekt, das die bisherigen OLTP-Datenbanken konzeptionell in Frage stellt.

CW: Doch die Datenbanken haben sich weiterentwickelt. Man denke nur an Oracle, das heute mit Techniken wie integriertes Data Mining, Kompression, Partitionierung und Real Application Clustering aufwartet und sich als System für Data Warehousing, relationale Datenhaltung und unstrukturierte Daten nutzen lässt. Auch plant Oracle eine Engine für Event-Processing.

Howard: Ohne Zweifel. Aber viele dieser Features wie beispielsweise die Datenkompression bieten heute auch andere Hersteller (zum Beispiel Sybase Cluster Edition). Oft sind sie Anbietern wie Oracle und IBM technisch sogar voraus. Letztlich geht es darum, wofür der Anwender die Datenbank braucht: allgemeine Datenverwaltung oder spezielle Analysen?

Grenzen traditioneller Datenbanken

CW: Warum sollten etablierte Datenbankhersteller sich nicht auch diese neuen Techniken zunutze machen?

Howard: Das Problem ist der radikal andere Ansatz. In traditionellen Datenbanken müssen Indizes (materialized views) geschaffen werden. Hersteller können nicht zu ihren Kunden gehen und dieses Konzept einfach über den Haufen werfen. Hilfe versprechen Produkte wie das von Dataupia. Dieser Hersteller bietet eine Appliance mit massiv-paralleler-Prozessorarchitektur die sich als Plug-in in eine vorhandene Oracle-, IBM- oder Microsoft-Datenbank integrieren lässt und die Speicherverwaltung übernimmt. Dies bringt zusätzliche Performance. Kunden müssen ihre vorhandenen Anwendungen nicht ändern. Dataupia ist erst seit letztem Jahr auf dem Markt und verhandelt derzeit mit Microsoft, um auch deren Datenbank eine bisher nicht vorhandene Skalierbarkeit zu geben.

CW: Sehen Sie auch Open-Source-Angebote in diesem Segment?

Howard: Nicht wirklich, wenn auch Greenplum eine Art von Open Source ist. Vertica hat beispielsweise gerade MySQL ausgetauscht, weil die Datenbank für dieses Einsatzgebiet nicht genug skaliert.

Sinkende Preise, mehr Anbieter

CW: Steigt durch die vielen neuen Angebote der Preisdruck auf die etablierten Datenbankhersteller?

Howard: Mit Sicherheit! Teradata hat zum Beispiel gerade eine Low-end-Appliance vorgestellt.

CW: Wie können sich Kunden bei den unterschiedlichen Datenbankkonzepten noch orientieren? Machen die neuen Techniken künftig Datenbanklösungen komplexer und schwieriger zu warten?

Howard. Das Angebot ist vielfältiger und komplexer geworden. Allein die Zahl der Anbieter für Data Warehousing hat sich in den letzten Jahren verdreifacht. Allerdings betonen alle neuen Anbieter, dass mit ihren Appliances der Verwaltungsaufwand sinkt. Geht es um eine strategische Entscheidung, würde ich mich aber dennoch an einen etablierten und finanziell stabilen Anbieter halten. Produkte von Startups wie Vertica, ParAccel oder illuminate würde ich nur auf Projektbasis erproben.