Datenanalyse

Data Warehouse Appliances - Trends und neue Techniken

26.04.2010
Von Hermann Gfaller
Mit speziellen Appliances wurde ein Data Warehouse auch für Kunden mit schmälerem Geldbeutel erschwinglich. Neue Techniken wie Flash-Speicher und In-Memory-Datenbanken dürften für zusätzlichen Schwung sorgen.

Der Trend zum Appliance brachte Bewegung in den einst von Konzernkunden geprägten Data-Warehouse-Markt. Vor allem sanken die Einstiegshürden in eine Technik, die verspricht, Geschäftsmöglichkeiten wie -risiken frühzeitig zu erkennen - oder zumindest das eigene Unternehmen transparenter zu machen. Immer mehr Datenbank- und Hardwarehersteller, aber auch Newcomer nutzen das wachsende Interesse, um den etablierten Data-Warehouse-Anbietern Marktanteile abzujagen und Einsteiger langfristig an die eigene Technik zu binden.

Selbst für gehobene mittelständische Unternehmen war ein Data-Warehouse (DW) lange Zeit schlicht zu aufwändig und zu teuer. Hier hat der US-amerikanische DW-Appliance-Pionier Netezza den Weg mit preiswerten Standardkomponenten geebnet. Tatsächlich verwendet heute kein Hersteller von DW-Appliances mehr Spezialkomponenten als unbedingt nötig. Bei Teradata ist das beispielsweise eine spezielle Kommunikations-Hardware, bei Netezza ein Field Programmable Gate Array (FPGA) zur raschen Verteilung der Daten auf die massiv parallelen Architekturen, mit denen die Appliances arbeiten.

Lesen Sie mehr zum Thema Data Warehouse und Business Intelligence:

Geschwindigkeit gilt als A und O

Günstige Speicher, schnelle CPUs und die Verwendung von Standardkomponenten haben die Einstiegsschwelle ins Data-Warehousing also deutlich gesenkt. Die Appliances haben Analysen nahe an der Echtzeit technisch und wirtschaftlich realisierbar gemacht - selbst mit großen Datenmengen. Allerdings hat sich inzwischen die Datenübertragung zum zeitraubenden Flaschenhals entwickelt. Die Branche behilft sich hier einerseits mit ausgefeilten Komprimierungsverfahren, um die zu übertragenden Datenmengen zu reduzieren, andererseits durch die Integration von immer mehr Analyse-Funktionen in die Datenbank. Das Ziel ist, die Daten dort zu analysieren, wo sie abgelegt sind.

Die IBM-Verantwortlichen verweisen im Zusammenhang mit ihren jüngst angekündigten Systemen auf die Option, das Analyse-Gerät direkt neben dem Datenspeicher aufzustellen, um den Weg von datenintensiven Transaktionen zu verkürzen. Vor allem bei automatisierten Börsengeschäften käme es auf Millisekunden an.

Scott Gnau, Chefentwickler von Teradata, warnt vor möglichen Problemen bei der Verwendung von In-Memory-Datenbanken.
Scott Gnau, Chefentwickler von Teradata, warnt vor möglichen Problemen bei der Verwendung von In-Memory-Datenbanken.
Foto: Teradata

Als schnellste Variante gilt, die Datenbank komplett im Hauptspeicher zu halten. Diese In-Memory-Datenbanken bringen ihren Nutzern laut Teradatas Chef-Entwickler Scott Gnau allerdings den Nachteil, dass sie zumindest momentan nicht ausreichend mit den Datenbeständen mitwachsen. BI-Spezialist Carsten Bange hält dieses Probleme allerdings für vorübergehend: "Ich sehe keinen Grund, warum es gerade hier keine Entwicklung zu mehr Skalierbarkeit geben soll." Teradata-Manager Gnau weist aber darüber hinaus auf mögliche Persistenzprobleme hin, und stellt die Frage, ob man denn jedes Mal die gesamte Datenbank neu laden wolle, wenn sich wie heute sehr häufig Änderungen ergeben.

Differenzierung auf der Software-Ebene

Bei aller Ähnlichkeit der Basistechnik schnüren die Anbieter meist recht unterschiedlich Lösungen für Data-Warehousing: Die Palette reicht von reinen Datenbank-Maschinen bis hin zu Komplettpaketen von IBM oder Oracle, mit mehreren Systemen, Middleware und Services, die sich sowohl für den operativen (transkationsorientierten) wie auch den analytischen Betrieb eignen sollen. Darüber hinaus ließe sich die jeweilige Datenbank theoretisch als proprietär bezeichnen: Zwar setzen die Anbieter allesamt auf die Abfragesprache SQL, allerdings werden die Daten nicht zeilenweise, sondern spaltenweise abgelegt und zudem anders organisiert.

Diese Art des Datenbankeinsatzes entfachte zuletzt eine Diskussion darüber, ob es sich dabei noch um relationale Systeme im herkömmlichen Sinn handelt. Von Bedeutung ist diese Auseinandersetzung vor allem, weil klassische Datenbank-Anbieter wie IBM, Oracle oder Microsoft darauf beharren, ihre General-Purpose-Datenbanktechnik auch für Data-Warehousing einsetzen zu können. Dafür spricht, dass zunehmend Transaktions-orientierte Daten in DWs eingebunden werden und so ein Mixed-Workload entsteht. Gartner-Group-Analyst Donald Feinberg spekuliert sogar, dass klassische OLTP-Datenbanken überflüssig werden könnten, wenn deren Aufgaben in einer Umgebung erledigt werden, die sich auch für Data-Warehousing nutzen lässt. Schließlich gehört es zu den erklärten Zielen der Datenbanker, möglichst nur eine Datenbank als einzige "Quelle der Wahrheit" zu bieten. Ausgelagert würden Datenkopien dann auf zeitlich begrenzte Projekt-Datamarts, wie das etwa Ebay mit dem so genannten Sandbox-Verfahren in einer privaten Cloud realisiert.

In diesem Sinne räumt Marktführer Teradata zwar ein, dass seine für analytische Zwecke optimierte Datenbank etwa IBMs DB2 im OLTP-Betrieb klar unterlegen ist, sobald jedoch die Auswertung der Informationen im Vordergrund stehe, könne man selbst im Mixed Workload mithalten - solange sich die schreibenden Aufgaben gegenüber den Lesezugriffen in Grenzen halten. Bei reinem Data-Warehousing dagegen sei man klar überlegen.