Trends im Data Management

Datenbanken wachsen zu Appliances

19.01.2009 von Sascha Alexander
Die Aussicht, der leidigen und teuren Pflege von Data Warehouses durch vorkonfigurierte Systeme zu entkommen, klingt verlockend. Allerdings sollten Unternehmen die Angebote sorgsam prüfen.

An Dynamik wird in den kommenden Jahren im Datenbankmarkt das Anwendungsgebiet Data Warehousing gewinnen. Laut IDC steigen die jährlichen Umsätze mit entsprechender Software, zu der neben Tools zum Aufbau und der Datenbewirtschaftung auch solche zur Verwaltung entsprechender dispositiver Lösungen gerechnet werden, seit 2005 zweistellig und erreichten zuletzt 2007 ein Plus von fast 15 Prozent (siehe auch den Beitrag "Der Datenbankmarkt kommt in Bewegung").

Wie bei OLTP-Systemen dominieren auch beim Data Warehousing relationale Datenbanken (RDBMS) als Kernkomponente, die wenig überraschend vor allem von Oracle, IBM und Microsoft stammen, gefolgt von Teradata und dem Spezialisten für Business Intelligence SAS Institute.

Doch die Marktaufteilung ist weniger eindeutig, als sie erscheint. So hat dieses Segment in den letzten Jahren eine Vielzahl neuer Anbieter angelockt. Sie werben mit neuen, im Vergleich zu bisherigen RDBMS angeblich leistungsfähigeren Produktarchitekturen für die Auswertung großer Datenmengen und können mittlerweile auch renommierte Kunden für sich gewinnen. Während traditionelle RDBMS eine zeilenorientierte Speicherung und den Aufbau komplexer Indizes erfordern, setzen diese neuen - teilweise aber auch schon lange im Markt verfügbaren - Produkte auf eine spalten-basierende Speicherung und massiv-parallele Rechnerarchitektur (MPP) für Data Warehousing.

Anwendern soll diese Architektur vor allem Performance-Vorteile und eine bessere Skalierbarkeit beim Ausbau ihrer Systeme bringen: "Data Warehouses wachsen häufig schneller, als es Unternehmen zu Beginn ihrer Projekte dachten", mahnt Carsten Bange, Geschäftsführer des Business Application Research Center (Barc), in Würzburg.

Black Box statt Schrauberei

Die meisten dieser Hersteller betrachten zudem die Datenbank nicht mehr isoliert, sondern sehen sie als Teil so genannter Data-Warehouse-Appliances. Solche Produkte kombinieren das DBMS mit eigener oder von Partnern ergänzter Speichertechnik (inklusive Datenkompression), Hardware und Management-Tools zu vorkonfigurierten Lösungen. Im Vergleich mit individuell konfigurierten Data-Warehouse-Lösungen soll dieser Ansatz ein besseres Preis-Leistungs-Verhältnis beim Aufbau einer Basis für Datenauswertungen bieten.

MIt der Teradata Extreme Data Appliance 1550 heizte Teradata kürzlich den Markt weiter an. Die Appliance hat einen Preis ab 16 500 Dollar pro gespeicherten Terabyte und soll als Lowend-Produkt Unternehmen den schrittweisen Auf- und Ausbau von Data-Warehouse-Systemen ermöglichen. Über eine Grid-Architektur sollen sich bis zu 50 Petabyte an Daten verwalten lassen.

Dieses Versprechen lässt Unternehmen aufhorchen, da immer mehr von ihnen mit ihren bisherigen Data-Warehouse-Lösungen an Leistungsgrenzen stoßen und nach Auswegen suchen. Verursacher sind die rasant steigenden Datenmengen, die Integration des Data Warehouse in Geschäftsprozesse und Anwendungen (beworben unter Bezeichnungen wie "operational BI" und "Real-Time Data Warehousing"), ferner zunehmend komplexere Datenanalysen durch "Power User" sowie schließlich vielfältige Ad-hoc-Abfragen aus wachsenden Benutzergruppen. Das Tuning und die richtige Skalierung des Data Warehouse sind dadurch zur ständigen Herausforderung für die IT geworden und verschlingen die knappen Ressourcen.

Die Aussicht, durch schlüsselfertige Appliances, deren Installation und Wartung der Hersteller oder dessen Partner übernehmen, die technische Infrastruktur auch bei steigenden Anforderungen in den Griff zu bekommen, klingt daher verlockend. Tatsächlich bieten solche Lösungen eine Reihe von Vorteilen. So richtet sich der Preis nach der zu verwaltenden Datenmenge, auf die alle Appliance-Komponenten (Festplatte, CPUs, Speicher, Input-Output und Datenbanksystem) abgestimmt sind. Normalerweise rechnen Anbieter wie Teradata, IBM, Hewlett-Packard (HP), Sun Microsystems/Greenplum, Netezza oder DatAllegro dabei in Terabyte pro Rechnerknoten.

Speicherbedarf genauer abschätzen

Kunden können so ihren Bedarf einfacher kalkulieren und ihr Data Warehouse exakt und schnell dimensionieren. Reicht der Platz nicht mehr, lässt sich vom Anbieter ein weiteres Modul in Form eines Server-Racks hinzufügen. Festplatten und Rechenleistung der Systeme sind nach Angaben ihrer Anbieter so abgestimmt, dass sie selbst bei umfangreichen Queries schnelle Antworten gewährleisten können. Anders als suggeriert, ist eine Appliance aber keine Plug-and-Play-Lösung. Sie liefert zwar einen wichtigen Teil der technischen Infrastruktur eines Data Warehouse. Dessen aufwändiges Design bleibt hingegen Aufgabe des Anwenders und seiner Dienstleister, wobei zumindest IBM und Teradata die Arbeiten durch vordefinierte Industriemodelle zu unterstützen versuchen.

Funktional decken die meisten Appliances nicht die Aufgaben der Datenbewirtschaftung (Extraktion, Transformation, Beladen, Datenqualitäts-Management) ab. Gleiches gilt für Auswertungswerkzeuge für Reporting und Analyse, die normalerweise nicht enthalten sind. Allerdings gehen die Hersteller mittlerweile Vertriebs- und Entwicklungsabkommen ein oder bieten wie IBM oder Teradata eigene oder zugekaufte Produkte für die Datenbewirtschaftung oder Business Intelligence ergänzend an. Dies bedeutet aber auch, dass der Anwender neben der Appliance zusätzliche Lizenzen für solche Werkzeuge in die Gesamtrechnung einbeziehen muss.

Probleme mit mixed Workloads

Vor allem die im Vergleich zu Individuallösungen angeblich überlegene Performance von Appliances ist bisher schwer nachzuprüfen, da zuverlässige Benchmarks fehlen und Referenzkunden beziehungsweise Highend-Installationen im Multi-Terabyte-Bereich noch die Ausnahmen bilden. Auch wird diskutiert, wie gut sich Appliances für die Verarbeitung und Auswertung halb- oder unstrukturierter Datentypen eigen und insbesondere wie gut sie mit "Mixed Workloads" umgehen können.

Letztere sind ein zunehmends Problem beim bei der Datenanalyse, das derzeit sämtliche Datenbankanbieter im Data Warehousing beschäftigt: kurz gesagt geht es geht darum, sowohl einfache als auch komplexe Datenabfragen unterstützen, als auch das Data Warehouse laufend mit neuen neuen/aktualisierten Daten befüllen zu können. Große, aber auch mittelständische Unternehmen wollen ihr bis dato als dispositives System genutztes Data Warehouse in die operativen Prozesse einbinden, um Kunden, Partner und Vertriebskanäle besser mit Geschäftsinformationen zu versorgen.

Was Appliances versprechen

Typische Vorteile, die beworben werden:

  • Vorkonfigurierte, auf Data Warehousing abgestimmte Systeme;

  • Wartung und Pflege übernehmen Hersteller oder dessen Partner;

  • besseres Preis-Leistungs-Verhältnis als Individualentwicklungen;

  • schneller Aufbau taktischer Lösungen;

  • sie nutzen eine MPP-Rechnerarchitektur und eine spaltenbasierende Datenspeicherung, die aufgrund der besseren Skalierbarkeit und Abfrageleistung als die Zukunft im Data Warehousing gelten;

  • die wachsende Konkurrenz lässt die Preise im Markt sinken.

Nachteile und Kritikpunkte:

  • Junger Markt, neue Produkte;

  • wenige Referenzkunden im Highend-Bereich (Multi-Terabyte) bei manchen Anbietern;

  • Verarbeitung von Mixed Workloads;

  • noch keine vollautomatischen System-Management-Funktionen;

  • Nutzung von Open-Source-Datenbanken, die laut Experten bisher nicht für unternehmenskritische Anwendungen zum Einsatz kommen sollten;

  • teilweises Bundling von Soft- und Hardware schränkt die Auswahloptionen ein.

Dies erfordert, dass ein Data Warehouses dynamischer (trickle feed statt Batch) und transaktionsorientierter arbeiten können muss, was wiederum wesentlich höhere Anforderungen an die Performance (Workload-Verarbeitung) des DBMS stellt. Zudem sieht Gartner-Analyst und Datenbankexperte Donald Feinberg in diesem Szenario sogar die Notwendigkeit eines RDBMS grundsätzlich in Frage gestellt, weil transaktionsrelevante Geschäftsinformationen zusehends im Data Warehouse und nicht wie bisher in der OLTP-Datenbank landen. Feinberg spricht in diesem Zusammenhang daher auch gelegentlich vom sich abzeichnenden "Tod des RDBMS"

Gartner-Analyst Donald Feinberg sieht immer mehr Transaktionsdaten in das Data Warehouse wandern und fragt offen, ob RDBMS langsam überflüssig werden.
Foto: Donald Feinberg

Unternehmen sollten also auf jeden Fall umsichtig vorgehen, wenn sie ihre künftige Data-Warehouse-Umgebung planen. Dabei sollten sie Appliances mit den tatsächlich benötigten Datenmengen testen sowie die technischen Besonderheiten und Ressourcenanforderungen der durchaus verschiedenen Produktarchitekturen von Appliances in einem Proof-of-Concept genau betrachten. Dass sich neben Neulingen mittlerweile die gesamte Datenbankprominenz mit dem Thema beschäftigt, belegt aber, wie wichtig dieser Trend trotz aller gegenwärtigen Zweifel werden dürfte.

Oracle und Microsoft reagieren

Grund hierfür sind sicher auch Erfolgsgeschichten wie die von Teradata, das seit rund 27 Jahren im Data-Warehouse-Markt agiert und nach einigem Hin und Her sich jetzt auch als Appliance-Anbieter im Data-Warehouse-Highend versteht und sein Portfolio ausbaut (Umsatz 2007: 1,7 Milliarden Dollar). Erste bescheidene Erfolge (angesichts der Ausgangsbasis) melden zudem Hersteller wie Hewlett-Packard mit seiner "Neoview"-Appliance (mit 8,4 Millionen Dollar Umsatz im Jahr 2007) oder Netezza, das seine Umsätze im Geschäftsjahr 2007/2008 (Ende: 31.Januar 2008) um 59 Prozent auf 126,7 Millionen Dollar gegenüber dem Vorjahr steigern konnte (siehe auch den Beitrag zur Neoview-Strategie von HP).

Mit der HP Oracle Database Machine reagierte Oracle kürzlich auf die wachsende Appliance-Konkurrenz und macht sich selbst zum Hardwareanbieter.

Ein großer Profiteur der Optimierungs- und Appliance-Debatte ist zudem ein alter Bekannter im Markt: Sybase. Dem Hersteller gelang ein Comeback vor allem durch seine spaltenbasierende Datenbank "Sybase IQ", die jetzt auch zur Data-Warehouse-Appliance erweitert wurde. So steigen insgesamt Umsätze mit Data-Warehouse-Software von 2006 auf 2007 um 41,7 Prozent auf 148 Millionen Dollar, die darin enthaltenen Lizenzverkäufe mit Sybase IQ erhöhten sich laut IDC 2007 um 77 Prozent.

Während IBM schon seit einiger Zeit versucht, mit Bundlings seiner "DB2-Datenbank" unter der Bezeichnung "InfoSphere Balanced Warehouse" das Anwendungsgebiet der Appliances für sich zu erschließen, hielten sich Microsoft und Marktführer Oracle lange zurück. Letzterer hatte es zunächst bei Referenzimplementierungen für "optimale" Data-Warehouse-Systeme belassen.

Erst vor kurzem folgte dann unter großem Medienecho die Vorstellung der "HP Oracle Database Machine" und des in ihr enthaltenen "HP Oracle Exadata Storage Server". Diese stellen vorkonfigurierte Server-Racks dar, welche die hauseigene Datenbanksoftware mit "Proliant"-Speichern von Hewlett-Packard kombinieren. Sie sollen Kunden eine einsatzbereite Infrastruktur für den Aufbau von Data-Warehouse-Lösungen bieten.

MPP gehört die Zukunft

Der Datenbankprimus geht dabei potenzielle Leistungsprobleme seines RDBMS auf diesem Anwendungsgebiet über die Speicherarchitektur (Grid) an. So ist der Exadata Storage Server mit einem Dutzend Festplatten und zwei Quad-Core-Intel-Prozessoren ausgerüstet und soll Datenbankabfragen bereits in der Speicherumgebung bewältigen. Dies werde die Arbeitslast des RDBMS erheblich reduzieren, argumentiert Oracle, da nur noch die benötigte Datenmenge (Abfrageergebnisse) geladen wird. Auch Microsoft hat kürzlich durch den Kauf des Spezialisten Datallegro Datenbanktechnik erworben und arbeitet derzeit offenbar an einer eigenen Appliance auf Basis des "SQL Server 2008".

Laut Carsten Bange von Barc vollziehen Oracle und Microsoft mit den neuen Produkten nun auch technisch den Schwenk auf "Shared-nothing-MPP-Architekturen" für große Data Warehouses. "Mit der Ankündigung der großen Hersteller sollte die Diskussion um die "bessere" Architektur für Data Warehousing endlich vorbei sei", hofft Bange.

Offen ist, ob sich Appliances als eigenes Marktsegment etablieren werden. Bisher gibt es keine Zahlen zum Marktvolumen, da Analystenhäuser diese Produkte dem Datenbank- und Data-Warehousing-Markt zuteilen. Auch sehen Experten wie Donald Feinberg von Gartner Appliances bisher in erster Linie als taktische Ergänzungen zu bestehenden unternehmensweiten Data-Warehouse-Systemen, um kurzfristige Anforderungen und/oder schnelle Analyseanwendungen aufzubauen.

Doch schon heute haben neue Appliance-Anbieter für einen Preisdruck gesorgt, der beispielsweise Teradata dazu bewogen hat, deutlich preiswertere Einstiegsversionen auf den Markt zu bringen. Und auch die Reaktionen von Oracle und Microsoft zeigen, dass man dem Treiben kleinerer Datenbankhersteller, nicht untätig zusehen will.

Anbieter von Appliances für Data Warehousing