Datenbanken wachsen zu Appliances

08.01.2009
Von 


Sascha Alexander ist seit vielen Jahren als Redakteur, Fachautor, Pressesprecher und Experte für Content-Strategien im Markt für Business Intelligence, Big Data und Advanced Analytics tätig. Stationen waren unter anderem das Marktforschungs- und Beratungshaus BARC, die "Computerwoche" sowie das von ihm gegründete Portal und Magazin für Finanzvorstände CFOWORLD. Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.
Mit vorkonfigurierten hardwarebasierenden Systemen wollen sich Anwender den Aufwand für den Data-Warehouse-Betrieb erleichtern. Doch Vorsicht: Es drohen jede Menge versteckte Kosten.

An Dynamik wird in den kommenden Jahren das Anwendungsgebiet Data Warehousing gewinnen. Laut IDC steigen die jährlichen Umsätze mit entsprechender Software, zu der neben Tools zum Aufbau und der Datenbewirtschaftung auch solche zur Verwaltung entsprechender dispositiver Lösungen gerechnet werden, seit 2005 zweistellig und erreichten zuletzt 2007 ein Plus von fast 15 Prozent. Wie bei OLTP-Systemen dominieren auch beim Data Warehousing als Kernkomponente relationale Datenbanken (RDBMS), die wenig überraschend vor allem von Oracle, IBM und Microsoft stammen, gefolgt von Teradata und dem Spezialisten für Business Intelligence SAS Institute.

Doch die Marktaufteilung ist weniger eindeutig, als sie erscheint. So hat dieses Segment in den letzten Jahren eine Vielzahl neuer Anbieter angelockt. Sie werben mit innovativen, im Vergleich zu bisherigen RDBMS angeblich leistungsfähigeren Produktarchitekturen für die Auswertung großer Datenmengen und können mittlerweile auch renommierte Kunden für sich gewinnen.

Während traditionelle RDBMS eine zeilenorientierte Speicherung und den Aufbau komplexer Indizes erfordern, setzen diese neuen - teilweise aber auch schon lange im Markt verfügbaren - Produkte auf eine spaltenbasierende Speicherung und massiv-parallele Rechnerarchitektur (MPP) für Data Warehousing (siehe Seite 20: "Die Kunst der Datenbankoptimierung"). Anwendern soll diese Architektur vor allem Performance-Vorteile und eine bessere Skalierbarkeit beim Ausbau ihrer Systeme bringen: "Data Warehouses wachsen häufig schneller, als es Unternehmen zu Beginn ihrer Projekte dachten", mahnt Carsten Bange, Geschäftsführer des Business Application Research Center (Barc), in Würzburg.

Black Box statt Schrauberei

Die meisten dieser Hersteller betrachten zudem die Datenbank nicht mehr isoliert, sondern sehen sie als Teil so genannter Data-Warehouse-Appliances. Solche Produkte kombinieren das DBMS mit eigener oder von Partnern ergänzter Speichertechnik (inklusive Datenkompression), Hardware und Management-Tools zu vorkonfigurierten Lösungen. Im Vergleich mit individuell konfigurierten Data-Warehouse-Lösungen soll dieser Ansatz ein besseres Preis-Leistungs-Verhältnis beim Aufbau einer Basis für Datenauswertungen bieten. Dieses Versprechen lässt Unternehmen aufhorchen, da immer mehr von ihnen mit ihren bisherigen Data-Warehouse-Lösungen an Leistungsgrenzen stoßen und nach Auswegen suchen. Verursacher sind die rasant steigenden Datenmengen, die Integration des Data Warehouse in Geschäftsprozesse und Anwendungen (bezeichnet als "operational BI" und "Real-Time Data Warehousing"), ferner zunehmend komplexere Datenanalysen durch "Power User" sowie schließlich vielfältige Ad-hoc-Abfragen aus wachsenden Benutzergruppen. Das Tuning und die richtige Skalierung des Data Warehouse sind dadurch zur ständigen Herausforderung für die IT geworden und verschlingen die knappen Ressourcen.

Die Aussicht, durch schlüsselfertige Appliances, deren Installation und Wartung der Hersteller oder dessen Partner übernehmen, die technische Infrastruktur auch bei steigenden Anforderungen in den Griff zu bekommen, klingt daher verlockend. Tatsächlich bieten solche Lösungen eine Reihe von Vorteilen. So richtet sich der Preis nach der zu verwaltenden Datenmenge, auf die alle Appliance-Komponenten (Festplatte, CPUs, Speicher, Input-Output und Datenbanksystem) abgestimmt sind. Normalerweise rechnen Anbieter wie Teradata, IBM, Hewlett-Packard (HP), Sun Microsystems/Greenplum, Netezza oder Datallegro dabei in Terabyte pro Rechnerknoten.

Speicherbedarf genauer abschätzen

Kunden können so ihren Bedarf einfacher kalkulieren und ihr Data Warehouse exakt und schnell dimensionieren. Reicht der Platz nicht mehr, lässt sich vom Anbieter ein weiteres Modul in Form eines Server-Einschubs hinzufügen. Festplatten und Rechenleistung der Systeme sind nach Angaben ihrer Anbieter so abgestimmt, dass sie selbst bei umfangreichen Queries schnelle Antworten gewährleisten können. Anders als suggeriert, ist eine Appliance aber keine Plug-and-Play-Lösung. Sie liefert zwar einen wichtigen Teil der technischen Infrastruktur eines Data Warehouse. Dessen aufwändiges Design bleibt hingegen Aufgabe des Anwenders und seiner Dienstleister, wobei zumindest IBM und Teradata die Arbeiten durch vordefinierte Industriemodelle zu unterstützen versuchen. Funktional decken die meisten Appliances nicht die Aufgaben der Datenbewirtschaftung (Extraktion, Transformation, Beladen, Datenqualitäts-Management) ab. Gleiches gilt für Auswertungswerkzeuge für Reporting und Analyse, die normalerweise nicht enthalten sind. Allerdings gehen die Hersteller mittlerweile Vertriebs- und Entwicklungsabkommen ein oder bieten wie IBM oder Teradata eigene oder zugekaufte Produkte für die Datenbewirtschaftung oder Business Intelligence ergänzend an. Dies bedeutet aber auch, dass der Anwender neben der Appliance zusätzliche Lizenzen für solche Werkzeuge in die Gesamtrechnung einbeziehen muss.

Probleme mit Mixed Workloads

Vor allem die im Vergleich zu Individuallösungen angeblich überlegene Performance von Appliances ist bisher schwer nachzuprüfen, da zuverlässige Benchmarks fehlen und Referenzkunden beziehungsweise Highend-Installationen im Multi-Terabyte-Bereich noch die Ausnahmen bilden. Auch wird diskutiert, wie gut sich Appliances für die Verarbeitung und Auswertung halb- oder unstrukturierter Datentypen eignen und insbesondere wie gut sie mit "Mixed Workloads" umgehen können. Letztere sind ein weiterer Trend, der derzeit sämtliche Datenbankanbieter im Data Warehousing beschäftigt: Große, aber auch mittelständische Unternehmen wollen ihr bis dato als dispositives System genutztes Data Warehouse in die operativen Prozesse einbinden, um Kunden, Partner und Vertriebskanäle besser mit Geschäftsinformationen zu versorgen.

Das hat einerseits zur Folge, dass Data Warehouses dynamischer und transaktionsorientierter arbeiten können müssen, was wiederum wesentlich höhere Anforderungen an die Performance des DBMS stellt. Zum anderen stellt diese Entwicklung laut Gartner-Analyst und Datenbankexperte Donald Feinberg die Notwendigkeit eines RDBMS grundsätzlich in Frage, weil transaktionsrelevante Geschäftsinformationen zusehends im Data Warehouse und nicht wie bisher in der OLTP-Datenbank landen. Feinberg spricht in diesem Zusammenhang daher gelegentlich vom sich abzeichnenden "Tod des RDBMS" (Einen radikalen Neuanfang bei Datenbanken formuliert auch das Projekt "H-Store". Lesen Sie hierzu auf Seite 22).

Unternehmen sollten also auf jeden Fall umsichtig vorgehen, wenn sie ihre künftige Data-Warehouse-Umgebung planen. Dabei sollten sie Appliances mit den tatsächlich benötigten Datenmengen testen sowie die technischen Besonderheiten und Ressourcenanforderungen der durchaus verschiedenen Produktarchitekturen von Appliances in einem Proof of Concept genau betrachten. Dass sich neben Neulingen mittlerweile die gesamte Datenbankprominenz mit dem Thema beschäftigt, belegt aber, wie wichtig dieser Trend trotz aller gegenwärtigen Zweifel werden dürfte.

Newcomer und alte Hasen

Grund hierfür sind sicher auch Erfolgsgeschichten wie die von Teradata, das seit rund 27 Jahren im Data-Warehouse-Markt agiert und nach einigem Hin und Her sich jetzt auch als Appliance-Anbieter im Data-Warehouse-Highend versteht und sein Portfolio ausbaut (Umsatz 2007: 1,7 Milliarden Dollar). Erste bescheidene Erfolge (angesichts der Ausgangsbasis) melden zudem Hersteller wie Hewlett-Packard mit seiner "Neoview"-Appliance (mit 8,4 Millionen Dollar Umsatz im Jahr 2007) oder Netezza, das seine Umsätze im Geschäftsjahr 2007/2008 (Ende: 31.Januar 2008) um 59 Prozent auf 126,7 Millionen Dollar gegenüber dem Vorjahr steigern konnte. Ein großer Profiteur der Optimierungs- und Appliance-Debatte ist zudem ein alter Bekannter im Markt: Sybase. Dem Hersteller gelang ein Comeback vor allem durch seine spaltenbasierende Datenbank "Sybase IQ", die jetzt auch zur Data-Warehouse-Appliance erweitert wurde. So steigen insgesamt Umsätze mit Data-Warehouse-Software von 2006 auf 2007 um 41,7 Prozent auf 148 Millionen Dollar, die darin enthaltenen Lizenzverkäufe mit Sybase IQ erhöhten sich laut IDC 2007 um 77 Prozent.

Während IBM schon seit einiger Zeit versucht, mit Bundlings seiner "DB2-Datenbank" das Anwendungsgebiet der Appliances für sich zu erschließen, hielten sich Microsoft und Marktführer Oracle lange zurück. Letzterer hatte es zunächst bei Referenzimplementierungen für "optimale" Data-Warehouse-Systeme belassen. Erst vor kurzem folgte dann unter großem Medienecho die Vorstellung der "HP Oracle Database Machine" und des in ihr enthaltenen "HP Oracle Exadata Storage Server". Diese stellen vorkonfigurierte Server-Racks dar, welche die hauseigene Datenbanksoftware mit "Proliant"-Speichern von Hewlett-Packard kombinieren. Sie sollen Kunden eine einsatzbereite Infrastruktur für den Aufbau von Data-Warehouse-Lösungen bieten.

Oracle und Microsoft reagieren

Der Datenbankprimus geht dabei potenzielle Leistungsprobleme seines RDBMS auf diesem Anwendungsgebiet über die Speicherarchitektur (Grid) an. So ist der Exadata Storage Server mit einem Dutzend Festplatten und zwei Quad-Core-Prozessoren von Intel ausgerüstet und soll Datenbankabfragen bereits in der Speicherumgebung bewältigen. Dies werde die Arbeitslast des RDBMS erheblich reduzieren, argumentiert Oracle, da nur noch die benötigte Datenmenge (Abfrageergebnisse) geladen wird. Auch Microsoft hat kürzlich durch den Kauf des Spezialisten Datallegro Datenbanktechnik erworben und arbeitet derzeit offenbar an einer eigenen Appliance auf Basis des "SQL Server 2008". Laut Carsten Bange von Barc vollziehen Oracle und Microsoft mit den neuen Produkten nun auch technisch den Schwenk auf "Shared-nothing-MPP-Architekturen" für große Data Warehouses. "Mit der Ankündigung der großen Hersteller sollte die Diskussion um die "bessere" Architektur für Data Warehousing endlich vorbei sei", hofft Bange.

Marktdynamik nimmt zu

Offen ist, ob sich Appliances als eigenes Marktsegment etablieren werden. Bisher gibt es keine Zahlen zum Marktvolumen, da Analystenhäuser diese Produkte dem Datenbank- und Data-Warehousing-Markt zuteilen. Auch sehen Experten wie Donald Feinberg Appliances bisher in erster Linie als taktische Ergänzungen zu bestehenden unternehmensweiten Data-Warehouse-Systemen, um kurzfristige Anforderungen und/oder schnelle Analyseanwendungen aufzubauen. Doch schon heute haben neue Appliance-Anbieter für einen Preisdruck gesorgt, der beispielsweise Teradata dazu bewogen hat, deutlich preiswertere Einstiegsversionen auf den Markt zu bringen. Und auch die Reaktionen von Oracle und Microsoft zeigen, dass man dem Treiben kleinerer Datenbankhersteller nicht untätig zusehen will.

Anbieter von Appliances

  • Calpont: "Calpont";

  • Datallegro: "Datallegro" (P2, P5, C25) -jetzt bei Microsoft;

  • Dataupia: "Dataupia Satori Server";

  • Hewlett-Packard: "Neoview";

  • IBM: "Balanced Warehouse" (C-, D-,E-Klasse);

  • Kognitio: "Kognitio WX2 Virtual Data Warehouse Appliance";

  • Netezza: "Netezza Performance Server";

  • Oracle: "HP Oracle Database Machine" und "HP Oracle Exadata Storage Server";

  • Paraccell: "Paraccell";

  • Sun Microsystems/Greenplum: "Data Warehouse Appliance";

  • Teradata: "Teradata Extreme Data Appliance 1550", Teradata 550, 2550,5550;

  • Vertica Systems: "Vertica".

Appliances

Vorteile

(+) Vorkonfigurierte, auf Data Warehousing abgestimmte Systeme;

(+) Wartung und Pflege übernehmen Hersteller oder dessen Partner;

(+) besseres Preis-Leistungs-Verhältnis als Individualentwicklungen;

(+) schneller Aufbau taktischer Lösungen;

(+) sie nutzen eine MPP-Rechnerarchitektur und eine spaltenbasierende Datenspeicherung, die aufgrund der besseren Skalierbarkeit und Abfrageleistung als die Zukunft im Data Warehousing gelten;

(+) transparentes Preismodell nach Datenvolumen.

Nachteile

(-) Junger Markt, neue Produkte;

(-) wenige Referenzkunden im HighendBereich (Multi-Terabyte) bei manchen Anbietern;

(-) Verarbeitung von Mixed Workloads;

(-) noch keine vollautomatischen System-Management-Funktionen;

(-) Nutzung von Open-Source-Datenbanken, die laut Experten bisher nicht für unternehmenskritische Anwendungen zum Einsatz kommen sollten;

(-) teilweises Bundling von Soft- und Hardware schränkt die Auswahloptionen ein;

(-) zusätzliches Wissen und Know-how nötig.