Wozu ein Data Warehouse aus der Box?

21.06.2007
Angebote aus integrierter Hard- und Software (Appliances) sollen den Aufbau und Betrieb eines Data Warehouse erleichtern und verbilligen. Doch der Beweis steht noch aus.

Appliances für Data Warehousing lassen sich als speziell für dieses Anwendungsgebiet vorkonfigurierte Hardware inklusive Speichertechnik, Management-Tools und abgestimmtem Datenbanksystem beschreiben. Das Interesse an diesen Systemen wird durch das Versprechen ihrer Hersteller geschürt, ein besseres Preis-Leistungs-Verhältnis beim Aufbau einer Basis für Datenauswertungen zu bieten, als dies mit individuell konfigurierten Data-Warehouse-Lösungen möglich wäre.

Hier lesen Sie ...

was Appliances alles versprechen;

welche Vorteile sie wirklich haben;

wie Unternehmen sich dem Thema nähern sollten.

Appliance-Anbieter

Teradata: "Teradata Enterprise Data Warehouse";

IBM: "Balanced Warehouse" (C-, D-,E-Klasse);

Sun Microsystems/Greenplum: "Data Warehouse Appliance";

Hewlett-Packard: "Neoview";

Netezza: "Netezza Performance Server";

Dataallegro: "Dataallegro" (P2, P5, C25);

Dataupia: "Dataupia Satori Server";

Calpont: "Calpont";

Paraccell: "Paraccell";

Vertica Systems: "Vertica";

Kognitio: "Kognitio WX2 Virtual Data Warehouse Appliance".

Mehr zum Thema

www.computerwoche.de/

589977: IBM-Ankündigung;

1217650: Strategie von HP;

1215618: Produktstrategie Teradata.

Auch kommt die Diskussion über Appliances zu einem Zeitpunkt, da immer mehr Unternehmen mit ihren bisherigen Lösungen an Leistungsgrenzen stoßen. Verursacher sind die rasant steigenden Datenmengen, die Integration des Data Warehouse in Geschäftsprozesse, zunehmend komplexere Datenanalysen durch "Poweruser" sowie vielfältige Adhoc-Abfragen aus wachsenden Benutzergruppen. Das Tuning und die richtige Skalierung des Data Warehouse werden so zur ständigen Herausforderung und Bedrohung für die IT. Ganz zu schweigen von den Kosten und Ressourcen, die diese Arbeiten verschlingen.

Transparenz bei den Kosten

Die Aussicht, durch schlüsselfertige Appliances die technische Infrastruktur auch bei steigenden Anforderungen in den Griff zu bekommen, klingt daher verlockend. Tatsächlich bieten solche Lösungen eine Reihe von Vorteilen. So bestimmt sich der Preis nach der zu verwaltenden Datenmenge, auf die alle Appliance-Komponenten (Festplatte, CPUs, Speicher, Input-Output und Datenbanksystem) abgestimmt sind. Normalerweise rechnen Anbieter wie Teradata, IBM, Hewlett-Packard (HP), Sun Microsystems/Greenplum, Netezza oder Dataallegro dabei in Gigabyte/Terabyte pro Rechnerknoten. Kunden können so ihren Bedarf einfacher kalkulieren und ihr Data Warehouse exakter und schneller dimensionieren. Reicht der Platz nicht mehr, lässt sich ein weiteres Modul des Anbieters hinzufügen. Zudem sind Festplatten und Rechenleistung der Systeme laut ihren Anbietern so abgestimmt, dass sie selbst bei umfassenden Queries schnelle Antworten gewährleisten können. Technisch setzen die Hersteller hierzu fast ausschließlich auf massiv-parallele Prozessorarchitekturen (MPP) mit einer partitionierten Shared-nothing-Speicherverwaltung. Manche Marktbeobachter bezeichnen Appliances daher auch als optimierte Datenbanksysteme mit darunterliegender MPP-Architektur.

Große Preisspanne

Viele Anbieter verschaffen sich zudem durch den Einbau von Standardprozessoren, preisgünstigen Hardware- und Speicherkomponenten sowie die Nutzung von Linux und quelloffenen Datenbanken wie Ingres oder Postgres einen Kostenvorteil, den sie an Kunden weitergeben können. Dennoch bleibt die Preisspanne groß. So werden Einstiegspreise von Sun/Greenplum von 15 000 Dollar pro Terabyte kolportiert. HP soll hingegen mit seiner "Neoview"-Appliance 650 000 Dollar für 3 Terabyte verlangen, was laut Insidern immer noch weniger ist als bei Teradata. Allerdings handelt es sich nicht um reale, sondern um Listenpreise. Beispielsweise wird von Teradata, dem Pionier und umsatzstärksten Appliance-Anbieter, berichtet, dass der Hersteller aufgrund der wachsenden Konkurrenz in den letzten zwei Jahren die Lizenzpreise ordentlich gesenkt hat.

Appliances liefern nur einen Teil der technischen Infrastruktur

Die wohl stärksten Argumente der Appliance-Anbieter bleiben aber die vereinfachte Konfiguration, Integration sowie das vorab beziehungsweise als Support während des Betriebs erfolgende Tuning der Systeme. Dies erleichtert Administratoren ihre Arbeit und senkt die Betriebs- und damit Gesamtkosten eines Data-Warehouse laut Otto Görlich, Mitarbeiter im Technical Sales bei IBM, erheblich: "Die gesamten Hard- und Softwarekosten liegen bei höchstens 20 Prozent im Projekt über fünf Jahre gerechnet. Der Rest sind Betriebskosten." Schließlich können Kunden bei Problemen mit der Appliance den Support des gesamtverantwortlichen Anbieters anrufen, statt sich mit verschiedenen Hotlines und Anbietern auseinandersetzen zu müssen.

Junger Markt

Doch viele Versprechungen der Appliance-Anbieter sind in der Praxis schwer zu beurteilen. So sind Angebote wie die von Netezza, Dataallegro, Dataupia, Vertica Systems und Paraccell noch relativ neu auf dem Markt. Startups wie Calpont, Kognitio (vormals Whitecross) mussten bereits ihre Produktarchitektur überarbeiten. Netezza, das in Kürze an die Börse gehen will, schreibt noch rote Zahlen, andere Firmen sind in Privatbesitz und veröffentlichen keine Zahlen. Abgesehen von Teradata, das seit vielen Jahren Appliances zum Aufbau unternehmensweiter Data-Warehouse-Lösungen entwickelt und implementiert, fehlt es allen Herausforderern an Referenzen, insbesondere in Deutschland. Sun Microsystems und Partner Greenplum beispielsweise können bisher nur einen Anwender auf den Philippinen benennen.

Appliances berechnen sich nach Gigabyte/Terabyte pro Rechnerknoten.

Anders als suggeriert ist eine Appliance auch keine Plug-and-Play-Lösung. Sie liefert zwar einen wichtigen Teil der technischen Infrastruktur eines Data Warehouse. Dessen aufwändiges Design bleibt hingegen Aufgabe des Anwenders und seiner Dienstleister, wobei zumindest IBM und Teradata die Arbeiten durch vordefinierte Industriemodelle zu unterstützen versuchen. Funktional decken die meisten Appliances viele Aufgaben der Datenbewirtschaftung (Extraktion, Transformation, Beladen, Datenqualitäts-Management) nicht ab. Gleiches gilt für Auswertungswerkzeuge für Reporting und Analyse, die normalerweise nicht enthalten sind. Allerdings gehen die Hersteller mittlerweile Vertriebsabkommen ein oder bieten wie IBM oder Teradata zugekaufte Produkte für die Datenbewirtschaftung ergänzend an. Dies bedeutet aber auch, dass der Anwender neben der Appliance zusätzliche Lizenzen für solche Werkzeuge erwerben und bei der Gesamtrechnung einkalkulieren muss.

Vor allem ist die im Vergleich zu Individuallösungen viel beworbene überlegene Performance von Appliances schwer nachzuprüfen, da es offizielle Benchmarks nicht gibt. Interne Tests müssen mit den vom Anwender tatsächlich benötigten Datenmengen erfolgen und die technischen Besonderheiten der durchaus verschiedenen Produktarchitekturen der zur Wahl stehenden Appliances berücksichtigen. Manche dieser Produkte nutzen zwar standardisierte Systemkomponenten und ODBC, JDBC und SQL, zugleich aber auch eine proprietäre MPP-Hardwarearchitektur. Dies wird nicht jedem Kunden gefallen, der eine Standardisierung seiner IT-Landschaft anstrebt.

Magerer Funktionsumfang

Eine weitere Kritik richtet sich gegen die Neueinsteiger (und Herausforderer) wie Netezza. Konkurrenten werfen ihnen vor, funktional zu wenig für den Aufbau großer Data-Warehouse-Systeme bieten zu können. Erprobte Techniken für das System-Management und die Lastverteilung oder ausgeklügelte Partitionierungverfahren, wie sie die Datenbankanbieter Oracle, IBM oder Teradata über die Jahre entwickelt haben, würden den Neulingen fehlen oder brächten nicht genug. Besonders streng geht schon aus eigenem Interesse Stephen Brobst, Chief Technology Officer von Teradata, mit der Konkurrenz ins Gericht. Die Wettbewerber könnten nur über den Preis auf sich aufmerksam machen, böten aber weniger Funktionen und Branchenwissen als man selbst. HP warf er zudem vor, mit der Nutzung von "Itanium"-Chips auf eine "tote" Technik zu setzen. Ungelöst ist bei vielen Anbietern derzeit auch die Frage des Supports, zumal manche Startups noch nicht einmal Filialen in Deutschland besitzen. Allerdings ist es laut Carsten Bange, Analyst beim Business Application Research Center (Barc) in Würzburg, selbst bei etablierten Herstellern wie HP hierzulande schwer, einen Ansprechpartner für Appliances genannt zu bekommen.

Ungelöst ist bei vielen Anbietern die Frage des Supports

Datenbankspezialisten wie Gartner-Analyst Donald Feinberg rücken daher das selbstverliehene Image der Appliance-Anbieter zurecht. Aus seiner Erfahrung dienen Appliances in der Praxis nicht als Ersatz für ein unternehmensweites Data Warehouse. Vielmehr fungieren sie als abhängiges Data Mart, das mit einem Teilausschnitt der Datenbank des zentralen Systems befüllt wird. Die eigentliche Stärke einer Appliance zeigt sich dann, wenn es um komplexe Ad-hoc-Abfragen im kompletten Datenbestand geht. "Eine Appliance lädt hierzu bestehende Schemas und Daten aus dem Data Warehouse. Sie dient als Basis für eine Business-Intelligence-Anwendung oder zieht Poweruser vom zentralen System ab", erklärt Feinberg. Dies steigert die Performance.

Allerdings ließen sich solche Data Marts auch ohne Appliance aufbauen, etwa mit "Sybase IQ" von Sybase, das beispielsweise über leistungssteigernde Technik zur Datenkompression verfügt. Soll eine Appliance wechselnde Reporting- und Analyseszenarien abdecken, verringere sich hingegen der Preis-Leistungs-Vorteil gegenüber einer Individuallösung. Zudem ließen sich auch herkömmliche Data-Warehouse-Systeme auf der Basis von Datenbanken von Oracle, IBM oder Microsoft so konfigurieren, dass sie sich mit einer Appliance messen können. Das bedeute nur mehr Arbeit, so Feinberg. Oracle habe diesbezüglich kürzlich mit der "Oracle Information Appliance Foundation" zertifizierte Referenzkonfigurationen aus Hardware und Software veröffentlicht, um künftig optimal abgestimmte Data-Warehouse-Lösungen zu ermöglichen. Allerdings sind das keine Appliances. Gleiches gilt für das Produkt "Business Accelerator" der SAP, das zwar Hardware und Software miteinander koppelt, laut Feinberg aber eine In-Memory-Datenbank ist, die Abfragen an das SAP Business Information Warehouse beschleunige, nicht aber eine Data-Warehouse-Infrastruktur ersetze.

Hilfe für den Mittelstand

Feinberg hält Appliances trotz manch überzogenem Versprechen nicht für heiße Luft. Allerdings sieht er weder ein neues Marktsegment entstehen, noch erwarte er anders als die Anbieter, dass solche Produkte vornehmlich von Großunternehmen nachgefragt werden sieht man derzeit einmal von Teradata und IBM ab. Er prognostiziert vielmehr im (gehobenen) Mittelstand einen wachsenden Bedarf an einem "Data Warehouse aus der Box", da auch in diesen Firmen die Anforderungen an das Daten-Management permanent steigen.

Zumindest IBM hat sich darauf eingestellt und präsentierte im März drei Produktklassen von Appliance-Systemen, die von der Einsteigerlösung mit 50 Gigabyte bis hin zu den Highend-Systemen mit unbegrenzter Datenmenge reichen. Laut IBM-Experte Görlich setzten sich die Kosten einer Einstiegskonfiguration aus 15 000 Dollar für Hardware und 6000 Dollar für Software zusammen. Enthalten sind darin BI-Software, beispielsweise der "Chrystal Reports Server", und Service. Zudem könnten Appliances schon bald in weiteren Anwendungsgebieten auftauchen. So bietet IBM bereits eine vorkonfigurierte Lösung für das Content-Management. Insidern zufolge könnte die Plattform für das Daten-Management "DB2 Information Server" die nächste sein.