Was bringt das Data Warehouse aus der Box?

Sascha Alexander ist Manager Marketing & Kommunikation bei der QUNIS GmbH, Neubeuern, die auf Beratung und Projekte in der Business Intelligence, Big Data und Advanced Analytics spezialisiert ist. Zuvor war der Autor als Director Communications bei den Marktforschungs- und Beratungsunternehmen BARC und PAC tätig. Als ehemaliger Redakteur der COMPUTERWOCHE sowie Gründer und Chefredakteur des Portals und Magazins für Finanzvorstände CFOWORLD verbindet ihn zudem eine lange gemeinsame Zeit mit IDG.
Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.
Angebote aus integrierter Hard- und Software (Appliances) sollen den Aufbau und Betrieb eines Data Warehouse erleichtern und verbilligen. Doch der Beweis steht noch aus.

Appliances für Data Warehousing lassen sich als speziell für dieses Anwendungsgebiet vorkonfigurierte Hardware inklusive Speichertechnik, Management-Tools und abgestimmtem Datenbanksystem beschreiben. Das Interesse an diesen Systemen wird durch das Versprechen ihrer Hersteller geschürt, ein besseres Preis-Leistungs-Verhältnis beim Aufbau einer Basis für Datenauswertungen zu bieten, als dies mit individuell konfigurierten Data-Warehouse-Lösungen möglich wäre.

Hier lesen Sie...

  • was Appliances alles versprechen;

  • welche Vorteile sie wirklich haben;

  • wie Unternehmen sich dem Thema nähern sollten.

Auch kommt die Diskussion über Appliances zu einem Zeitpunkt, da immer mehr Unternehmen mit ihren bisherigen Lösungen an Leistungsgrenzen stoßen. Verursacher sind die rasant steigenden Datenmengen, die Integration des Data Warehouse in Geschäftsprozesse, zunehmend komplexere Datenanalysen durch "Poweruser" sowie vielfältige Adhoc-Abfragen aus wachsenden Benutzergruppen.

Das Tuning und die richtige Skalierung des Data Warehouse werden so zur ständigen Herausforderung und Bedrohung für die IT. Ganz zu schweigen von den Kosten und Ressourcen, die diese Arbeiten verschlingen. (siehe zu dem Thema auch "Mehr Leistung aus SAP BW herausholen")

Von Klein nach Groß: Appliances für Data Warehousing kommen mit dem Versprechen, beliebig zu skalieren.
Von Klein nach Groß: Appliances für Data Warehousing kommen mit dem Versprechen, beliebig zu skalieren.
Foto: NCR Teradata

Die Aussicht, durch schlüsselfertige Appliances die technische Infrastruktur auch bei steigenden Anforderungen in den Griff zu bekommen, klingt daher verlockend. Tatsächlich bieten solche Lösungen eine Reihe von Vorteilen. So bestimmt sich der Preis nach der zu verwaltenden Datenmenge, auf die alle Appliance-Komponenten (Festplatte, CPUs, Speicher, Input-Output und Datenbanksystem) abgestimmt sind. Normalerweise rechnen Anbieter wie Teradata, IBM, Hewlett-Packard (HP), Sun Microsystems/Greenplum, Netezza oder Dataallegro dabei in Terabyte pro Rechnerknoten. Kunden können so ihren Bedarf einfacher kalkulieren und ihr Data Warehouse exakter und schneller dimensionieren.

Reicht der Platz nicht mehr, lässt sich ein weiteres Modul des Anbieters hinzufügen. Zudem sind Festplatten und Rechenleistung der Systeme laut ihren Anbietern so abgestimmt, dass sie selbst bei umfassenden Queries schnelle Antworten gewährleisten können. Technisch setzen die Hersteller hierzu fast ausschließlich auf massiv-parallele Prozessorarchitekturen (MPP) mit einer partitionierten Shared-nothing-Speicherverwaltung. Manche Marktbeobachter bezeichnen Appliances daher auch als optimierte Datenbanksysteme mit darunterliegender MPP-Architektur.

Große Preisspanne

Viele Anbieter verschaffen sich zudem durch den Einbau von Standardprozessoren, preisgünstigen Hardware- und Speicherkomponenten sowie die Nutzung von Linux und quelloffenen Datenbanken wie Ingres oder Postgres einen Kostenvorteil, den sie an Kunden weitergeben können (siehe auch "Datenbankriesen fürchten Open Source"). Dennoch bleibt die Preisspanne groß. So werden Einstiegspreise von Sun/Greenplum von 15 000 Dollar pro Terabyte kolportiert.

HP soll hingegen mit seiner "Neoview"-Appliance 650 000 Dollar für 3 Terabyte verlangen, was laut Insidern immer noch weniger ist als bei Teradata. Allerdings handelt es sich nicht um reale, sondern um Listenpreise. Beispielsweise wird von Teradata, dem Pionier und umsatzstärksten Appliance-Anbieter, berichtet, dass der Hersteller aufgrund der wachsenden Konkurrenz in den letzten zwei Jahren die Lizenzpreise ordentlich gesenkt hat.

Die wohl stärksten Argumente der Appliance-Anbieter bleiben aber die vereinfachte Konfiguration, Integration sowie das vorab beziehungsweise als Support während des Betriebs erfolgende Tuning der Systeme. Dies erleichtert Administratoren ihre Arbeit und senkt die Betriebs- und damit Gesamtkosten eines Data-Warehouse laut Otto Görlich, Mitarbeiter im Technical Sales bei IBM, erheblich: "Die gesamten Hard- und Softwarekosten liegen bei höchstens 20 Prozent im Projekt über fünf Jahre gerechnet. Der Rest sind Betriebskosten." Schließlich können Kunden bei Problemen mit der Appliance den Support des gesamtverantwortlichen Anbieters anrufen, statt sich mit verschiedenen Hotlines und Anbietern auseinandersetzen zu müssen.

Junger Markt

Doch viele Versprechungen der Appliance-Anbieter sind in der Praxis schwer zu beurteilen. So sind Angebote wie die von Netezza, Dataallegro, Dataupia, Vertica Systems und Paraccell noch relativ neu auf dem Markt. Startups wie Calpont, Kognitio (vormals Whitecross) mussten bereits in diesem frühen Stadium ihre Produktarchitektur überarbeiten. Netezza, das in Kürze an die Börse gehen will, schreibt noch rote Zahlen, andere Firmen sind in Privatbesitz und veröffentlichen keine Zahlen. Abgesehen von Teradata, das seit vielen Jahren Appliances zum Aufbau unternehmensweiter Data-Warehouse-Lösungen entwickelt und implementiert, fehlt es allen Herausforderern an Referenzen, insbesondere in Deutschland. Sun Microsystems und Partner Greenplum beispielsweise können bisher nur einen Anwender auf den Philippinen benennen.

Netezza hat vor zwei Jahren mit seiner Appliance die Diskussion um Bündelung von Hardware und Software für Data Warehousing angefacht.
Netezza hat vor zwei Jahren mit seiner Appliance die Diskussion um Bündelung von Hardware und Software für Data Warehousing angefacht.
Foto: Netezza

Anders als suggeriert ist eine Appliance auch keine Plug-and-Play-Lösung. Sie liefert zwar einen wichtigen Teil der technischen Infrastruktur eines Data Warehouse. Dessen aufwändiges Design bleibt hingegen Aufgabe des Anwenders und seiner Dienstleister, wobei zumindest IBM und Teradata die Arbeiten durch vordefinierte Industriemodelle zu unterstützen versuchen. Funktional decken die meisten Appliances viele Aufgaben der Datenbewirtschaftung (Extraktion, Transformation, Beladen, Datenqualitäts-Management) nicht ab. Gleiches gilt für Auswertungswerkzeuge für Reporting und Analyse, die normalerweise nicht enthalten sind. Allerdings gehen die Hersteller mittlerweile Vertriebsabkommen ein oder bieten wie IBM oder Teradata zugekaufte Produkte für die Datenbewirtschaftung ergänzend an. Dies bedeutet aber auch, dass der Anwender neben der Appliance zusätzliche Lizenzen für solche Werkzeuge erwerben und bei der Gesamtrechnung einkalkulieren muss.

Fehlende Beweise

Vor allem ist die im Vergleich zu Individuallösungen viel beworbene überlegene Performance von Appliances schwer nachzuprüfen, da es offizielle Benchmarks nicht gibt. Interne Tests müssen mit den vom Anwender tatsächlich benötigten Datenmengen erfolgen und die technischen Besonderheiten der durchaus verschiedenen Produktarchitekturen der zur Wahl stehenden Appliances berücksichtigen. Manche dieser Produkte nutzen zwar standardisierte Systemkomponenten und ODBC, JDBC und SQL, zugleich aber auch eine proprietäre MPP-Hardwarearchitektur. Dies wird nicht jedem Kunden gefallen, der eine Standardisierung seiner IT-Landschaft anstrebt.

Eine weitere Kritik richtet sich gegen die Neueinsteiger (und Herausforderer) wie Netezza.

Konkurrenten werfen ihnen vor, funktional zu wenig für den Aufbau großer Data-Warehouse-Systeme bieten zu können. Erprobte Techniken für das System-Management und die Lastverteilung oder ausgeklügelte Partitionierungverfahren, wie sie die Datenbankanbieter Oracle, IBM oder Teradata über die Jahre entwickelt haben, würden den Neulingen fehlen oder brächten nicht genug. Besonders streng geht Stephen Brobst, Chief Technology Officer von Teradata, mit der Konkurrenz ins Gericht. Die Wettbewerber könnten nur über den Preis auf sich aufmerksam machen, böten aber weniger Funktionen und Branchenwissen als man selbst. HP warf er zudem vor, mit der Nutzung von "Itanium"-Chips auf eine "tote" Technik zu setzen (siehe auch "Intel erläutert Roadmap für Itanium- und Xeon-Chips"). Ungelöst ist bei vielen Anbietern derzeit auch die Frage des Supports, zumal manche Startups noch nicht einmal Filialen in Deutschland besitzen. Allerdings ist es laut Carsten Bange, Analyst beim Business Application Research Center (Barc) in Würzburg, selbst bei etablierten Herstellern wie HP hierzulande schwer, einen Ansprechpartner für Appliances genannt zu bekommen.

Data Mart statt Data Warehouse

Datenbankspezialisten wie Gartner-Analyst Donald Feinberg rücken daher das selbstverliehene Image der Appliance-Anbieter zurecht. Aus seiner Erfahrung dienen Appliances in der Praxis nicht als Ersatz für ein unternehmensweites Data Warehouse. Vielmehr fungieren sie als abhängiges Data Mart, das mit einem Teilausschnitt der Datenbank des zentralen Systems befüllt wird. Die eigentliche Stärke einer Appliance zeigt sich dann, wenn es um komplexe Ad-hoc-Abfragen im kompletten Datenbestand geht. "Eine Appliance lädt hierzu bestehende Schemas und Daten aus dem Data Warehouse. Sie dient als Basis für eine Business-Intelligence-Anwendung oder zieht Poweruser vom zentralen System ab", erklärt Feinberg. Dies sei mit Blick auf die Performance eine gute Idee.

Allerdings ließen sich solche Data Marts auch ohne Appliance aufbauen, etwa mit "Sybase IQ" von Sybase, das beispielsweise über leistungssteigernde Technik zur Datenkompression verfügt. Soll eine Appliance wechselnde Reporting- und Analyseszenarien abdecken, verringere sich hingegen der Preis-Leistungs-Vorteil gegenüber einer Individuallösung. Zudem ließen sich auch herkömmliche Data-Warehouse-Systeme auf der Basis von Datenbanken von Oracle, IBM oder Microsoft so konfigurieren, dass sie sich mit einer Appliance messen können. Das bedeute mehr Arbeit, so Feinberg. Oracle habe diesbezüglich kürzlich mit der "Oracle Information Appliance Foundation" zertifizierte Referenzkonfigurationen aus Hardware und Software veröffentlicht, um optimal abgestimmte Data-Warehouse-Lösungen zu ermöglichen. Allerdings sind das keine Appliances. Gleiches gilt für das Produkt "Business Intelligence Accelerator" der SAP, das zwar Hardware und Software miteinander koppelt, laut Feinberg aber eine In-Memory-Datenbank ist, die Abfragen an das SAP Business Information Warehouse beschleunige, nicht aber eine Data-Warehouse-Infrastruktur ersetze.

Hilfe für den Mittelstand

Feinberg hält Appliances trotz manch überzogenem Versprechen nicht für heiße Luft. Allerdings sieht er weder ein neues Marktsegment entstehen, noch erwarte er anders als die Anbieter, dass solche Produkte vornehmlich von Großunternehmen nachgefragt werden – sieht man derzeit einmal von Teradata ab. Er prognostiziert vielmehr im (gehobenen) Mittelstand einen wachsenden Bedarf an einem "Data Warehouse aus der Box", da auch in diesen Firmen die Anforderungen an das Daten-Management permanent steigen.

Zumindest IBM hat sich darauf eingestellt und präsentierte im März drei Produktklassen von Appliance-Systemen, die von der Einsteigerlösung mit 50 Gigabyte bis hin zu den Highend-Systemen mit unbegrenzter Datenmenge reichen. Laut IBM-Experte Görlich setzten sich die Kosten einer Einstiegskonfiguration aus 15 000 Dollar für Hardware und 6000 Dollar für Software zusammen. Enthalten sind darin BI-Software, beispielsweise der "Chrystal Reports Server", und Service. Zudem könnten Appliances schon bald in weiteren Anwendungsgebieten auftauchen. So bietet IBM bereits eine vorkonfigurierte Lösung für das Content-Management. Insidern zufolge könnte die Plattform für das Daten-Management "DB2 Information Server" die nächste sein.

Appliance-Anbieter