Datenanalyse

Data Warehouse Appliances - Trends und neue Techniken

26.04.2010
Von Hermann Gfaller

Interview: Teradata zu den Technik-Trends im Geschäft mit Data-Warehouse-Appliances

Stephen Brobst, Technologie-Chef von Teradata: "Wir fokussieren uns auf analytischen Workload, nicht auf OLTP."
Stephen Brobst, Technologie-Chef von Teradata: "Wir fokussieren uns auf analytischen Workload, nicht auf OLTP."
Foto: Teradata

Data-Warehouses übernehmen zunehmend operative Aufgaben, das Marketing möchte endlich soziale Netzwerke nach Chancen und Risiken durchforsten, bald spülen Sensoren gewaltige Datenmengen ins System und die Anwenderunternehmen möchten immer früher Entwicklungen voraussehen können. Teradatas Technologie-Chef Stephen Brobst berichtet, wie Appliances die wachsenden Ansprüche erfüllen können.

CW: Der Anbieter Netezza hat vor ein paar Jahren offenbar einen Boom für Data-Warehouse-Appliances ausgelöst …

BROBST: Nein, wir hatten schon lange vorher Appliances. Sie hießen nur nicht so. Wir schufen mit unserem Enterprise Data Warehouse eine allgemeine Lösung, Netezza bedient mit seinem System lediglich - wenn auch erfolgreich - eine Low-end-Nische. Mein Kompliment für das gute Marketing.

CW: Experten loben vor allem Netezzas Schnelligkeit und das Komprimierungsverfahren …

BROBST: Über geeignete Komprimierungsmechanismen verfügen auch alle anderen wesentlichen Player, bei Netezza kamen sie erst im zweiten Schritt dazu. Das Besondere ist dort das Field Programmable Gate Array (FPGA), das die Daten besonders rasch verteilt. Entscheidend für den kommerziellen Erfolg war aber der günstige Preis je Terabyte Speicherplatz, der durch den Verwendung von preiswerten Festplatten mit hoher Kapazität erreicht wurde. Die Verwendung dieser Festplatten geht aber auch auf Kosten der Leistung im Zusammenhang mit Mixed Workload, etwa wenn während des Beladens des Data-Warehouses gleichzeitig viele Adhoc-Anfragen bedient werden müssen. Außerdem können diese Appliances nicht mehr als eine Applikation auf einmal bedienen. Damit zielen diese Maschinen auf den Markt für Datamarts, und nicht wirklich auf den für Data-Warehouses.

CW: Das klingt so, als sollte Teradata Netezza als eine Art Einstiegsdroge aufkaufen?

BROBST: Nein, eher werden wir sie verdrängen. Schließlich bieten wir für den Einstieg längst ein Datamart-Appliance an. Das ist meines Erachtens auch die Liga von Oracles Exadata-Appliance.

CW: Sie differenzieren die Produktpalette zunehmend für verschiedene Einsatzbereiche. Es gibt inzwischen fünf, wenn man die reine Software-Edition mitzählt, sogar sechs Produktreihen. Ist das Teradatas Weg, mit dem als schwierig geltenden Thema eines Mixed Workloads umzugehen?

BROBST: Es gibt mehrere Plattformen, die wir dafür anbieten, aber am besten fährt der Anwender mit unserem Flaggschiff, dem Enterprise Data Warehouse mit seinem ausgereiften Workload-Management, und weil man dort Mixed Workload auf ein und denselben Daten verarbeiten kann.

CW: Die IBM behauptet, DB2 sei als General-Purpose-Datenbank am besten für Mixed Workload geeignet, während die Teradata-Datenbank für Warehousing optimiert ist. Stimmen Sie dem zu?

BROBST: Richtig, wir fokussieren uns auf analytischen Workload, nicht auf OLTP. Wenn wir von Mixed Workload sprechen, meinen wir operationelle Business Intelligence (BI) mit schnellem In- und Output, aber es wird bei BI generell deutlich mehr gelesen als geschrieben. Für die schreibintensiven OLTP-Aufgaben ist DB2 weit besser, aber das hat nichts mit Analyse zu tun.

CW: Sie haben jüngst Ihre Solid-State-Maschine freigegeben. Diese Technik steht von der Geschwindigkeit her zwischen herkömmlichen Festplatten und In-Memory-Datenbanken. Deutet das nicht darauf hin, dass Flash nur einen Brückentechnik darstellt?

BROBST: Dieses Argument höre ich seit langem. Aber In-Memory-Datenbanken haben ein Skalierungsproblem, das es bei SSD-Geräten nicht gibt. Allerdings verwenden wir die Technik gemeinsam mit SAP und Business Objects.

CW: Im Zusammenhang mit neuen Data-Warehouse-Techniken wird immer wieder Googles MapReduce-Framework genannt, das definitiv nicht relational ist.

BROBST: Ja, Google verwendet dieses Verfahren recht erfolgreich, aber das ist keine Datenbank, sondern ein Programmier-Framework für mehrere, gleichzeitige und unabhängige Berechnungen mit großen Datenmengen in Clustern. Dafür braucht man technisch versierte Programmierer. Für den klassischen Geschäftsanwender von DW eignet sich das Verfahren nur in Einzelfällen. Wir haben Kunden im Dotcom-Umfeld, denen wir eine Kombination davon mit der Teradata-Datenbank anbieten. Wir verwenden das Verfahren für unstrukturierte Daten, bei Ebay zum Beispiel für die Analyse von Content und Fotos.

CW: Bei der Integration von analytischen Funktionen und unstrukturierten Daten spricht die IBM von Plugins oder Datablades, Oracle eher von Store Procedures. Wie tief kann die Integration bei Teradata sein, die an dieser Stelle vor allem mit Partnern wie SAS zusammenarbeitet?

BROBST: Wir integrieren keine Suchmechanismen wie etwa die IBM mit ihren Text-Tools, sondern konzentrieren uns auf analytische Aufgaben. Ein Beispiel aus dem Bereich sozialer Netze: Es geht uns weniger darum, bestimmte Statements zu einem Produkt zu finden, sondern zu analysieren, wie diese Statements emotional besetzt sind. Wir sammeln die einschlägigen Beiträge, formen sie zu strukturierten Daten, binden sie dann in die Datawarehouse-Datenbank ein und analysieren sie dort.

CW: Was sind die wichtigsten Trends im DW-Umfeld für die kommenden Jahre?

BROBST: Massendaten. Ich spreche hier nicht von sozialen Netzen, sondern über Daten von Sensoren. Am bekanntesten sind hier sicher die Verwaltung und Verfolgung von Funketiketten (RFIDs), aber im Grunde lässt sich fast alles messen und auswerten. Hier geht es um ungeheure Mengen von Daten, auf die wir uns derzeit vorbereiten.