Informations-Management

Virtuelle Data-Marts helfen Ebay beim Sparen

25.11.2008 von Karin Quack
Die Analyseanwendungen lassen sich schneller entwickeln und binden anschließend weniger Systemressourcen.
Voll das Leben - die Ebay-Zentrale in San Jose, Kalifornien
Foto: Ebay

Auch am einstigen Top-Performer Ebay ist die Wirtschaftskrise nicht spurlos vorbeigegangen. Das Umsatzwachstum schwächt sich merklich ab, die Folge sind Entlassungen. Doch das Online-Auktionshaus betreibt immer noch das weltweit größte kommerziell genutzte Data Warehouse. 5 Petabyte Daten sind in den beiden Datenzentren in Phoenix und Sacramento gespeichert, das ist eine Zahl mit 15 Nullen.

Und das Ende der Fahnenstange ist nicht absehbar: "Das Datenwachstum hängt nicht nur vom Geschäftswachstum ab", erläutert Oliver Ratzesberger, als Senior Director Architecture und Operations weltweit verantwortlich für die IT-Architektur und damit auch das Data Warehouse des Unternehmens. Derzeit würden längst nicht alle aufgelaufenen Daten im Data Warehouse abgelegt: "Wir müssen uns auf die wichtigsten beschränken." Insgesamt produziere Ebay jährlich ein Datenvolumen von rund 30 Petabyte.

Was die Fachbereiche wollen

Im Jahr 2002 nahm Ebay ein erstes Data Warehouse mit 14 Terabyte in Betrieb. Seither hat sich das Volumen jedes Jahr mindestens verdoppelt. All diese Informationen bilden die Grundlage für zahlreiche Auswertungen - sei es für Fachabteilungen wie Finance oder Marketing, sei es für die IT selbst.

Die Ansprüche der Anwender an die Analyseanwendungen sollen zügig und möglichst akurat erfüllt werden. Doch das ist nicht so einfach, wie Ratzesberger beteuert: "Das generelle Problem ist, dass die Entwickler von den Benutzergruppen ein Dokument mit den geforderten Berichten und Daten sehen wollen, bevor sie etwas umsetzen." Zu diesem frühen Zeitpunkt wüssten die Fachabteilungen meist aber noch nicht genau, was sie tatsächlich brauchen.

Prototyp statt Pflichtenheft

Deshalb hat Ebay vor etwa drei Jahren begonnen, das Konzept "Analytics as a Service" umzusetzen. Damit haben die Fachabteilungen die Möglichkeit, zeitlich begrenzte Analyseanwendungen ("Data Marts") selbst zu erstellen und zu testen. "Wir bieten virtuelle Data Marts an", bringt Ratzesberger den Sachverhalt auf den Punkt: "Wenn eine Business Unit eine Idee hat, kann sie damit rasch einen Prototpyen bauen."

Zwar sind die vom Data-Warehouse-Lieferanten Teradata stammenden Softwarewerkzeuge zu komplex, als dass ein IT-Laie sie anwenden könnte. Doch ordnet Ebay den in Frage kommenden Fachabteilungen laut Ratzesberger jeweils ein oder zwei Entwickler zu. Die helfen den Fachleuten dabei, die Anforderungen zu erfassen und sie in Form eines Prototypen umzusetzen, der sich dann exakt den Vorstellungen der Experten anpassen lässt.

Innerhalb von 90 Tagen muss die Fachabteilung entscheiden, ob aus dem Prototypen eine permanente Anwendung werden soll. Falls ja, wird er an die Softwareentwicklungs-Abteilung übergeben - quasi als Ersatz für ein Pflichtenheft.

Mit diesem "Sandboxing"-Verfahren gelinge es den Entwicklern, eine Analyseanwendung deutlich schneller umzusetzen als auf die konventionelle Art, so Ratzesberger: "Die haben dann im Normalfall innerhalb von sechs Wochen eine Produktionsversion fertig." Und das bedeute eine "enorme" Zeitersparnis. Inzwischen habe Ebay ständig etwa 100 Prototyping-Environments parallel laufen. Zwischen 50 und 100 Data Marts seien auf diese Weise bereits entstanden.

Geringere Systembelastung

Oliver Ratzesberger zeichnet für das Data Warehouse von Ebay verantwortlich.
Foto: Ratzesberger

Analyseanwendungen sind extrem rechenintensiv und belasten folglich den Arbeitsspeicher über Gebühr. Glücklicherweise haben sie nicht alle zum selben Zeitpunkt ihren "Peak". Aus dieser Tatsache zieht Ebay Profit: Nicht nur die Prototypen, sondern auch die Produktivversionen laufen als virtuelle Data Marts in der zentralen Data-Warehouse-Umgebung. Das sei ein "Riesenunterschied" gegenüber konventionellen Stand-alone-Anwendungen, schwärmt Ratzesberger. Eigentlich sind es sogar mehrere Unterschiede: Zum einen ist es nicht mehr notwendig, den maximalen Bedarf für alle Applikationen vorzuhalten. Während eine Auswertung in einem Stand-alone-System nur auf die jeweils zugeordneten Ressourcen zugreifen könne, stehe in einer virtuellen Umgebung "theoretisch die gesamte Rechenleistung des Data Warehouse" zur Verfügung, wie Ratzesberger ausführt. (Siehe auch: "Sieben Tipps für die Virtualisierung".)

Zum anderen entfallen auch die redundante Speicherung der Daten in Data Warehouse und Data Mart sowie die Systembelastung durch deren Synchronisation. "Wir haben vor drei Jahren unseren größten Marketing-Data-Mart virtualisiert", berichtet Ratzesberger: Stand-alone sei die Anwendung 5 Terabyte groß gewesen, nach der Virtualisierung seien nur 300 Gigabyte übrig geblieben, weil sich die Kundendaten schon im Data Warehouse befanden. (Zum Thema siehe auch: "20 Wege, in der IT zu sparen".)

Der Workload-Manager ist ein Muss

Das Konzept für Analytics as a Service habe Ebay selbst entwickelt, sagt Ratzesberger nicht ohne Stolz: "Wir haben heute so gut wie keine Stand-alone-Data-Marts mehr." Die Fachabteilungen seien von dem raschen Prototyping "begeistert". Jedes Unternehmen kämpfe doch mit dem Problem, dass die Data-Warehouse-Projekte viel zu lange dauerten.

Die für das Konzept notwendigen Tools liefert Teradata. Neben den eigentlichen Auswertungsprogrammen gehört dazu beispielsweise auch ein leistungsstarker Workload-Manager, der verhindern soll, dass eine Data-Mart-Anwendung das ganze System zur Strecke bringt.

Tausende von Servern gespart

Während andere Firmen das Data Warehousing vor allem im Finanz- und Marketing-Bereich einsetzten, nutze Ebay es "auf einer viel breiteren Basis", ergänzt Ratzesberger, also beispielsweise auch für die IT selbst. Vor knapp zwei Jahren habe das Unternehmen im Rahmen des Systems eine Anwendung gebaut, mit der sich die Lastdaten von Zehntausenden Servern im Minutentakt in das Data Warehouse laden und auswerten ließen. Auf dieses Weise seien sowohl die Bottlenecks als auch die schlecht ausgelasteten Maschinen sichtbar geworden, und auf der Grundlage dieser Ergebnisse habe sich die gesamte Infrastruktur "sehr stark" optimieren lassen. "Etliche tausend Server" seien damit eingespart worden, freut sich Ratzesberger: "Diese Maschinen mussten wir nicht kaufen."

Projektsteckbrief

  • Projektname: Analystics as a Service, virtuelle Data-Marts.

  • Branche: Online-Auktionshaus.

  • Projektkategorie: Business Intelligence.

  • Kernprodukte: Data Warehouse und Tools von Teradata.

  • Herausforderungen: Data Warehouse mit fünf Petabyte.

  • Ergebnis: Zeitgewinn sowie Einsparungen beim Server- und Speicherbedarf.

  • Zeitrahmen: 2005 begonnen, im produktiven Betrieb.

  • Involvierte Anbieter: Teradata.

  • Ansprechpartner: Oliver Ratzesberger, Ebay.

Vernetzen Sie sich mit anderen Projektleitern und listen Sie Ihre eigenen Projekte unter www.10projects.de.