Amazon wächst mit skalierbarer IT

12.05.2005
Von Jörg auf

Ein System beherbergt das eigentliche Data Warehouse, das zweite dient als "staging area". Hier wird neue Software installiert, um bei einem Update einfach zwischen der normalen Umgebung und der Staging-Umgebung umschalten zu können. So lassen sich Software-Updates ohne Downtime fahren. Jedes System besteht aus mindestens vier Nodes, auf welchen jeweils Oracle auf Linux läuft. Die Nodes sind über 2-GB-Glasfaser mit SAN-Switches verbunden, die die Daten an die diversen MSA-1000-Speichereinheiten verteilten. Mit dem Application- und Cluster-Network sind die Nodes über 1-GB- und 100- MB-Ethernet verknüpft.

Die Software von Amazon ist eine über die Jahre gewachsene Eigenentwicklung, "100 Prozent homegrown", wie der frühere Geschäftsführer Joe Galli einmal bemerkte. Die Site kam zunächst ohne Anwendungs-Server aus, erst später setzte man auf Web-Logic von Bea. Um das immer weiter wachsende Datenvolumen zu bewältigen, verbindet seither dieser J2EE-kompatible Web-Server die WebClients mit den verteilten Datenbanken.

Die geclusterte Architektur hat Vorteile: So ist die Kapazität nicht auf einen einzelnen Server beschränkt. Wird neue Rechen-Power benötigt, ist kein komplizierter Neuaufbau notwendig - ein neuer Server wird einfach an das bestehende Netzwerk angeschlossen. Zum anderen erhöht sich die Verfügbarkeit. Fällt ein Knotenrechner aus, übernehmen andere Einheiten seine Aufgaben. Zudem verfügt Bea Weblogic über Plugins für den Open-Source-Web-Server "Apache". Amazon nutzt eine von der Firma Red Hat modifizierte Version von Apache mit Namen "Stronghold", die den Apache-Server um SSL-Unterstützung erweitert.

Der Apache-Web-Server leistet hier das, was bei Ebay Microsofts IIS übernimt: Er kapselt das Internet aus Sicherheits- und Performance-Gründen von der Bea-Sphäre ab. Apache liefert beispielsweise JPG-Dateien schneller und preiswerter aus, als der lizenzpflichtige Bea-Server das kann.