Server-Trends/AMDs Opteron auf dem Marsch durch die Rechenzentrums-Institutionen

Die 64er erschüttern das Establishment

06.08.2004

Die Menge der bei Anwendern vorhandenen Daten wächst weiter rasant. Zwar werden auch die CPUs immer schneller, und die Hauptspeicher sind erschwinglich. Aber 32-Bit-Systeme stoßen an ihre Grenzen. Denn sie können höchstens 4 GB Speicher adressieren. Für komplexe Anwendungen ist das nicht mehr ausreichend. Die Speicheradressierung hängt zudem vom zugrunde liegenden Betriebssystem ab. So lässt ein 32-Bit-Windows-System sogar nur 2 GB adressierbaren Hauptspeicher für eine Applikation zu.

AMDs 32/64-Bit-Prozessor Opteron schafft diese Einschränkung der maximalen Speicheradressierung aus der Welt. Der 64 Bit breite Daten- und Adresspfad erlaubt eine physische 40-Bit- und eine virtuelle 48-Bit-Adressierung des Opteron. Er ermöglicht damit eine physische Speichergröße von bis zu 1 TB und einen virtuellen Speicheradressraum von 256 TB. Doch darüber hinaus sind vor allem drei Komponenten von zentraler Bedeutung: Die Direct-Connect-Architektur verbindet Speicher und die I/O direkt mit der CPU. Integriert ist ein 128-Bit-DDR-DRAM-Speicher-Controller mit einer verfügbaren Speicherbandbreite bis zu 6,4 GB/s pro Prozessor. Und drittens sorgt die Hypertransport-Technik für eine skalierbare Bandbreitenverbindung zwischen Prozessoren, I/O-Subsystemen und anderen Chipsätzen.

So schnell wie Level-3-Cache

Ebenfalls entscheidend für die Prozessorleistung bei rechenintensiven Anwendungen ist das Antwortzeitverhalten des Speichers. Dieses liegt beim Opteron im Bereich von rund 70 Nanosekunden, was vergleichbar ist mit dem Antwortzeitverhalten von Level-3-Cache. Damit wird zum einen weniger Level-2-Cache benötigt, zum anderen wird teurer L-3-Cache überflüssig. Ein nützlicher Nebeneffekt: Je kleiner der Cache ist, desto weniger Transistoren werden gebraucht - was die Herstellungskosten und die thermische Verlustleistung der Prozessoren senkt.

Die Faktoren Verlustleistung und Wärmeerzeugung der Prozessoren sind für die Wirtschaftlichkeit vor allem bei großen Installationen in Rechenzentren entscheidend. Viele Rechenzentren sind aufgrund klimatechnischer Einschränkungen in den Server-Räumen an die Grenzen ihrer Kapazität gelangt. Im Wettbewerbsvergleich zeichnet sich der Opteron-Prozessor durch einen deutlich niedrigeren Stromverbrauch aus. Da weniger Strom benötigt wird, muss auch weniger Wärme abgeführt werden, wodurch sich die Betriebskosten spürbar verringern. Eine Beispielrechnung von Hewlett-Packard beziffert die Verlustleistung eines Intel Xeon auf 105 Watt, während der AMD Opteron auf unter 89 Watt kommt.

Weniger Strom heißt weniger Hitze

Darüber hinaus bietet AMD zwei Varianten des Opteron, die hinsichtlich der Leistungseffizienz optimiert sind: den Opteron EE (Energy Efficient) und Opteron HE (Highly Efficient). Diese Prozessoren passen in den gleichen Sockel wie die Standardvarianten, und die Verlustleistung liegt bei 55 beziehungsweise 30 Watt. Die beiden effizienteren Prozessortypen sind aufgrund höherer Produktionskosten etwas teurer in der Anschaffung, empfehlen sich aber für bestimmte Anwendungen mit hoher Packungsdichte wie etwa Blade Server.

Eine weitere Besonderheit der Architektur: Der AMD Opteron ermöglicht die Integration von bereits eingesetzten Subkomponenten wie Ethernet und Gigabit Ethernet. Hierfür stehen Basis-Chipsets zur Verfügung, die - basierend auf der Direct-Connect-Architektur - dafür sorgen, dass der Hypertransport für den I/O zuständig ist. Damit steht eine Brücke zwischen dem Hypertransport als skalierbarer Punkt-zu-Punkt-Kommunikationstechnik und einer Standard-I/O-Kommunikationstechnik mit Legacy-Komponenten bereit.

Alte Komponenten bleiben nutzbar

Am Beispiel PCI wird dieser Vorteil deutlich: Die Chipsätze sind in der Lage, bisherige PCI-Karten (33 Megahertz, 32 Bit) zu unterstützen, aber auch Karten der Standards PCI-X (133 Megahertz, 64 Bit) oder später in diesem Jahr PCI-X 2.0 (266 Megahertz, 64 Bit). Aufgrund der Rückwärtskompatibilität können auch ältere PCI-Karten eingesteckt werden. Die System-Performance wird dadurch nicht beschränkt.

"Beträgt die nutzbare Bandbreite beispielsweise 6,4 GB/s, und davon wird nur 1 GB/s genutzt, ist die I/O-Bandbreite zwar limitiert, aber nicht durch das System, denn die Kommunikation zwischen den Prozessoren und damit die Latenzzeit zu den Speichern ist davon nicht berührt", erklärt Ulrich Knechtel, Enterprise Program Manager bei der deutschen AMD-Niederlassung. "Im umgekehrten Fall besteht bei einem Bus-basierenden System eine Limitierung zwischen den Prozessoren, da die Kommunikation komplett über den Frontside Bus abgewickelt wird, was sich wiederum negativ auf die System-Performance auswirkt."

Ein wichtiger Aspekt einer Architektur ist ihre Skalierbarkeit. Im heutigen x86-Server-Markt liegt der Schwerpunkt auf Zwei-Wege-Systemen, während zunehmend Vier-Wege-Rechner erscheinen. AMDs Kooperationspartner IBM, HP und Sun bieten derzeit Server für bis zu vier Opteron-Prozessoren mit maximal 64 GB Hauptspeicher an. Wenn einem Server-System zusätzliche Prozessoren hinzugefügt werden, steht gleichzeitig auch ein Plus an Größe und Bandbreite des Hauptspeichers zur Verfügung. Dadurch ergibt sich eine nahezu lineare Skalierbarkeit. AMD unterstützt mit dem Opteron bis zu Acht-Wege-Server, die allerdings von den etablierten Anbietern am Markt noch nicht angeboten werden.

Hypertransport überwindet Engpässe

Die aktuelle Prozessorgeneration ermöglicht aufgrund der Direct-Connect-Technologie eine völlig neue Systemarchitektur für Server, unabhängig davon, ob das System im 32-Bit- oder im 64-Bit-Modus läuft. Der Hauptspeicher ist direkt an den Prozessor angebunden, und die Prozessoren können über die hoch performante Hypertransport-Verbindung direkt miteinander kommunizieren. Engpässe, die in heutigen x86-Systemen bestehen, etwa am Front Side Bus sowie bei North und South Bridge, gehören damit ebenso der Vergangenheit an wie die hohe Latenzzeit beim Zugriff auf den Speicher.

Die Antwortzeiten der Opteron-basierenden Server beispielsweise sind - unabhängig von ihrer 64-Bit-Fähigkeit - auch in 32-Bit-Benchmarks bis zu 40 Prozent kürzer als gleichwertige Prozessoren der Wettbewerber. So besetzen auch bei SAP-Benchmarks mittlerweile Opteron-basierende Zwei- und Vier-Wege-Server die Spitzenplätze. Schnelle Antwortzeiten bestätigen auch Applikations-Benchmarks, bei denen die Opteron-Prozessoren sehr I/O-intensiven 32-Bit-Code aus dem Bereich Fluid Dynamics verarbeiten müssen.

Viele IT-Administratoren und IT-Manager wissen genau, wo sie heute 64-Bit-Systeme einsetzen wollen: Die Umstellung wird unter anderem vorangetrieben durch Datenbankanwendungen - und das zum Teil schon seit mehreren Jahren. So bietet Oracle bereits seit 1995 ein 64-Bit-Datenbanksystem an.

Wo 64 Bit interessant sind

Data-Warehouse-Lösungen, mit denen mehrere Terabytes Daten verwaltet werden, und Transaktionssysteme zählen derzeit zu den bevorzugten 64-Bit-Anwendungen. Hinzu kommen weitere Bereiche, bei denen hoher Prozessordurchsatz bei der Fließkommaberechnung, umfangreiche Einzeldateien und/oder große Datenmengen wichtig sind: technisches High Performance Computing (HPTC), Grafikbearbeitung, Video-Post-Production sowie dynamische Web-Services.

Natürlich wird der Anwender nicht von heute auf morgen auf 64 Bit wechseln. Die Möglichkeit dazu wird nicht durch die Hardware vorgegeben. Der Kunde entscheidet, wann und mit welchen Applikationen die Migration erfolgen soll. Mit dem Opteron kann die bestehende 32-Bit-Software für die x86-Architektur weiter genutzt werden.

Die Schritte zum Aufstieg

Ein typisches Einsatzszenario des AMD Opteron könnte daher folgendermaßen aussehen: Zunächst werden kurzfristig weiterhin 32-Bit-Programme beispielsweise unter Windows 2003 Server eingesetzt, um dann - mittelfristig und unter Beibehaltung der alten Applikationen - auf 64 Bit zu wechseln. In diesem Mischbetrieb können die Betriebssystem-Ressourcen in einen hohen Speicherbereich geladen werden. Dadurch kann auch der 32-Bit-Applikation jeweils 4 GB Hauptspeicher zugeordnet werden. Das Swapping-Problem, das heute im 32-Bit-Bereich besteht, lässt sich somit eliminieren, weil alle Daten direkt im Hauptspeicher vorgehalten werden. Daraus resultiert eine insgesamt höhere Performance. Der nächste logische Schritt besteht darin, wichtige Applikationen auf 64 Bit zu bringen.

Entwickelt wurde die 64-Bit-Architektur vor allem für High-Performance-Bereiche wie beispielsweise Datenbanken, Transaktionssysteme und Grafikanwendungen. Doch inzwischen sind für eine große Gruppe von Anwendern die starke System-Performance mit 32-Bit-Applikationen, die hohen I/O-Bandbreiten und die Skalierbarkeit Opteron-basierender Server interessant. Darüber hinaus bietet der Opteron-Prozessor einen sanften Umstieg auf 64 Bit, ohne hohe zusätzliche Investitionen in Hard- und Software zu verlangen. Ein weiterer wichtiger Anreiz für die Einleitung der 64-Bit-Ära könnte letztlich auch der Preis sein. So ist ein Opteron-basierender 64-Bit-Server etwa für das gleiche Geld zu bekommen wie ein vergleichbares 32-Bit-System auf Intel-Xeon-Grundlage.

Es gibt natürlich auch Bereiche, in denen weiterhin auf noch günstigere Server zurückgegriffen wird - dies gilt vor allem für File- und Print-Server, die Unternehmen meist in großen Stückzahlen ordern. Hier spielt das Thema 64 Bit ohnehin keine Rolle. Doch die Anwendungsbereiche, in welchen der Opteron-Prozessor seine Vorteile ausspielen kann, tragen nicht nur das Vorzeichen 64 Bit. (ls)

*Stefan Jönsson ist freier Journalist in München.

Hier lesen Sie ...

- welche technischen Details den 32- und 64-Bit-fähigen Opteron-Prozessor von AMD prägen und wie diese sich auswirken;

- warum die Vorteile der Architektur nicht nur für 64-Bit-Anwendungen Wirkung haben, sondern auch 32-Bit-Programme beschleunigen;

- wie sich AMD den Übergang zum 64-Bit-Computing vorstellt.

Abb: Doppelprozessor Opteron-System

Über die schnellen breitbandigen Hypertransport-Connectoren des Opteron lassen sich mehrere CPUs direkt miteinander verbinden. Dabei kann das Memory linear mitwachsen. Außerdem dient Hypertransport über ein "Tunnel-Chipset" dem Anschluss von PCI-X-, I/O- und Grafik-Devices. Quelle: AMD