Server-Trends/Intels Architektur für 32/64-Bit-Xeon-CPUs

Der sanfte Aufstieg auf eine neue Ebene

06.08.2004

In wenigen Wochen werden die ersten Server und Workstations auf den Markt kommen, die mit Xeon-DP-CPUs ausgestattet sind. Der neue Prozessor basiert auf dem Rechenkern des Pentium 4, der auch unter dem Codenamen Prescott bekannt ist. Er wurde für den Einsatz in Dual-Prozessor-Systemen verbessert. Gegenüber der bisherigen Xeon-DP-CPU (Prestonia) weist er erhebliche Verbesserungen auf (siehe Kasten "Xeon-DP-Prozessoren im Vergleich").

Die Mikroarchitektur des neuen Prozessors ist eine verbesserte und erweiterte "Netburst"-Architektur, die nicht nur mit höheren Taktfrequenzen und größeren integrierten Caches arbeitet. Sie weist darüber hinaus verbessertes Hyperthreading (HT) und 64-Bit-Speicheradressierung auf. Diese Erweiterungen der 32-Bit-Architektur bezeichnet Intel als EM64T. Sie umfassen 64-Bit-Adress- und zusätzliche Register sowie 64-Bit-Integer-Adressrechenwerke. Wesentlicher Teil der Erweiterung sind 13 neue Instruktionen (SSE3). Beispiele für einige der neuen SSE3-Instruktionen sind die schnelle FP-to-INT-Konvertierung (FISTTP), komplexe Zahlenarithmetik (ADDSUBPS) und Thread-Synchronisation (MONITOR, MWAIT). Diese Funktionen erlauben eine schnellere Abarbeitung vieler Anwendungen.

Im Gegensatz zum Pentium 4 ist der neue Xeon DP Dualprozessor-fähig, das heißt, er unterstützt symmetrische Systeme (SMP) mit zwei CPUs, aus denen bei Benutzung des Hyperthreading logisch auch Vier-Wege-Systeme entstehen können. Bei vielen Server-Anwendungen kann man durch die Benutzung von HT eine Leistungsverbesserung von bis zu 30 Prozent erhalten, abhängig vom aktuellen Workload und den Fähigkeiten der verwendeten Anwendungen, mit vielen Threads zu arbeiten.

Dreistufiger Cache-Speicher vergrößert

Das Design der integrierten Prozessor-Caches unterscheidet drei Ebenen: Der L1D- und Trace- (optimierter L1I) Cache sorgt für kurze Zugriffszeiten (low latency). Der L2-Cache (unified) bringt hohe Bandbreite (high throughput). Der L3-Cache (unified, falls vorhanden) stellt viel Kapazität bereit (high capacity). L3-Caches werden in Xeon-MP-CPUs für Zwei-Wege-SMP- oder cc:Numa-Systeme implementiert und im Itanium 2 eingesetzt, weil in diesem Marktsegment überwiegend transaktionsorientierte Anwendungen zum Einsatz kommen, die von größeren Caches Vorteile erhalten.

Ein weiterer, zum Teil unterschätzter Vorzug von großen integrierten Caches kommt bei einer 64-Bit-Speicher-Adressierung hinzu: Aufgrund der hierbei verwendeten 64-Bit-Adressen (Pointer) verdoppelt sich der Cache-Platzbedarf gegenüber 32-Bit-orientierter Adressierung. Das führt häufig zu einer Reduzierung des verfügbaren Caches auf bis zu 50 Prozent. Damit sinken normalerweise die Cache-Hit-Raten, was eine Verringerung der Leistungsfähigkeit nach sich ziehen kann. Dieser Effekt wird auch als "64-Bit Data-Blow" bezeichnet.

Um dieser Tatsache entgegenzuwirken, besitzen beispielsweise die Itanium-Prozessoren größere Caches, die zur Leistungssteigerung vollständig im Chip selbst integriert sind. Bei der Xeon-Architektur geht man zudem einen anderen Weg durch Verwendung eines "Hardware-Pre-Fetcher". Der erkennt automatisch gewisse Speicherzugriffs-Schemen und führt entsprechend asynchrone und parallele Daten-Pre-Fetches (auf volle oder halbe Cache-Line-Levels) zur eigentlichen CPU-Abarbeitung aus. Diese Funktionalität wurde bereits mit Intels Netburst-Architektur vor einigen Jahren eingeführt und fortlaufend verbessert.

Neben den neuen Xeon-DP-Prozessoren werden auch DP-Server- und Workstation-Plattformen mit richtungsweisenden Technologien eingeführt. Der transaktionsorientierte Frontside-Bus (FSB) arbeitet mit 800 Megahertz und liefert eine Bandbreite von 6,4 GB/s. Dabei sind die Adressleitungen separat und parallel zu den Datenleitungen implementiert, um den Datenfluss nicht zu stören.

Für den Speicher kommen DDR2-400-Module zum Einsatz, die in einem zweikanaligen Subsystem zusammengefasst sind, welches ebenfalls eine Bandbreite von 6,4 GB/s aufweist. Diese Bandbreite steht beiden Prozessoren vollständig zur Verfügung, was besondersfür Multi-Threaded-SMP-Applikationen wichtig ist, da alle Threads einer SMP-Anwendung einen symmetrischen Zugriff auf die volle Speicherbandbreite haben müssen. Dies gilt auch für die gemeinsamen I/O-Ressourcen, die ebenfalls vollständig symmetrisch implementiert sind sowie allen Prozessoren direkt und unmittelbar zur Verfügung stehen. DDR2-Speichermodule kombinieren die Vorteile von geringerem Stromverbrauch mit hoher Bandbreite und großer Speicherkapazität.

Im I/O-Bereich kommt der neue Industriestandard PCI-Express (PCI-E) für universelle, skalierbare und leistungsfähige I/O-Anschlüsse zum Einsatz. Über PCI-Express wird nicht nur Speicher- und Netzwerk-I/O abgewickelt, sondern es stellt auch die auf AGP folgende nächste Generation des Grafikanschlusses dar. Hierbei kommt zum Beispiel PCI-E 16x mit 8 GB/s bidirektionaler Bandbreite zum Einsatz, das bis zu zweimal schneller ist als AGP-8x und die volle Bandbreite symmetrisch in beide Richtungen zulässt. Als weitere PCI-E-Anschlussmöglichkeiten können momen-tan prinzipiell 1x (500 MB/s), 2x (1 GB/s), 4x (2 GB/s) und 8x (4 GB/s) zum Einsatz kommen. Damit kann man das volle Potenzial der nächsten Netzwerk- und Interconnect-Generation mit 10-Gbit/s-Ethernet und Infiniband ausnutzen oder gegebenenfalls mehrere schnelle Grafikausgaben gleichzeitig an ein System anschließen.

Variable Leistungsanpassung senkt Hitzeentwicklung

Um der wachsenden Integrationsdichte und damit der Hitze bei Rack- und Blade-Systemen begegnen zu können, sind die neuen Xeon-DP-Server-Plattformen mit der verbesserten Power-Management-Technik "Demand Based Switching" ausgerüstet. Diese erlaubt es, die Systeme entsprechend ihrer tatsächlichen Auslastung und Workloads gegebenenfalls mit geringerer Spannung (und damit geringerer Taktfrequenz) zu versorgen und somit einen niedrigeren Stromverbrauch und reduzierte Hitzeentwicklung zu erhalten. Diese Anpassung erfolgt automatisch während des laufenden Betriebs und wird über "Thresholds" gesteuert, die der Server-Administrator definiert.

Kommende Innovationen für Xeon- und Itanium-CPUs

Neben den erwähnten neuen Leistungsmerkmalen und Technologien im Enterprise Server Computing werden in Zukunft weitere Innovationen und fortlaufende Verbesserungen zum Einsatz kommen. Auf der Prozessorseite stehen Dual- und Multi-Core-Designs mit verbesserter Leistung sowie erweiterte Prozessor- und Plattform-Power-Management-Funktionen bevor. Daneben wird durch Ausnutzung der technischen Fortschritte im Bereich der Herstellung und der verwendeten Materialien die Integrationsdichte erhöht - bei gleichzeitig geringerem Stromverbrauch und reduzierter Hitzeentwicklung. Beispiele hierfür sind die Intel-Entwicklungen High-K/Metal Gate, 65-Nanometer-Fertigungsprozess, Tri-Gate- und Tera-Hertz-Transistor. Des Weiteren arbeitet Intel an Techniken, die es erlauben, Hardware über einen "Virtual Machine Monitor" (VMM) zu virtualisieren.

Im Bereich des Speichers werden in Zukunft "Fully Buffered DIMMs" (FB-DIMM) zum Einsatz kommen. Dieses Design zeichnet sich dadurch aus, dass es ein asynchrones und paralleles Multi-Channel-Memory-Subsystem implementiert. Dieses adressiert aktuelle DIMM-Speicher über schnelle serielle Verbindungen und vereint durch eine intelligente Datenpufferung hohe Bandbreiten mit hoher Kapazität.

Auch die Leistungsfähigkeit von PCI-Express wird weiterentwickelt. Die Advanced Switching Interconnect Special Interest Group (ASI SIG; www.asi-sig.org) hat bereits Erweiterungen zu den Protokollen der Advanced-Switching-Spezifikation erarbeitet und verabschiedet. Dies zeigt den Zuspruch der Industrie und die Flexibilität von PCI-Express als mächtige und zukunftsweisende lokale I/O-Technologie. Viele der neuen Server-Technologien werden künftig in beiden Prozessorfamilien Intels zum Einsatz kommen, in der Xeon- und der Itanium-Architektur. (ls)

*Dr. Herbert Cornelius ist Technical Marketing Manager bei der Intel GmbH in München.

Hier lesen Sie ...

- welche technischen Details Intels neue 64-Bit-CPU Xeon DP prägen;

- für welche Systeme der Hersteller diese Prozessorarchitektur positioniert;

- welche weiteren Komponenten im Umfeld des Prozessors für hohe Leistungsfähigkeit sorgen;

- auf welche Aspekte sich Intel bei künftigen Innovationen konzentriert.

Xeon-DP-Prozessoren im Vergleich

Merkmal / Xeon DP (Prestonia) / Xeon DP (Nocona) / Verbesserungsfaktor

Strukturbreite / 130 Nanometer / 90 Nanometer / 1,4

Taktfrequenz (zur Einführung) / 1,7 Gigahertz / 3,6 Gigahertz / 2,1

Frontside-Bus (zur Einführung) / 400 Megahertz / 800 Megahertz / 2,0

Instruktionen / SSE2 / SSE3 / 13 neue Instruktionen

L1-Data-Cache / 8 KB / 16 KB / 2,0

L2-Data-Cache (zur Einführung) / 256 KB / 1 MB / 4,0

Thread-Parallelität (zur Einführung) / - / Hyperthreading / Zwei logische Prozessoren pro CPU

Memory Adress Extensions / PAE / PAE, EM64T / 64-Bit-Speicheradressierung