Quad-Core-Angriff: AMD K10-Opteron im Test

11.09.2007 von Christian Vilsbeck

AMDs lange erwartete K10-Architektur geht mit dem Opteron „Barcelona“ an den Start. Mit nativem Quad-Core, neuer Cache-Hierarchie sowie viel Architekturfeinschliff tritt der 2,0-GHz-Barcelona gegen Intels Vierkernmodelle Xeon 5300 an.

Leicht hatte es AMD in den letzten Monaten nicht. Mit den Dual-Core-Opterons war gegen die Performance der vierkernigen Xeon-5300-Modelle in Systemen mit zwei Sockeln nur wenig auszurichten. Den Nachteil zwei fehlender Kerne konnte auch das Konzept der integrierten Speicher-Controller und flexiblen HyperTransport-Schnittstellen nicht mehr ausmerzen.

Mit dem neuen K10-Opteron bietet AMD nun seinen ersten Quad-Core-Prozessor an. Neben der Kernverdoppelung – bei AMD sind im Gegensatz zu Intel alle vier Kerne auf einem Siliziumplättchen integriert – peppt der Hersteller seinen Prozessor mit zahlreichen Architekturerweiterungen auf.

Dabei vollzieht AMD keinen kompletten Architekturwechsel wie Intel von NetBurst auf Core, sondern merzt Schwachstellen gezielt aus. So erhält der K10-Opteron eine deutliche Verbesserung bei der SSE-Befehlsverarbeitung. Der K10-Core kann nun zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. Auch die Cache-Struktur optimierte AMD: Jedem Kern steht ein 512 KByte dedizierter L2-Cache zur Verfügung, ein 2 MByte fassender L3-Cache sorgt für einen schnellen gemeinsamen Datenzugriff. Der Speicherzugriff erfolgt über zwei unabhängige integrierte 64-Bit-DDR2-667-Controller. Alle Details zur K10-Architektur finden Sie bei TecChannel im Artikel AMDs K10-CPUs: Quad-Core, L3-Cache und SSE4a.

K10-Opteron 8350 „Barcelona“ 2,0 GHz: Der Quad-Core-Prozessor arbeitet im Socket F. Pro Core besitzt die CPU einen 512 KByte großen L2-Cache. Allen Kernen steht ein gemeinsamer 2 MByte L3-Cache zur Verfügung. Der integrierte Speicher-Controller steuert gepufferte DDR2-667-DIMMs an.

Zusammen mit dem gewohnt flinken HyperTransport-Konzept sollte der K10-Opteron im 2-Sockel-System Intels Xeon-5300-Modellen Paroli bieten können. Den Angriff führt AMD beim Quad-Core-Opteron mit einer Taktfrequenz von „nur“ 2,0 GHz durch. „Nur“, weil die schnellsten Vierkern-Xeons bereits mit 3,0 GHz arbeiten.

Im TecChannel-Testlabor vergleichen wir den neuen Opteron 8350 im 2-Sockel-Betrieb gegen die Dual- und Quad-Core-Konkurrenz von Intel. Außerdem zeigen wir, welchen Performance-Gewinn der 2,0-GHz-Quad-Core-K10 gegen einen bisherigen 2,8-GHz-Dual-Core-K8-Opteron erreicht.

Details zum Quad-Core-Opteron „Barcelona“

Als bisherige Topmodelle von AMDs Server- und Workstations-CPUs fungierten der Opteron 2224 SE und 8224 SE mit 3,2 GHz Taktfrequenz. Für höchste Performance der Dual-Core-Modelle steht die zusätzliche Modellbezeichnung „SE“. Diese SE-Opterons sind mit 120 Watt TDP spezifiziert.

Mit 95 Watt TDP gibt es die Dual-Core-Opterons 2210 (1,8 GHz) bis 2222 (3,0 GHz), 68-Watt-Modelle „HE“ sind von 1,8 bis 2,6 GHz verfügbar. Die Fertigung erfolgt durchgehend im 90-nm-Prozess.

Neuer Befehlssatz: AMDs K10-Opteron unterstützt die SSE4a-Instruktionen. Bei SSE4a handelt es sich um eine eingeschränkte Befehlsauswahl von Intels SSE4-Erweiterung. Die Sample-CPU gibt eine nicht finale ID aus – richtig wäre 8350.

Den neuen Quad-Core-Opteron fertigt AMD im 65-nm-Verfahren. Zum Start sind die Modelle Opteron 2344 HE (1,7 GHz), 2346 HE (1,8 GHz), 2347 und 2347 HE (1,9 GHz) und 2350 (2,0 GHz) für 2-Sockel-Systeme verfügbar. Für 8-Sockel-Systeme bietet AMD den Opteron 8346 HE (1,8 GHz) 8347 und 8347 HE (1,9 GHz) und 8350 (2,0 GHz) an. AMD spezifiziert die vierkernigen Opteron-HE-Modelle mit 65 Watt TDP, die übrigen Quad-Core-CPUs sind mit 89 Watt TDP angegeben.

Die Prozessoren lassen sich in bestehenden Socket-F-Systeme laut AMD einsetzen, einzig ein BIOS-Update sei für die korrekte Erkennung notwendig. Änderungen der Kühlmaßnahmen sind durch die von den Dual-Core-Opterons übernommenen TDP-Einstufungen nicht erforderlich. Durch die unveränderte Socket-F-Infrastruktur setzt der K10-Opteron weiterhin auf gepufferte DDR2-Speichermodule mit Geschwindigkeiten bis 667 MHz. Der HyperTransport-Bus arbeitet wie bei den bisherigen Dual-Core-Modellen mit 1 GHz Taktfrequenz.

Zu den Features der Quad-Core-Opterons zählt AMDs Virtualisierungstechnologie Pacifica. Mit der „Secure Virtual Machine Architecture“, so der richtige Name, geht AMD neben der CPU-Virtualisierung noch einen Schritt weiter. Denn im Prozessor integrierte Trusted-Computing-Features sorgen zusätzlich für mehr Security. Außerdem virtualisiert Pacifica den Speicher-Controller.

Testvorbetrachtung

Für den Test der Opteron- und Xeon-Prozessoren standen uns verschiedenen Systeme zur Verfügung. Die 2-Sockel-Server unterscheiden sich vor allem in der Auslegung der Netzteile sowie der Storage-Anbindung.

Bei unserer ersten Performance-Analyse des Quad-Core-Opterons haben wir deshalb bewusst nur Benchmarks gewählt, die vom Storage-Subsystem unabhängig sind und die Workloads sich im Arbeitsspeicher halten. Auch ein direkter Vergleich der Energieaufnahme sowie der Performance pro Watt bleibt in unserer Betrachtung außen vor. Hier werden wir bei TecChannel ausführliche Analysen nachreichen.

Zweimal Quad-Core: Als K10-Testsamples standen uns zwei Opteron 8350 in einem 2-Sockel-System von Tyan zur Verfügung. Die 2,0-GHz-Sample-CPUs melden sich noch mit einer veralteten Modellnummer.

Um beim Arbeitsspeicher möglichst gleiche Vorraussetzungen zu erreichen, kommen jeweils 16 GByte DDR2-667-SDRAM zum Einsatz. Die AMD-Systeme benötigen dabei Registered DIMMs, Intels Prozessoren arbeiten mit FB-DIMMs zusammen. Details zu den Testsystemen finden im Abschnitt „Testplattform Opteron- & Xeon-CPUs“ am Ende des Artikels.

Speicher satt: Für den Test des K10-Opterons stehen 16 GByte DDR2-667-Speicher zur Verfügung.

Als Betriebssystem setzen wir Windows Server 2003 R2 x64 ein. Beim Linux-Betriebssystem CentOS 5.0 kommt ebenfalls die 64-Bit-Version zum Einsatz.

CPU2006 Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems.

SPECint_rate_base2006: Gegenüber den 2,8-GHz-Dual-Core-Opterons erreichen die 2,0-GHz-Barcelonas eine 81 Prozent höhere Performance, bei deutlich geringerer Taktfrequenz. Verbesserungen im Frontend sowie der Cache-Struktur sind neben der Quad-Core-Technologie für den Geschwindigkeitsschub verantwortlich. Im Vergleich zu den höher getakteten Xeon-Prozessoren bietet der Barcelona mit seinen 2,0 GHz eine sehr konkurrenzfähige Geschwindigkeit.

CPU2006 Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei acht Kernen wie in den getesteten 2-Sockel-Systemen sind 16 GByte Arbeitsspeicher für SPECfp_rate_base2006 notwendig.

SPECfp_rate_base2006: AMDs Quad-Core-Opterons 8350 überzeugen mit einer beeindruckenden Performance. Mit nur 2,0 GHz Taktfrequenz überholen die Barcelonas Intels Xeon X5365 mit 3,0 GHz. Bei dem sehr speicherlastigen Benchmark zeigt sich die Überlegenheit des Konzepts der integrierten Speicher-Controller in Verbindung mit den HyperTransport-Schnittstellen. Zusätzlich profitiert der K10 von seiner verbesserten SSE-Engine. Bei Intel wird der gemeinsame FSB der vier Kerne pro Xeon-5300-Modell bereits zur Bremse.

Intels 10.0-Compiler bieten mit dem Switch –QxO erstmals eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“. Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung (Enhanced SSE3).

CPU2000 Integer: SPECint_rate_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der Prozessorkerne des Systems.

SPECint_rate_base2000: Die zwei 2,0-GHz-Quad-Core-Opterons arbeiten 47 Prozent schneller als das Opteron-2220-Doppelpack – ein guter Wert, berücksichtigt man die 40 Prozent höhere Taktfrequenz der 2220er-Dual-Core-CPUs. Intels Xeon-Prozessoren sind bei dem nicht besonders speicherlastigen Integer-Benchmark weiterhin in Führung.

Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.

CPU2000 Floating Point: SPECfp_rate_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der Prozessorkerne des Systems.

SPECfp_rate_base2000: Bei den speicherlastigeren Floating-Point-Benchmarks schmelzen die Quad-Core-Opterons den Vorsprung der Xeons deutlich ab. Die verbesserte SSE-Performance und die integrierten Speicher-Controller zeigen die Vorteile des AMD-Konzeptes. Besonders der gemeinsame FSB der vier Kerne pro Xeon-5300-Modell wird bereits zur Bremse. Statt 77 Prozent mehr Performance wie beim „Cache-lastigen“ SPECint_rate_base2000 erreichen die 3,0-GHz-Quad-Core-Xeons X5365 jetzt nur 29 Prozent mehr Durchsatz als zwei Xeon 5160.

Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.

Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Effizient: Obwohl das Barcelona-Doppelpack nur mit 2,0 GHz Taktfrequenz arbeitet, werden die 2,33-GHz-Quad-Core-Xeons locker überholt. Die K10-Architektur profitiert im hohen Maße von der SSE-Überarbeitung, wie der Vergleich mit den Opteron 2220 offenbart. Außerdem zeigt AMDs HyperTransport-Konzept mit den integrierten Speicher-Controllern bei diesem sehr speicherlastigen Benchmark die Überlegenheit gegenüber Intels „klassischer“ FSB-Technologie.

Die zwei Quad-Core-Opterons arbeiten bei Linpack 170 Prozent schneller als das Dual-Core-Opteron-2220-Doppelpack – obwohl die Barcelonas eine 29 Prozent geringere Taktfrequenz besitzen. Neben der Kernverdopplung ist für den Performance-Sprung der „Dual 128-Bit SSE Dataflow“ der K10-Architektur verantwortlich. Damit kann ein K10-Core zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. Bei der aktuellen AMD64-Architektur ist der SSE-Pfad dagegen nur 64 Bit breit.

Laut AMD soll die auch als SSE128 bezeichnete Fließkommabeschleunigung Matrix-Multiplikationen um 85 Prozent gegenüber der K8-Architektur beschleunigen. Diese Berechnungen finden bei Linpack überwiegend statt – damit lässt sich der Performance-Sprung erklären.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Die K10-Opterons platzieren sich zwischen den wesentlich höher getakteten Xeon-Quad-Cores. Dies spricht für die Effizienz der K10-Architektur. Gegenüber den 2220er 2,8-GHz-Dual-Core-Opterons verschlüsseln die Barcelonas 48 Prozent schneller.

RSA-2048 Decryption: Das Entschlüsseln erledigen die Quad-Core-Opterons 15 Prozent schneller als die zwei Xeon E5345. Nur die 3,0-GHz-Quad-Core-Xeons hängen das Opteron-8350-Doppelpack um 12 Prozent ab.

Analyse: SunGard ACR 64 Bit

SunGards Adaptiv Credit Risk 3.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Die 2,0-GHz-Barcelonas analysieren 59 Prozent schneller als die 2,8-GHz-Dual-Core-Opterons. Wird bei SunGard die sehr gute Skalierung der Performance mit höheren Taktfrequenzen berücksichtigt, so würden die K10-Opterons bei einem Arbeitstakt auf dem Niveau der 5300er Xeons eine ähnliche Leistung bieten.

Rendering: SPECapc 3ds Max 9 x64

Discreet/Autodesk bietet mit 3ds Max 9 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Die gewählten Render-Szenen „Space Flyby“ und „Underwater“ basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierenden Tests der SPECapc-Suite verwenden wir nicht.

Szene „Space Flyby“: Die zwei Quad-Core-Opterons arbeiten 14 Prozent langsamer als zwei Xeon E5345 – dies entspricht der prozentual geringeren Taktfrequenz. Das Beispiel zeigt, dass AMD bei wenig speicherintensiven Anwendungen wie Rendering dem Nachteil der vergleichsweise niedrigen Taktfrequenz Tribut zollt. Das Performance-Potenzial der K10-Architektur bei höheren Taktfrequenzen liegt dagegen auf dem Niveau von Intels Core-Architektur.

Szene Underwater: Bei diesem Render-Workload arbeiten die Quad-Core-Opterons 35 Prozent langsamer als zwei Xeon E5345. Die Puffergrößen von 512 KByte L2-Cache pro Kern und 2 MByte shared L3-Cache reichen jetzt nicht mehr aus. Die Quad-Core-Xeons mit 8 MByte L2-Cache halten den Workload besser im Puffer – der langsame Arbeitsspeicher wird weniger bemüht im Vergleich zum Opteron.

Rendering: CINEBENCH 10 64 Bit

Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.

Beim Render-Teset wird eine photorealistische 3D-Szene mit Hilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig - der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet - Multi-Core nutzt hier nichts. AMDs K10-Core arbeitet bei einer 29 Prozent geringeren Taktfrequenz durch die verbesserte Fließkomma-Einheit nur 15 Prozent langsamer als der K8-Core des Opteron 2220. Gegenüber den Xeons fällt der Barcelona durch seine geringere Taktfrequenz zurück. Würde man den Arbeitstakt des K10 wieder hoch skalieren, so läge der Barcelona auf dem Performance-Niveau der Xeons.

Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. AMDs Barcelona-Doppelpack überholt die deutlich höher getakteten Dual-Core-Modelle deutlich. Der prozentuale Rückstand gegenüber Intels Quad-Core-Xeons entspricht wieder der entsprechend niedrigeren Taktfrequenz des K10-Opterons. Die Rendering-Geschwindigkeit skaliert sehr gut mit Taktfrequenzerhöhungen.

Cache: 32-Bit-Transfer

Die Cache-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der TecChannel Benchmark Suite Pro unter Windows Server 2003. tecMem misst die effektiv genutzte Bandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Cache-Hierarchie. Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

Opteron 8350 (2,00 GHz): Bei bis 64 KByte großen Blockzugriffen (L1-Cache) besitzt der K10-Opteron mit 29.626 MByte/s eine höhere Bandbreite als der 2,33-GHz-Xeon und 2,6-GHz-K8-Opteron. Im 512 KByte fassenden L2-Cache (pro Core) erlaubt die AMD-CPU mit 9392 MByte/s allerdings weniger als der Xeon. Dem allen Kernen gemeinsamen 2 MByte großen L3-Cache entlockt die CPU eine Bandbreite von 6311 MByte/s.

Opteron 2218 (2,60 GHz): Im 64 KByte großen L1-Cache besitzt der K8-Opteron mit 19.584 MByte/s trotz höherer Taktfrequenz eine geringere Bandbreite als der 2,0-GHz-K10-Opteron. Auch im 1 MByte fassenden L2-Cache (pro Core) ist der K8-Opteron mit 6658 MByte/s langsamer als die 2,0-GHz-Quad-Core-CPU.

Xeon E5345 (2,33 GHz): Die Core-CPU erreicht im L1-Cache 17.384 MByte/s, dem L2-Cache sind maximal 11.899 MByte/s zu entlocken. Insgesamt besitzt die CPU zwar 8 MByte L2-Cache, einem Kern stehen jedoch nur 4 MByte Puffer zur Verfügung. Zwei Kerne pro Siliziumplättchen teilen sich den 4 MByte L2-Cache dynamisch.

Cache 128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache-Performance ermitteln, die eine CPU erreichen kann.

Opteron 8350 (2,00 GHz): Im L1-Cache erreicht die CPU maximal 51.808 MByte/s. In der zweiten Pufferstufe sind es 15.164 MByte/s. Dem L3-Cache entlockt der K10-Opteron noch 6817 MByte/s. AMD erhöhte die Cache-Bandbreite gegenüber der K8-Architektur wesentlich.

Opteron 2218 (2,60 GHz): Im L1-Cache ist die CPU mit maximal 19.751 MByte/s bei höherer Taktfrequenz deutlich langsamer als der K10-Opteron. In der zweiten Pufferstufe sind es 10.357 MByte/s.

Xeon E5345 (2,33 GHz): Im L1-Cache erreicht die CPU maximal 35.595 MByte/s. In der zweiten Pufferstufe sind es 14.688 MByte/s.

AMD & Intel: Listenpreise Quad-Core-CPUs

Hinsichtlich der Preise empfiehlt es sich, gelegentlich einen Blick auf die offiziellen Listen der CPU-Hersteller zu werfen. Bei AMDs Preisliste gab es am 10. September 2007 die letzten Änderungen. Intels Preisliste wurde am 29. Juli 2007 aktualisiert.

OEM-Preise im Vergleich
Modell	Taktfrequenz /FSB [MHz]	Listenpreis [US-Dollar]
AMD
Opteron 8350	2000 / 1000	1019
Opteron 8347	1900 / 1000	786
Opteron 8347 HE	1900 / 1000	873
Opteron 8346 HE	1800 / 1000	698


Opteron 2350	2000 / 1000	389
Opteron 2347	1900 / 1000	316
Opteron 2347 HE	1900 / 1000	377
Opteron 2346 HE	1800 / 1000	255
Opteron 2344 HE	1700 / 1000	209


Intel
Xeon X5365	3000 / 1333	1172
Xeon X5355	2667 / 1333	744
Xeon E5345	2333 / 1333	455
Xeon E5335	2000 / 1333	316
Xeon L5335	2000 / 1333	380
Xeon E5320	1860 / 1066	256
Xeon L5320	1860 / 1066	320
Xeon E5310	1600 / 1066	209
Xeon L5310	1600 / 1066	273

TecChannel Preisvergleich & Shop
Produkte	Info-Link

Prozessoren	Preise und Händler

Fazit

Ist AMDs neuer Quad-Core-Opteron mit K10-Architektur ein ernsthafter Gegner für Intels Xeon-5300-Prozessoren? Wir sagen eindeutig ja, vor allem, weil in den K10-Opterons noch viel Potenzial steckt.

Die Paradedisziplin der Quad-Core-Opterons liegt in sehr speicherintensiven Applikationen. Und besonders bei Fließkomma-Anwendungen kommen die K10-Prozessoren hier richtig in Schwung. Beim sehr rechen- und speicherintensiven renommierten CPU2006-Benchmark SPECfp_rate_base2006 arbeiten die 2,0-GHz-Quad-Core-Opterons fünf Prozent schneller als Intels 3,0-GHz-Xeon-X5365-CPUs.

Zwei Gründe sprechen für die effiziente Performance des Barcelona. Arbeiten vier Kerne pro CPU „auf Anschlag“ und benötigen viele Daten aus dem Speicher, kristallisiert sich der Vorteil des integrierten Memory-Controllers und der HyperTransport-Verbindung in Mehrwegesystemen noch stärker heraus. Nicht ohne Grund wird Intels Mikroarchitektur Nehalem 2008 ebenfalls auf integrierte Speicher-Controller und dem seriellen Bus QuickPath setzen. Die neue SSE128-Technologie der K10-Architektur sorgt außerdem für den dringend benötigten Performance-Sprung bei Fließkommaberechnungen.

Bei allen Performance-Werten gilt es zu beachten, dass die ersten Quad-Core-Opterons mit der vergleichsweise niedrigen Taktfrequenz von 2,0 GHz arbeiten. Hier liegt gleichzeitig das große Potenzial der K10-CPUs und AMDs Herausforderung, den Fertigungsprozess möglichst schnell zu optimieren, um höhere Taktfrequenzen zu ermöglichen.

Denn analysiert man die Performance des 2,0-GHz-Barcelonas bei Workloads, die überwiegend im Cache gehalten werden und wenig Speicherzugriffe erfordern, zeigt sich der Taktfrequenznachteil von AMD. Bei diesen mit der Taktfrequenz gut skalierenden Anwendungen, wie Rendering, liegt der K10-Opteron meistens prozentual entsprechend dem niedrigeren Arbeitstakt hinter den Xeons. Bei gleicher Gigahertzzahl läge die Leistungsfähigkeit der K10-Architektur durchaus auf dem Niveau der Xeons.

Mit einem Einstiegspreis von 209 US-Dollar für den Opteron 2344 HE und 389 US-Dollar für das 2-Sockel-Topmodell Opteron 2350 geht AMD aggressiv zu Werke. Intels günstigster Quad-Core-Xeon steht als Modell E5310 (1,6 GHz) ebenfalls mit 209 US-Doller in der Preisliste. Das 3,0-GHz-Topmodell Xeon X5365 kostet 1172 US-Dollar (alle Preise: Stand 10.09.07).

Möglichst schnell höhere Taktfrequenzen zu realisieren, sollte für AMD jetzt Priorität haben, denn Intel stellt noch 2007 seine 45-nm-Xeon-Generation „Harpertown“ vor. (cvi)

Testplattform Opteron- & Xeon

AMDs Quad-Core-Opteron 8350 testen wir in einem Tyan S3993 mit Broadcom BCM5780 Chipsatz. Das 2-Sockel-Systemboard stellt jeder CPU vier DIMM-Slots zur Speicherbestückung zur Verfügung. Als Speichermodule kommen insgesamt acht 2-GByte-DIMMs vom Typ Micron MT36HTF25672-PY-667D1 zum Einsatz. Die gepufferten Module setzen auf DDR2-667-SDRAMs mit einem Timing von 5-5-5-12.

Barcelona-Plattform: Jeder Quad-Core-Prozessor greift über seinen integrierten Speicher-Controller auf 4 GByte DDR2-667-SDRAM zurück. Über die HyperTransport-Verbindung zwischen den CPUs ist auch der Zugriff auf den Nachbarspeicher möglich.

Intels Xeon-Prozessoren testen wir in einem Intel Server Board S5000PSL. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Der Xeon 5160, E5345 und X5365 arbeiten mit einem 1333 MHz schnellen FSB. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt acht 2-GByte-Module vom Typ Qimonda HYS72T256420HFA-3S-B an. Die FB-DIMMs setzen DDR2-667-SDRAMs mit CL5 ein.

Xeon-Plattform: Eine Hutze leitet die kühlende Luft über die passiven Xeon-Kühler und die FB-DIMMs.

Für den Test der Opteron-CPUs 2218 (Cache-Transferraten) und 2220 von AMD verwenden wir von Fujitsu Siemens den 2-Sockel-Server Primergy RX330 S1. Das Systemboard D2440-A100 verwendet einen Broadcom-BCM5780-Chipsatz. Über ihren integrierten Memory-Controller greifen die AMD-CPUs ebenfalls auf Dual-Channel-DDR2-667-SDRAM mit CL5 in gepufferter Ausführung zurück.

Bei der Grafikkarte setzen das Tyan- und Intel-Mainboard auf eine integrierte ATI ES1000, der RX330-S1-Server verwendet eine Matrox G200e. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Durch die in den Servern unterschiedlichen Storage-Subsysteme wählten wir zudem nur Benchmarks, bei denen das Ergebnis von der Storage-Performance unabhängig ist.

Als Betriebssystem verwenden wir Windows Server 2003 R2 x64 sowie CentOS 5.0 in der 64-Bit-Version. (tecchannel/jm)