Leicht hatte es AMD in den letzten Monaten nicht. Mit den Dual-Core-Opterons war gegen die Performance der vierkernigen Xeon-5300-Modelle in Systemen mit zwei Sockeln nur wenig auszurichten. Den Nachteil zwei fehlender Kerne konnte auch das Konzept der integrierten Speicher-Controller und flexiblen HyperTransport-Schnittstellen nicht mehr ausmerzen.
Mit dem neuen K10-Opteron bietet AMD nun seinen ersten Quad-Core-Prozessor an. Neben der Kernverdoppelung – bei AMD sind im Gegensatz zu Intel alle vier Kerne auf einem Siliziumplättchen integriert – peppt der Hersteller seinen Prozessor mit zahlreichen Architekturerweiterungen auf.
Dabei vollzieht AMD keinen kompletten Architekturwechsel wie Intel von NetBurst auf Core, sondern merzt Schwachstellen gezielt aus. So erhält der K10-Opteron eine deutliche Verbesserung bei der SSE-Befehlsverarbeitung. Der K10-Core kann nun zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. Auch die Cache-Struktur optimierte AMD: Jedem Kern steht ein 512 KByte dedizierter L2-Cache zur Verfügung, ein 2 MByte fassender L3-Cache sorgt für einen schnellen gemeinsamen Datenzugriff. Der Speicherzugriff erfolgt über zwei unabhängige integrierte 64-Bit-DDR2-667-Controller. Alle Details zur K10-Architektur finden Sie bei TecChannel im Artikel AMDs K10-CPUs: Quad-Core, L3-Cache und SSE4a.
Zusammen mit dem gewohnt flinken HyperTransport-Konzept sollte der K10-Opteron im 2-Sockel-System Intels Xeon-5300-Modellen Paroli bieten können. Den Angriff führt AMD beim Quad-Core-Opteron mit einer Taktfrequenz von „nur“ 2,0 GHz durch. „Nur“, weil die schnellsten Vierkern-Xeons bereits mit 3,0 GHz arbeiten.
Im TecChannel-Testlabor vergleichen wir den neuen Opteron 8350 im 2-Sockel-Betrieb gegen die Dual- und Quad-Core-Konkurrenz von Intel. Außerdem zeigen wir, welchen Performance-Gewinn der 2,0-GHz-Quad-Core-K10 gegen einen bisherigen 2,8-GHz-Dual-Core-K8-Opteron erreicht.
Details zum Quad-Core-Opteron „Barcelona“
Als bisherige Topmodelle von AMDs Server- und Workstations-CPUs fungierten der Opteron 2224 SE und 8224 SE mit 3,2 GHz Taktfrequenz. Für höchste Performance der Dual-Core-Modelle steht die zusätzliche Modellbezeichnung „SE“. Diese SE-Opterons sind mit 120 Watt TDP spezifiziert.
Mit 95 Watt TDP gibt es die Dual-Core-Opterons 2210 (1,8 GHz) bis 2222 (3,0 GHz), 68-Watt-Modelle „HE“ sind von 1,8 bis 2,6 GHz verfügbar. Die Fertigung erfolgt durchgehend im 90-nm-Prozess.
Den neuen Quad-Core-Opteron fertigt AMD im 65-nm-Verfahren. Zum Start sind die Modelle Opteron 2344 HE (1,7 GHz), 2346 HE (1,8 GHz), 2347 und 2347 HE (1,9 GHz) und 2350 (2,0 GHz) für 2-Sockel-Systeme verfügbar. Für 8-Sockel-Systeme bietet AMD den Opteron 8346 HE (1,8 GHz) 8347 und 8347 HE (1,9 GHz) und 8350 (2,0 GHz) an. AMD spezifiziert die vierkernigen Opteron-HE-Modelle mit 65 Watt TDP, die übrigen Quad-Core-CPUs sind mit 89 Watt TDP angegeben.
Die Prozessoren lassen sich in bestehenden Socket-F-Systeme laut AMD einsetzen, einzig ein BIOS-Update sei für die korrekte Erkennung notwendig. Änderungen der Kühlmaßnahmen sind durch die von den Dual-Core-Opterons übernommenen TDP-Einstufungen nicht erforderlich. Durch die unveränderte Socket-F-Infrastruktur setzt der K10-Opteron weiterhin auf gepufferte DDR2-Speichermodule mit Geschwindigkeiten bis 667 MHz. Der HyperTransport-Bus arbeitet wie bei den bisherigen Dual-Core-Modellen mit 1 GHz Taktfrequenz.
Zu den Features der Quad-Core-Opterons zählt AMDs Virtualisierungstechnologie Pacifica. Mit der „Secure Virtual Machine Architecture“, so der richtige Name, geht AMD neben der CPU-Virtualisierung noch einen Schritt weiter. Denn im Prozessor integrierte Trusted-Computing-Features sorgen zusätzlich für mehr Security. Außerdem virtualisiert Pacifica den Speicher-Controller.
Testvorbetrachtung
Für den Test der Opteron- und Xeon-Prozessoren standen uns verschiedenen Systeme zur Verfügung. Die 2-Sockel-Server unterscheiden sich vor allem in der Auslegung der Netzteile sowie der Storage-Anbindung.
Bei unserer ersten Performance-Analyse des Quad-Core-Opterons haben wir deshalb bewusst nur Benchmarks gewählt, die vom Storage-Subsystem unabhängig sind und die Workloads sich im Arbeitsspeicher halten. Auch ein direkter Vergleich der Energieaufnahme sowie der Performance pro Watt bleibt in unserer Betrachtung außen vor. Hier werden wir bei TecChannel ausführliche Analysen nachreichen.
Um beim Arbeitsspeicher möglichst gleiche Vorraussetzungen zu erreichen, kommen jeweils 16 GByte DDR2-667-SDRAM zum Einsatz. Die AMD-Systeme benötigen dabei Registered DIMMs, Intels Prozessoren arbeiten mit FB-DIMMs zusammen. Details zu den Testsystemen finden im Abschnitt „Testplattform Opteron- & Xeon-CPUs“ am Ende des Artikels.
Als Betriebssystem setzen wir Windows Server 2003 R2 x64 ein. Beim Linux-Betriebssystem CentOS 5.0 kommt ebenfalls die 64-Bit-Version zum Einsatz.
CPU2006 Integer: SPECint_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems.
CPU2006 Floating Point: SPECfp_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei acht Kernen wie in den getesteten 2-Sockel-Systemen sind 16 GByte Arbeitsspeicher für SPECfp_rate_base2006 notwendig.
Intels 10.0-Compiler bieten mit dem Switch –QxO erstmals eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“. Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung (Enhanced SSE3).
CPU2000 Integer: SPECint_rate_base2000
Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der Prozessorkerne des Systems.
Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.
CPU2000 Floating Point: SPECfp_rate_base2000
Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der Prozessorkerne des Systems.
Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.
Linpack 64 Bit
Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.
Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.
Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.
Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.
Die zwei Quad-Core-Opterons arbeiten bei Linpack 170 Prozent schneller als das Dual-Core-Opteron-2220-Doppelpack – obwohl die Barcelonas eine 29 Prozent geringere Taktfrequenz besitzen. Neben der Kernverdopplung ist für den Performance-Sprung der „Dual 128-Bit SSE Dataflow“ der K10-Architektur verantwortlich. Damit kann ein K10-Core zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. Bei der aktuellen AMD64-Architektur ist der SSE-Pfad dagegen nur 64 Bit breit.
Laut AMD soll die auch als SSE128 bezeichnete Fließkommabeschleunigung Matrix-Multiplikationen um 85 Prozent gegenüber der K8-Architektur beschleunigen. Diese Berechnungen finden bei Linpack überwiegend statt – damit lässt sich der Performance-Sprung erklären.
Encryption/Decryption: openSSL 64 Bit
Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.
Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.
Analyse: SunGard ACR 64 Bit
SunGards Adaptiv Credit Risk 3.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.
Rendering: SPECapc 3ds Max 9 x64
Discreet/Autodesk bietet mit 3ds Max 9 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.
Die gewählten Render-Szenen „Space Flyby“ und „Underwater“ basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierenden Tests der SPECapc-Suite verwenden wir nicht.
Rendering: CINEBENCH 10 64 Bit
Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.
Beim Render-Teset wird eine photorealistische 3D-Szene mit Hilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig - der Test läuft überwiegend in den Cache-Stufen ab.
Cache: 32-Bit-Transfer
Die Cache-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der TecChannel Benchmark Suite Pro unter Windows Server 2003. tecMem misst die effektiv genutzte Bandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Cache-Hierarchie. Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.
Cache 128-Bit-Transfer
Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache-Performance ermitteln, die eine CPU erreichen kann.
AMD & Intel: Listenpreise Quad-Core-CPUs
Hinsichtlich der Preise empfiehlt es sich, gelegentlich einen Blick auf die offiziellen Listen der CPU-Hersteller zu werfen. Bei AMDs Preisliste gab es am 10. September 2007 die letzten Änderungen. Intels Preisliste wurde am 29. Juli 2007 aktualisiert.
Modell |
Taktfrequenz /FSB [MHz] |
Listenpreis [US-Dollar] |
---|---|---|
AMD |
||
Opteron 8350 |
2000 / 1000 |
1019 |
Opteron 8347 |
1900 / 1000 |
786 |
Opteron 8347 HE |
1900 / 1000 |
873 |
Opteron 8346 HE |
1800 / 1000 |
698 |
Opteron 2350 |
2000 / 1000 |
389 |
Opteron 2347 |
1900 / 1000 |
316 |
Opteron 2347 HE |
1900 / 1000 |
377 |
Opteron 2346 HE |
1800 / 1000 |
255 |
Opteron 2344 HE |
1700 / 1000 |
209 |
Intel |
||
Xeon X5365 |
3000 / 1333 |
1172 |
Xeon X5355 |
2667 / 1333 |
744 |
Xeon E5345 |
2333 / 1333 |
455 |
Xeon E5335 |
2000 / 1333 |
316 |
Xeon L5335 |
2000 / 1333 |
380 |
Xeon E5320 |
1860 / 1066 |
256 |
Xeon L5320 |
1860 / 1066 |
320 |
Xeon E5310 |
1600 / 1066 |
209 |
Xeon L5310 |
1600 / 1066 |
273 |
Produkte |
Info-Link |
---|---|
Prozessoren |
Fazit
Ist AMDs neuer Quad-Core-Opteron mit K10-Architektur ein ernsthafter Gegner für Intels Xeon-5300-Prozessoren? Wir sagen eindeutig ja, vor allem, weil in den K10-Opterons noch viel Potenzial steckt.
Die Paradedisziplin der Quad-Core-Opterons liegt in sehr speicherintensiven Applikationen. Und besonders bei Fließkomma-Anwendungen kommen die K10-Prozessoren hier richtig in Schwung. Beim sehr rechen- und speicherintensiven renommierten CPU2006-Benchmark SPECfp_rate_base2006 arbeiten die 2,0-GHz-Quad-Core-Opterons fünf Prozent schneller als Intels 3,0-GHz-Xeon-X5365-CPUs.
Zwei Gründe sprechen für die effiziente Performance des Barcelona. Arbeiten vier Kerne pro CPU „auf Anschlag“ und benötigen viele Daten aus dem Speicher, kristallisiert sich der Vorteil des integrierten Memory-Controllers und der HyperTransport-Verbindung in Mehrwegesystemen noch stärker heraus. Nicht ohne Grund wird Intels Mikroarchitektur Nehalem 2008 ebenfalls auf integrierte Speicher-Controller und dem seriellen Bus QuickPath setzen. Die neue SSE128-Technologie der K10-Architektur sorgt außerdem für den dringend benötigten Performance-Sprung bei Fließkommaberechnungen.
Bei allen Performance-Werten gilt es zu beachten, dass die ersten Quad-Core-Opterons mit der vergleichsweise niedrigen Taktfrequenz von 2,0 GHz arbeiten. Hier liegt gleichzeitig das große Potenzial der K10-CPUs und AMDs Herausforderung, den Fertigungsprozess möglichst schnell zu optimieren, um höhere Taktfrequenzen zu ermöglichen.
Denn analysiert man die Performance des 2,0-GHz-Barcelonas bei Workloads, die überwiegend im Cache gehalten werden und wenig Speicherzugriffe erfordern, zeigt sich der Taktfrequenznachteil von AMD. Bei diesen mit der Taktfrequenz gut skalierenden Anwendungen, wie Rendering, liegt der K10-Opteron meistens prozentual entsprechend dem niedrigeren Arbeitstakt hinter den Xeons. Bei gleicher Gigahertzzahl läge die Leistungsfähigkeit der K10-Architektur durchaus auf dem Niveau der Xeons.
Mit einem Einstiegspreis von 209 US-Dollar für den Opteron 2344 HE und 389 US-Dollar für das 2-Sockel-Topmodell Opteron 2350 geht AMD aggressiv zu Werke. Intels günstigster Quad-Core-Xeon steht als Modell E5310 (1,6 GHz) ebenfalls mit 209 US-Doller in der Preisliste. Das 3,0-GHz-Topmodell Xeon X5365 kostet 1172 US-Dollar (alle Preise: Stand 10.09.07).
Möglichst schnell höhere Taktfrequenzen zu realisieren, sollte für AMD jetzt Priorität haben, denn Intel stellt noch 2007 seine 45-nm-Xeon-Generation „Harpertown“ vor. (cvi)
Testplattform Opteron- & Xeon
AMDs Quad-Core-Opteron 8350 testen wir in einem Tyan S3993 mit Broadcom BCM5780 Chipsatz. Das 2-Sockel-Systemboard stellt jeder CPU vier DIMM-Slots zur Speicherbestückung zur Verfügung. Als Speichermodule kommen insgesamt acht 2-GByte-DIMMs vom Typ Micron MT36HTF25672-PY-667D1 zum Einsatz. Die gepufferten Module setzen auf DDR2-667-SDRAMs mit einem Timing von 5-5-5-12.
Intels Xeon-Prozessoren testen wir in einem Intel Server Board S5000PSL. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Der Xeon 5160, E5345 und X5365 arbeiten mit einem 1333 MHz schnellen FSB. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt acht 2-GByte-Module vom Typ Qimonda HYS72T256420HFA-3S-B an. Die FB-DIMMs setzen DDR2-667-SDRAMs mit CL5 ein.
Für den Test der Opteron-CPUs 2218 (Cache-Transferraten) und 2220 von AMD verwenden wir von Fujitsu Siemens den 2-Sockel-Server Primergy RX330 S1. Das Systemboard D2440-A100 verwendet einen Broadcom-BCM5780-Chipsatz. Über ihren integrierten Memory-Controller greifen die AMD-CPUs ebenfalls auf Dual-Channel-DDR2-667-SDRAM mit CL5 in gepufferter Ausführung zurück.
Bei der Grafikkarte setzen das Tyan- und Intel-Mainboard auf eine integrierte ATI ES1000, der RX330-S1-Server verwendet eine Matrox G200e. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Durch die in den Servern unterschiedlichen Storage-Subsysteme wählten wir zudem nur Benchmarks, bei denen das Ergebnis von der Storage-Performance unabhängig ist.
Als Betriebssystem verwenden wir Windows Server 2003 R2 x64 sowie CentOS 5.0 in der 64-Bit-Version. (tecchannel/jm)