Schnelle CPUs

Die besten Prozessoren im Benchmark-Duell

06.06.2011 von Christian Vilsbeck
Lesen Sie, welche Prozessoren im großen Benchmark-Vergleich wirklich punkten konnten.

Wer liegt dieses mal vorne? AMD oder Intel? Diese Frage stellt sich schon seit einiger zeit nicht mehr. Trotz der Probleme bei den Sandy-Bridge-CPUs kann sich Intel mit seinen Top-Modellen im großen CPU-Vergleichstest vor AMD behaupten. So sind der Core i/-980X Extreme Edition zusammen mit dem Core i7-2600K Benchmark-Spitzenreiter. In Bezug auf Server-CPUs mit zwei Sockeln können Intels Xeon-5600 CPUs punkten. Obwohl bei den Spitzen-CPUs etwas ins Hintertreffen geraten, müssen sich auch AMDs Prozessoren nicht verstecken. So kann der Opteron 12-Core-Prozessor überzeugen. Besitzt man ein System mit hoher Skalierbarkeit, sind Intels CPUs der Xeon-7500er-Reihe eine Überlegung wert. Aber auch andere Firmen haben aufgeholt. So bieten IBM und Oracle inzwischen interessante Modelle an.

Wie aber misst man die Performance eines Prozessors für einen CPU-Vergleichstest? Im Wesentlichen liefern hier Fließkomma- und Ganzzahlenberechnungen die wichtigsten Werte, um die reine Performance eines Prozessors zu messen. Im Folgenden kam SPECs renomierte Benchmark-Suite CPU2006 als plattformübergreifendes Tool zum Vergleich der Performance der einzelnen CPUs zum Einsatz. So veröffentlichen alle größeren Prozessoren-Hersteller die CPU2006-Werte ihrer Prozessoren auf SPEC.org. Auch Systemanbieter wie Dell, HP, Oracle und IBM veröffentlichen die Werte ihrer Maschinen.

Lesen Sie auf den folgenden Seiten, wie sich die Prozessoren der verschiedenen Anbieter in den einzelnen Performance-Tests geschlagen haben.

CPU2006-Benchmark - Strenge Regeln

CPU2006 ermittelt die Performance der Prozessoren - im Zusammenspiel mit dem Speicher. Die Leistungsfähigkeit der Grafikkarte, der Netzwerkanbindung oder des Storage-Subsystems spielen bei der Benchmark-Suite keine Rolle.

SPECs CPU2006 verwendet Ganzzahlen- und Fließkommaprogramme und wird mit den Sourcecodes geliefert. Es handelt sich hierbei nicht um Lowlevel-Benchmarks, sondern um Software, die realitätsnahe Aufgabenstellungen bearbeitet. CPU2000 unterscheidet zwischen zwölf Integer-Programmen, die in C und C++ geschrieben sind, sowie 17 Floating-Point-Anwendungen, erstellt mit C, C++ und Fortran.

Vor jedem Testlauf ist bei CPU2006 Programm für Programm zu kompilieren. Für jede CPU-Architektur lässt sich dadurch die optimale Entwicklungsumgebung - bestehend aus Compilern, Mathematik-Bibliotheken sowie dem Betriebssystem - verwenden.

SPEC unterscheidet bei CPU2006 zwischen dem Base- und Peak-Rating. Beim Base-Rating müssen alle CPU2000-Programme mit den gleichen Compiler-Flags erstellt werden. Das Peak-Rating von CPU2006 erlaubt unterschiedliche Compiler-Einstellungen und Optimierungen bei jedem einzelnen Programm. Mit dem Peak-Rating wird die maximale Leistungsfähigkeit einer CPU ermittelt.

Bei den CPU2006-Benchmarks gibt es sehr strenge Regeln: Die verwendeten Compiler, Bibliotheken, Switches und das Betriebssystem müssen mit dem Ergebnis veröffentlicht werden. Damit lassen sich die Ergebnisse auch von unabhängigen Stellen einfach nachprüfen, Betrug würde schnell auffallen.

Die CPU2006-Benchmark-Suite ermöglicht vier Performance-Messungen:

Bei allen Benchmark-Diagrammen verwenden wir die Peak-Wertung, um die maximale Leistungsfähigkeit der CPUs zu zeigen.

Integer-Performance: Singlethread

Der SPECint_2006-Benchmark von CPU2006 arbeitet singlethreaded und nutzt die Vorteile von Technologien wie Hyper-Threading und Multi-Core-Architekturen nicht. Die ermittelten Werte gelten als Indiz für die Integer-Performance der Prozessoren.

Intel-x86-Phalanx…: Wäre da nicht IBMs Power7, der sich zwischen Intels Westmere-EP-CPUs Xeon X5677 und X5690 setzt - gefolgt von den Vorgängern und Intels Desktop-Modellen.

Floating-Point-Performance: Singlethread

Der SPECfp_2006-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading und Multi-Core-Architekturen nicht. Die ermittelten Werte gelten als Indiz für die Floating-Point-Performance der Prozessoren.

Enteilt: Bei Fließkommaberechungen liegt IBMs Power7 deutlich an der Spitze. Überraschend platziert sich Intels Xeon X7560 an zweiter Stelle, trotz geringer Taktfrequenz. Der Chip mit seinem 24 MByte großen L3-Cache läuft unter Solaris 10 zur Höchstform mit Peak-Tuning auf. Erwartungsgemäßer sind die nachfolgenden Platzierungen der hoch taktenden Intel-CPUs. Mit einer starken Performance wartet Fujitsus SPARC64 VII auf. Der - in früheren Jahren - für seine hohe Fließkomma-Performance bekannte Itanium 2 liegt noch nur im letzten Drittel.

Integer-Performance: Multithread

Bei den Integer-Berechnungen von SPECint_rate_2006 ermittelt die Benchmark-Suite den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Anzahl der CPU-Kerne eines Prozessors.

Volle Power: IBMs Power7 mit acht Kernen arbeitet 35 Prozent schneller als die Hexa-Core-CPU Intel Xeon X5690. AMDs 12-Kern-Prozessor Opteron 6176 kann durch seine relativ geringe Taktfrequenz ebenfalls nicht mithalten. Stark präsentiert sich bei der geringen Taktfrequenz von nur 1,65 GHz der 16-Kern-Prozessor Oracle SPARC T3.

Floating-Point-Performance: Multithread

Bei den Floating-Point-Berechnungen von SPECfp_rate_2006 ermittelt die Benchmark-Suite den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Anzahl der CPU-Kerne eines Prozessors.

Alles fließt: Fließkommaberechnungen unter Einsatz aller Prozessorkerne erledigt IBMs Power7 mit 55 Prozent Vorsprung zur Konkurrenz noch flinker als Ganzzahlenoperationen. AMDs 12-Kern-Opteron schiebt sich allerdings am Xeon 5690 vorbei. Bei den speicherintensiven Anwendungen profitiert der Opteron 6174 von seinen vier DDR3-1333-Channels - Intels Xeon X5690 besitzt drei Speicherkanäle.

Integer-Performance: Zwei Sockel

Bei 2-Sockel-Systemen ermittelt SPECint_rate_2006 den maximalen Gesamtdurchsatz der beiden Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne von beiden Prozessoren. Bei zwei Quad-Core-CPUs sind somit acht Kopien parallel im Einsatz.

Duett: IBMs Power7 mit acht Kernen arbeitet auch im 2-Sockel-Betrieb in einer eigenen Liga. AMDs 12-Core-Prozessor Opteron 6180 SE liegt schon weit zurück - behauptet sich allerdings als schnellste x86-CPU. Knapp hinter dem Opteron folgt Intels Hexa-Core-Modell Xeon X5690.

Floating-Point-Performance: Zwei Sockel

Bei 2-Sockel-Systemen ermittelt SPECfp_rate_2006 den maximalen Gesamtdurchsatz der beiden Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne von beiden Prozessoren.

Volle Power: Im Duett arbeiten zwei Power7 mit Octa-Core 75 Prozent schneller wie die bereits sehr leistungsfähigen Opteron-6180-SE-CPUs (12 Kerne). Der Opteron seinerseits kann sich bei den speicherintensiveren speicherintensiven Floating-Point-Tests stärker vom Xeon X7560 und X5690 absetzen. Weit abgeschlagen liegen bereits die aktuellen Quad-Core-Itaniums 9350 zurück.

Integer-Performance: Vier Sockel

Bei 4-Sockel-Systemen ermittelt SPECint_rate_2006 den maximalen Gesamtdurchsatz der vier Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne aller vier Prozessoren. Bei vier Quad-Core-CPUs sind beispielsweise 16 Kopien gleichzeitig im Einsatz.

Quadrupel: Auch bei den 4-Sockel-Systemen zieht der Power7 von IBM davon. AMDs Opteron 6180 SE hält Intels 4-Sockel-Konfiguration mit Xeon X7560 wieder in Schach.

Floating-Point-Performance: Vier Sockel

Bei 4-Sockel-Systemen ermittelt SPECfp_rate_2006 den maximalen Gesamtdurchsatz der vier Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne aller vier Prozessoren.

Wechselspiel: Arbeiten vier CPUs bei den speicherintensiven Fließkommaberechnungen zusammen "auf Anschlag", so fallen die 12-Kern-Opterons und Octa-Core-Xeons deutlicher als bei den Integer-Tests hinter IBMs Power 7 zurück. Intels Xeon X7560 muss seinerseits den 12-Kern-Opteron etwas mehr entrücken lassen.

Integer-Performance: Acht Sockel

Bei 8-Sockel-Systemen ermittelt SPECint_rate_2006 den maximalen Gesamtdurchsatz der acht Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne aller acht Prozessoren.

Erdrückend: IBMs Power-700-Server mit acht Power7-CPUs deklassieren die auf SPEC.org gelisteten 8-Sockel-Systeme. Immerhin schaffen die 8-Core-Xeons mit 2,26 GHz etwas mehr Performance als die acht Quad-Core-Power7 mit 4,14 GHz.

Floating-Point-Performance: Acht Sockel

Bei 8-Sockel-Systemen ermittelt SPECfp_rate_2006 den maximalen Gesamtdurchsatz der acht Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne aller acht Prozessoren.

Auf SPEC.org sind aktuell keine 8-Sockel-Systeme mit Intels x86-Prozessoren gelistet.

Übermacht: Bei Fließkommaberechnungen degradieren IBMs Power-700-Server mit den Power7-Prozessoren die 8-Sockel-Konkurrenzsysteme zu Statisten. Einzig der HP ProLiant DL980 G7 mit acht Xeon X7560 bleibt halbwegs im Windschatten. Allerdings liegen die Xeons bei den Floating-Point-Berechnungen gegenüber den Power7-CPUs weiter zurück als bei der Integer-Performance.

Integer-Performance: 16 Sockel

Bei 16-Sockel-Systemen ermittelt SPECint_rate_2006 den maximalen Gesamtdurchsatz der 16 Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne aller 16 Prozessoren.

Auf SPEC.org sind aktuell keine 16-Sockel-Systeme mit AMDs x86-Prozessoren gelistet.

Kernspalterei: Der Server Unisys ES7000 Model 7600R mit 16 Xeon X7460 und somit insgesamt 96 Kernen überholt nur knapp den IBM-Server Power 575 mit 16 Power6-CPUs - aber insgesamt nur 32 Kernen. Sobald auf SPEC.org erste Power7-Systeme mit 16 Prozessoren gelistet sind, wird sich das Bild stark ändern. Systeme mit den neuen Xeon-7500-CPUs (8 Kerne) sind ebenfalls noch nicht auf SPEC.org aufgeführt.

Floating-Point-Performance: 16 Sockel

Bei 16-Sockel-Systemen ermittelt SPECfp_rate_2006 den maximalen Gesamtdurchsatz der acht Prozessoren. Dabei arbeiten wieder multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Gesamtanzahl der CPU-Kerne aller 16 Prozessoren.

Auf SPEC.org sind aktuell keine 16-Sockel-Systeme mit AMDs oder Intels x86-Prozessoren gelistet.

Full Power: Der auf SPEC.org gelistete IBM-Server Power 575 mit 4,7-GHz-Power6-CPUs lässt den Konkurrenten bei Fließkommatests keine Chance. Der Abstand wird noch deutlich größer, sobald erste Power7-Systeme mit 16 CPUs auf SPEC.org gelistet sind.

Integer-Performance: Top-Systeme

Im Diagramm zeigen wir die schnellsten auf SPEC.org gelisteten Systeme auf Basis von SPECint_rate_2006. Dabei berücksichtigen wir unterschiedliche Architekturen und CPU-Generationen. Bei den CPUs finden Sie die Anzahl der verwendeten Prozessoren in den Systemen.

x86 auf Platz 1: Die höchste Integer-Leistung bietet ein SGI-Altix-UV-1000-System mit 128 Xeon X7560. Selbst 512 Itanium 2 9040 können an diese Leistung nicht anknüpfen. Immerhin schaffen aber 32 Power7 die halbe Rechenleistung von 128 Xeons.

Floating-Point-Performance: Top-Systeme

Im Diagramm zeigen wir die schnellsten auf SPEC.org gelisteten Systeme auf Basis von SPECfp_rate_2006. Dabei berücksichtigen wir unterschiedliche Architekturen und CPU-Generationen. Bei den CPUs finden Sie die Anzahl der verwendeten Prozessoren in den Systemen.

Entmachtet: SGIs Altix-4700-Server mit 512 Itanium 2 9040 muss seit Juli 2010 dem SGI Altix UV 1000 mit auf 128 Xeon X7560 verdoppelter CPU-Anzahl deutlich den Vortritt lassen.

Fazit

Die reine Rechenleistung betreffend spielt IBMs Power7 in einer eigenen Liga. Sowohl die Integer- als auch Floating-Point-Performance übertrifft die gesamte Konkurrenz meist um ein Vielfaches. Neben acht Kernen, vierfachem Multithreading pro Core, Turbo Modus, zwei integrierten DDR3-Speicher-Controllern für acht Channels und Taktfrequenzen bis 4,14 GHz verfügt der 45-nm-Prozessor auch über einen riesigen L3-Cache von bis zu 32 MByte. Egal ob zwei, vier oder acht Power7 im Server sind, die Konkurrenzsysteme sind chancenlos.

Im x86-Segement bei Systemen mit einem Sockel agieren dagegen Intels Westmere-basierender Core i7 und die Xeon-5600-Serie in relativ konkurrenzlos. Von Intels Core i7-2600K mit neuer Sandy-Bridge-Architektur liegen leider noch keine offiziellen SPEC-Ergebnisse vor - langsamer ist die Architektur mit AVX-Erweiterung sicherlich nicht. Der Power7 bietet zwar auch im Single-Thread-Modus die höchste Performance, jedoch sind 1-Sockel-Szenarien mit der IBM-CPU wenig praxisrelevant. AMDs Opteron mit zwölf Kernen bietet der Xeon-5600-Serie in der 2-Sockel-Konfiguration aber mehr als nur Paroli - die AMD-basierenden Systeme sind schneller.

Bei x86-Systemen mit vier Sockeln fällt das Rennen zwischen dem Xeon X7560 mit Octa-Core und Opteron 6180 SE mit 12-Kern-Technologie ebenfalls zugunsten von AMD aus. Während sich die Xeon-7500-Systeme zusätzlich durch ihre RAS-Features auf RISC-Niveau auszeichnen, punkten Opteron-6100-Server meist durch günstigere Preise. Systeme mit Prozessoren wie dem Power7, SPARC T3 sowie die meist langsameren SPARC64 VII+ liegen dagegen in einer ganz anderen Preisliga als Xeon- und Opteron-Server.

Ginge es also nach der puren Performance des einzelnen Prozessors, so hätten ein SPARC64 oder Itanium 9350 keine Daseinsberechtigung. Doch diese CPUs - wie auch der Power7 kommen vor allem in Systemen mit vier, acht, 16, 32 oder mehr Prozessoren zum Einsatz. Hier zählen neben der Skalierbarkeit vor allem auch die ausgeklügelten RAS-Features der CPUs für den sicheren Betrieb der Systeme. An Performance mangelt es durch die CPU-Anzahl dann ebenfalls nicht. Das Metier der x86-CPUs bleiben dagegen Systeme mit einem, zwei oder vier Prozessoren. Hier muss neben der Performance vor allem der Preis und die Energieeffizienz stimmen. Gefährlich wird den SPARCs und Co. aber, wie bereits erwähnt, die Xeon-7500-Plattform. Hier fischt Intel im Terrain der RISC-Maschinen. (cvi)

Dieser Artikel basiert auf einem Beitrag der CW-Schwesterpublikation TecChannel.