CPU und Server im Vergleich

Die stärksten Server für die Virtualisierung

18.05.2010 von Christian Vilsbeck
Server-Virtualisierung ist im Data Center heute gesetzt. Doch die virtuellen Maschinen stellen hohe Anforderungen an CPU, Storage und das gesamte Server-System. Wir stellen die schnellsten Server für die Virtualisierung vor.

Nicht nur die Server-Anbieter selbst haben die Virtualisierung als Wachstumsmarkt erkannt. Schon länger werben auch die CPU-Hersteller Intel und AMD mit Features, die die Performance von virtualisierten Servern steigern sollen. So gehören beispielsweise Techniken wie AMD-V in den Opteron-Prozessoren oder auch Intel VT-x in den den aktuellen Xeon-CPUs schon zur Grundausstattung, wenn es um die Virtualisierung auf Prozessorebene geht. Ein Trend ist im Markt für Virtualisierung klar erkennbar: Nicht nur einzelne Komponenten werden virtualisiert, sondern immer häufiger ganze Plattformen. Dazu gehören neben Servern beispielsweise auch Storage-Systeme und Netzwerke.

Als Maßstab für die Performance von Servern im Zusammenhang mit Virtualisierung hat sich der Benchmark VMmark von VMware durchgesetzt. Alle wichtigen Server- und CPU-Herstellen erkennen diesen Test inzwischen an. Dazu gehören Cisco, Dell, Fujitsu, Hewlett-Packard und IBM ebenso wie Intel und AMD.

Die Hersteller legen großen Wert darauf, im Test möglichst gute Werte zu erreichen. Die Ergebnisse können deshalb auch IT-Managern als Orientierung für Investitionsentscheidungen dienen.

Auf den folgenden Seiten lesen, wie die schnellsten Server mit zwei, vier und acht CPU-Sockeln im Benchmark für die Virtualisierung abschneiden.

Virtualsierungs-Benchmark: VMmark

Das unabhängige Benchmark-Konsortium SPEC setzte im Oktober 2006 eine Arbeitsgruppe zur Entwicklung eines offenen Standards für Virtualisierungs-Benchmarks ein. SPEC befindet sich noch in der Evaluierungs- und Testphase des Virtualisierungs-Benchmarks. VMware zählt zusammen mit Industriepartnern und Konkurrenten zu den aktiven Mitgliedern der Arbeitsgruppe.

VMware ging mit dem eigenen VMmark in Vorleistung. Der Benchmark soll in Teilen als Grundlage für die künftige SPEC-Version dienen, dementsprechend weist VMware auf eine enge Zusammenarbeit mit dem Konsortium hin.

Workload: VMmark testet die Virtualisierungs-Performance mit sechs verschiedenen virtuellen Maschinen. (Quelle: VMware)

Der kostenlos zum Download zur Verfügung stehende VMmark ermöglicht einen standardisierten Vergleich der Virtualisierungs-Performance von Plattformen. VMmark besteht aus sechs typischen Server-Workloads, die mit gängigen Tools zur Lastgenerierung erzeugt werden. Jeder Workload läuft in einer eigenen virtuellen Maschine (VM). Diese sechs virtuellen Server setzen sich aus je drei VMs mit Microsoft Windows Server 2003 Enterprise Edition und SUSE Linux Enterprise Server 10 zusammen.

Jeweils eine Windows-VM bearbeitet einen dieser Workloads:

Auf die drei Linux-VMs sind die anderen drei Workloads aufgeteilt:

Die virtuellen Maschinen auf dem Server erzeugt der Hypervisor (siehe auch: Server-Virtualisierung zum Nulltarif). Dieser Virtual Machine Manager (VMM) kann laut VMware der VMware ESX Server, vSphere oder ein anderes Produkt sein, das die Anforderungen der VMmark Run & Reporting Rules erfüllt. Alle von den CPU- und Server-Herstellern publizierten Ergebnisse verwenden jedoch den VMware ESX Server in der Version 3.x und VMware vSphere 4.0 (ESX 4.0).

Test der Konsolidierungsfähigkeit

Moderne Server mit mehreren Multi-Core-Prozessoren, einem Arbeitsspeicher von weit über 32 GByte und leistungsfähigen Storage-Subsystemen wären durch die sechs virtuellen Maschinen von VMmark nicht ausgelastet. Der Virtualisierungs-Benchmark fasst diese sechs Workloads deshalb in einem sogenannten „Tile“ zusammen.

VMmark lässt zum Bestimmen der maximalen Leistungsfähigkeit des Servers deshalb mehrere Tiles parallel laufen. Jeder Workload in einen Tile ist so ausgelegt, dass die jeweilige virtuelle Maschine nicht voll ausgelastet ist. Mit zusätzlichen Tiles sinkt dennoch die Performance des einzelnen Tiles, weil der Server seine Ressourcen auf alle Tiles aufteilen muss. Die addierte Performance aller Tiles nimmt trotzdem zu. Sollte beim Hinzufügen eines weiteren Tiles die Gesamt-Performance nicht mehr steigen, so ist die Konsolidierungsfähigkeit des Servers erreicht. Je nach Ausstattung reichen die CPU-, Arbeitsspeicher- oder Storage-Ressourcen nicht mehr aus, um alle Tiles mit ausreichend Bandbreite zu bedienen.

1 Tile = 6 VMs: VMmark fasst sechs virtuelle Maschinen in einem Tile zusammen. Um die Grenze der Konsolidierungsfähigkeit eines Servers auszuloten, lässt der Benchmark mehrere Tiles parallel laufen. (Quelle: VMware)

In der Praxis sind die VMmark-Benchmarks jedoch bei vergleichbar ausgestatteten Servern (CPU-Kerne, Arbeitsspeicher, Storage) meist mit identischer Tile-Anzahl durchgeführt. Ab einer bestimmten Anzahl arbeiten die CPUs im Server unter Volllast, ein Hinzufügen von Tiles erhöht die Gesamt-Performance nicht mehr. Außerdem gilt es zu beachten, dass ein Tile zirka 6 GByte Arbeitsspeicher und 80 GByte Storage benötigt.

Die Anzahl der möglichen Tiles informiert über die Konsolidierungsfähigkeit eines Servers. Je mehr Tiles, desto mehr Ressourcen muss der Server natürlich bieten.

Infrastruktur: Pro „Tile“ (6 VMs) benötigt VMmark einen dedizierten Client, um entsprechende Lastanfragen an den Server zu richten. (Quelle: VMmark)

Zum Erzeugen und Steuern der Last in den virtuellen Maschinen stehen verschiedene Clients parat. Jedes auf dem Server laufende VMmark-Tile benötigt einen dedizierten Client. Auf dem Client läuft Windows Server 2003 Enterprise Edition mit folgenden Applikationen:

VMmark: Gesamt- und Einzel-Performance

Als Ergebnis gibt VMmark einen normierten Gesamtwert aus. Je höher der VMmark-Score ist, desto besser eignet sich ein Server für die Virtualisierung.

Es gilt jedoch darauf zu achten, mit wie vielen Tiles der Wert erreicht wurde. Besitzen beispielsweise zwei Server den gleichen VMmark-Score von 20, so bietet derjenige Server mehr Virtualisierungs-Performance, der diesen Wert mit weniger Tiles erreicht. Erreicht Server A diesen Wert beispielsweise mit fünf Tiles und Server B mit zehn Tiles, so arbeitet ein Tile im Server A doppelt so schnell wie im Server B.

Der VMmark-Score ist deshalb immer in Verbindung mit der Tile-Anzahl angegeben. In den Detailergebnissen von VMmark findet sich zusätzlich die normierte Performance jedes einzelnen Tiles. Die Addition dieser bis auf typische Toleranzen identischen Einzelwerte ergibt den Gesamtwert.

Während der Gesamtwert somit ein Maß für die Virtualisierungs-Performance in Verbindung mit der Konsolidierungsfähigkeit eines Servers darstellt, zeigt der Vergleich der Tile-Werte die tatsächliche Performance der Applikationen.

Auf den folgenden Seiten stellen wir Ihnen bei Servern mit zwei, vier und acht Prozessoren jeweils die Virtualisierungs-Performance des gesamten Systems vor. Zusätzlich vergleichen wir die Performance eines einzelnen Tiles bei den Servern. Damit wird die tatsächliche Performance der Applikationen in den virtuellen Maschinen gezeigt.

Virtualisierungs-Performance: Zwei-Sockel-Server

Server mit zwei Prozessoren sind das primäre Einsatzgebiet von AMDs Opteron und Intels Xeon. Bei den Quad-Core-Opterons der Serie 2300 gibt es die 65-nm-Modelle Barcelona mit 2 MByte L3-Cache und die 45-nm-CPUs Shanghai mit 6 MByte L3-Cache. Aktueller sind die Hexa-Core-Modelle Opteron 2400 „Istanbul“ sowie die 12-Core-CPUs der Opteron-6100-Serie „Magny-Cours“. Die Intel-basierten Server setzen auf Quad-Core-CPUs der Xeon-5400-Serie „Harpertown“ und Xeon-5500-Serie „Nehalem-EP“. Als aktuelle Variante hat Intel die 32-nm-CPUs der Xeon-5600-Serie „Westmere-EP“ mit Hexa-Core im Angebot.

Bei den aufgeführten Servern achten wir darauf, dass möglichst viele unterschiedliche CPU-Modelle aufgeführt werden. Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Neue Generation: Server mit den Hexa-Core-CPUs Xeon X5680 bieten über 40 Prozent mehr Virtualisierungsleistung im Vergleich zu den schnellsten Xeon-5500-Servern – ein deutlicher Fortschritt. AMD verdoppelt mit seinem Opteron 6100 den VMmark-Score gegenüber Servern mit den Vorgänger-CPUs der Opteron-2400-Serie.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Mehr Einheit: Wird die Performance eines „Tiles“ (entspricht sechs VMs) verglichen, so sind die Abstände zwischen den verschiedenen Hardwareplattformen deutlich kleiner. Der große Unterschied liegt in der Anzahl der parallel laufenden Tiles.

Bei der detaillierten Betrachtung zeigt sich, dass beispielsweise zwei Xeon X5680 (Westmere-EP) im Cicso UCS B250 M2 die gleiche Tile-Performance wie im Fujitsu BX922 S2 bieten. Allerdings laufen beim Cisco-Server 26 Tiles parallel, beim Fujitsu-System nur 24.

Hier wird deutlich, dass die Performance innerhalb einer virtuellen Maschine (VM) bei zusätzlichen parallelen VMs nicht entsprechend sinken muss, solange die Ressourcen des Servers noch nicht aufgebraucht sind. Denn die zwei virtuellen Prozessoren, die jeder VM zur Verfügung stehen, sind bei den VMmark-Workloads stets nur teilweise ausgelastet. Kommen zusätzliche VMs beim Server hinzu, so müssen deshalb die zwei Xeon X5680 noch immer nicht voll ausgelastet sein. Beim Fujitsu-Server sind die zwei Xeon X5680 bei 24 Tiles definitiv noch nicht unter Volllast, weil der Cisco-Server bei 26 Tiles die nahezu identische Tile-Performance bietet. Beide Server verfügen über 192 GByte Arbeitsspeicher, bei benötigten zirka 6 GByte RAM pro Tile sind somit selbst bei 26 Tiles noch Reserven übrig - ohne bremsendes Storage-Swapping.

Der HP ProLiant DL385 G7 mit zwei Opteron 6176 SE ist dagegen nur mit 128 GByte RAM ausgestattet. Mehr als die 21 Tiles (21 x 6 GByte = 126 GByte) waren bei dieser RAM-Ausstattung somit nicht möglich. Bei zusätzlichem Arbeitsspeicher könnte der Server sicherlich noch in der Performance etwas zulegen.

Virtualisierungs-Performance: Vier-Sockel-Server

Für Server mit vier Prozessoren sind von AMD die Opteron-Serie und von Intel die Xeon-7000-Modelle vorgesehen. Bei den Quad-Core-Opterons der Serie 8300 gibt es die 65-nm-Modelle Barcelona mit 2 MByte L3-Cache und die 45-nm-CPUs Shanghai mit 6 MByte L3-Cache. Aktueller sind die Hexa-Core-Modelle Opteron 8400 „Istanbul“ sowie die 12-Core-CPUs der Opteron-6100-Serie „Magny-Cours“. Intels Xeon-7300-Modelle sind mit 65-nm-Quad-Core-Technologie ausgestattet, die 7400er Serie setzt auf 45-nm-Strukturbreite. Die Xeon-7400-Serie gibt es als Quad- und Hexa-Core-Versionen an. Auf eine komplett neue Plattform mit QuickPath-Verbindungen setzen Intels Xeon-7500-Prozessoren mit 8-Core-Technologie.

Bei den aufgeführten Servern achten wir darauf, dass möglichst viele unterschiedliche CPU-Modelle aufgeführt werden. Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Kernig: Die vier 8-Core-CPUs Xeon X7560 im IBM System x3850 X5 bieten eine beeindruckende Virtualisierungsleistung – mehr als verdreifacht gegenüber dem Vorgänger. Durch den massiven möglichen Speicher von 384 GByte sind 49 Tiles möglich. Leider sind noch keine VMmark-Scores von 4-Sockel-Servern mit AMDs 12-Kern-Opteron-6100. Sieht man sich aber den Fortschritt bei den 2-Sockel-Servern an, so sollten VMmark-Werte von zirka 60 möglich sein. So bieten bereits zwei Opteron 6100 die Virtualisierungs-Performance der Vier-Sockel-Opteron-8400-Systeme.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Kleine Unterschiede: Obwohl der IBM-Server x3850 X5 die sehr hohe Anzahl von 49 Tiles laufen lässt, ist die Performance in einer VM auf dem Niveau der anderen Systeme. Die älteren CPU-Generationen Xeon 7300 und Opteron 8300 liefern in der virtuellen Maschine jedoch schon merklich weniger Geschwindigkeit.

Virtualisierungs-Performance: Acht-Sockel-Server

Für x86-basierte Server mit acht Prozessoren stehen von AMD die Opteron-8000-Serie und von Intel die Xeon-7000-Modelle zur Verfügung. Bei den Quad-Core-Opterons der Serie 8300 gibt es die 65-nm-Modelle Barcelona mit 2 MByte L3-Cache und die 45-nm-CPUs Shanghai mit 6 MByte L3-Cache. Aktueller sind die Hexa-Core-Modelle Opteron 8400 „Istanbul“. Die neuen 12-Core-CPUs der Opteron-6100-Serie „Magny-Cours“ sind für 8-Sockel-Systeme nicht vorgesehen. Intels Xeon-7300-Modelle sind mit 65-nm-Quad-Core-Technologie ausgestattet, die 7400er Serie setzt auf 45-nm-Strukturbreite. Die Xeon-7400-Serie gibt es als Quad- und Hexa-Core-Versionen an. Auf eine komplett neue Plattform mit QuickPath-Verbindungen setzen Intels Xeon-7500-Prozessoren mit 8-Core-Technologie.

Bei den aufgeführten Servern achten wir darauf, dass möglichst viele unterschiedliche CPU-Modelle aufgeführt werden. Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Generationswechsel: Am Beispiel des HP ProLiant DL785 G5 und G6 wird deutlich, welchen Performance-Sprung der Wechsel von Quad- auf Hexa-Core-Opterons ermöglicht. Allerdings wird die Virtualisierungsleistung des HP ProLiant DL785 G6 mit acht Opteron 8439SE (53,73 Punkte) bereits von vier Xeon X7560 im IBM System x3850 X5 (71,85 Punkte) locker übertroffen.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Konstant: Die Performance der einzelnen virtuellen Maschine ist bei allen Servern relativ ähnlich. Auch im Vergleich zu den Zwei- und Vier-Sockel-Servern arbeitet eine VM im Acht-Sockel-Server auf vergleichbarem Performance-Level. Deutliche Unterschiede gibt es nur in der Anzahl der gleichzeitig arbeitenden VMs pro Server.

Fazit

Die VMmark-Ergebnisse für die Virtualisierung zeigen bei allen Servern ein interessantes Ergebnis: Egal ob mit zwei, vier oder acht Prozessoren, ob mit AMD oder Intel, die Performance der einzelnen virtuellen Maschinen (VM) liegt auf einem sehr ähnlichem Niveau. Jeder einzelnen VM stehen beim verwendeten Hypervisor VMware ESX/vSphere zwei virtuelle Prozessoren zur Verfügung. Die einzelnen VMs unterscheiden sich bei den Servern in der Geschwindigkeit um maximal 13 Prozent.

Viel entscheidender ist die Konsolidierungsfähigkeit der Systeme. So liefert beispielsweise ein Zwei-Sockel-Server HP ProLiant DL385 G7 mit zwei Opteron 6176SE eine VM-Performance von 1,46 (die Geschwindigkeit eines Tiles) bei 21 Tiles parallel. Ein HP ProLiant DL385 G6 mit zwei Opteron 2435 kann diese VM-Performance nur bei 11 Tiles aufrechterhalten. Hier hilft den Opteron-6100-Modellen einerseits die Verdoppelung der Kernanzahl von sechs auf 12. Andererseits können die 12-Core-Opterons durch vier Speicher-Channels pro CPU deutlich mehr DIMMs adressieren als die Opteron-2400-Modelle mit Dual-Channel-Controller. Der RAM-Ausbau gestaltet sich so viel einfacher.

Bei den Vier-Sockel-Servern zieht Intel mit seinen neuen Xeon-7500-Prozessoren deutlich davon. Dank 8-Core-Technologie und massiven Speicherausbau sind Xeon-7500-Server prädestiniert für Virtualisierungsszenarios. Bei einem Arbeitsspeicher von 384 GByte lässt der IBM System x3850 X5 49 Tiles parallel laufen. VMmark-Ergebnisse von Servern mit vier Sockeln auf Basis von AMDs Opteron 6100 mit 12-Core-Technologie sind noch nicht veröffentlicht. Sieht man sich aber den Fortschritt bei den 2-Sockel-Servern an, so sollten VMmark-Werte von zirka 60 möglich sein. So bieten bereits zwei Opteron 6100 die Virtualisierungs-Performance der Vier-Sockel-Opteron-8400-Systeme. Intels Xeon-7500-CPUs haben die Messlatte allerdings sehr hoch gelegt.

Beeindruckend ist bereits die Konsolidierungsfähigkeit der Zwei-Sockel-Server. Ausgestattet mit 192 GByte Arbeitsspeicher lässt beispielsweise ein Cisco UCS B250 M2 mit zwei Xeon X5680 insgesamt 26 Tiles (1 Tile = 6 VMs) parallel laufen. Das entspricht 156 virtuellen Maschinen, die der Server managt. Auf der 4-Sockel-Maschine IBM System x3850 X5 mit Xeon X7560 laufen sogar 294 virtuelle Maschinen parallel. Bei dieser Konsolidierungsfähigkeit werden nochmals deutlich teurere 8-Sockel-Server bereits mehr als überflüssig. (wh)

Dieser Artikel basiert auf einem Beitrag der CW-Schwesterpublikation TecChannel.de