Virtualisierungs-Benchmarks

Virtualisierung - Die schnellsten Server

24.11.2010 von Christian Vilsbeck
Mehr Performance ist in Servern stets gefragt, besonders seit die Workloads zunehmend in virtuellen Maschinen laufen. Entsprechend preisen sowohl die CPU- als auch die Server-Hersteller ihre Produkte als beste Virtualisierungslösung an. Wir bieten Ihnen die Performance-Rangliste.

"Hervorragende Virtualisierungsleistung" oder "Superior Virtualization" - sowohl AMD als auch Intel preisen ihre Prozessoren als die beste Lösung für die Virtualisierung an. Die Technologien AMD-V der Opteron-Serie und Intel VT-x der Xeon-Modelle für die CPU-Virtualisierung zählen bereits zu den Standard-Features. Nach der mit jedem Modellwechsel verfeinerten Prozessortechnologie erfolgt in zunehmendem Maße die Virtualisierung der kompletten Plattform: angefangen vom Speicher über die Netzwerkverbindungen bis hin zu allen I/O-Zugriffen.

Beim sogenannten "World Switch", dem Wechsel zwischen virtuellen Maschinen, sorgen im Prozessor integrierte Speicher-Controller durch ihre Virtualisierung für flinkere Umschaltzeiten. Das Zauberwort heißt bei AMDs Opteron "Nested Paging". Der eigene Adressbereich jeder virtuellen Maschine (VM) muss von der Virtualisierungssoftware nicht mehr umgelenkt werden, die CPU erledigt dies deutlich schneller selbst. Intel bietet in seinen Prozessorserien Xeon 5500, Xeon 5600 und Xeon 7500 ebenfalls integrierte Speicher-Controller in den CPUs. "VT Extended Page Tables" soll bei Intel für effizientere Wechsel zwischen den VMs sorgen.

Das Ziel der zusätzlichen Virtualisierungstechnologien ist klar: Die Prozessoren und die gesamte zugehörige Plattform sollen die Virtualisierungsleistung steigern. Möglichst wenig sollte mit der Software aufwendig und langsam emuliert werden müssen, die Hardware übernimmt mit hoher Performance und Stabilität die Virtualisierung zunehmend selbst.

Bildergalerie: VMmark - die schnellsten Server für die Virtualisierung.
VMware VMmark - Konsolidierte Virtualisierungs-Performance von 2-Sockel-Servern
Knapp an die Spitze setzen sich die zwei 8-Core-CPUs Xeon X7560. Normalerweise in 4-Sockel-Servern, bietet Dell den PowerEdge R810 auch mit zwei Xeon X7560 an. Server mit den Hexa-Core-CPUs Xeon X5680 bieten über 40 Prozent mehr Virtualisierungsleistung im Vergleich zu den schnellsten Xeon-5500-Servern – ein deutlicher Fortschritt. AMD verdoppelt mit seinem Opteron 6100 den VMmark-Score gegenüber Servern mit den Vorgänger-CPUs der Opteron-2400-Serie.
VMware VMmark - Virtualisierungs-Performance von 1 Tile (6 VMs) bei 2-Sockel-Server
Wird die Performance eines „Tiles“ (entspricht sechs VMs) verglichen, so sind die Abstände zwischen den verschiedenen Hardwareplattformen deutlich kleiner. Der große Unterschied liegt in der Anzahl der parallel laufenden Tiles.
VMware VMmark - Konsolidierte Virtualisierungs-Performance von 4-Sockel-Servern
Die vier 8-Core-CPUs Xeon X7560 im Fujitsu RX600 S5 bieten eine beeindruckende Virtualisierungsleistung – fast vervierfacht gegenüber dem Vorgänger. Durch den massiven möglichen Speicher von 1024 GByte sind locker 50 Tiles möglich. AMDs 12-Core-Prozessor Opteron 6174 kann dem Xeon X7560 nicht folgen, verdoppelt aber seine Virtualisierungs-Performance gegenüber 4-Sockel-Opteron-8400-Systemen.
VMware VMmark - Virtualisierungs-Performance von 1 Tile (6 VMs) bei 4-Sockel-Server
Obwohl der Fujitsu-Server RX600 S5 die sehr hohe Anzahl von 50 Tiles laufen lässt, ist die Performance in einer VM auf Top-Niveau. Die älteren CPU-Generationen Xeon 7300 und Opteron 8300 liefern in der virtuellen Maschine jedoch schon merklich weniger Geschwindigkeit.
VMware VMmark - Konsolidierte Virtualisierungs-Performance von 8-Sockel-Servern
Die gelisteten 8-Sockel-Server bieten inzwischen deutlich weniger Virtualisierungs-Performance als 4-Sockel-Systeme mit modernen Xeon-7500-CPUs (75,8 Punkte) oder Opteron-6100-Modellen (59,7 Punkte).
VMware VMmark -Virtualisierungs-Performance von 1 Tile (6 VMs) bei 8-Sockel-Server
Die Performance der einzelnen virtuellen Maschine ist bei allen Servern relativ ähnlich. Auch im Vergleich zu den Zwei- und Vier-Sockel-Servern arbeitet eine VM im Acht-Sockel-Server auf vergleichbarem Performance-Level. Deutliche Unterschiede gibt es nur in der Anzahl der gleichzeitig arbeitenden VMs pro Server.

Welche Performance ein Server bei der Virtualisierung mit all den Technologien von AMD oder Intel tatsächlich bietet, lässt sich mit dem Virtualisierungs-Benchmark VMmark von VMware überprüfen. Der Test erlaubt eine Einordnung für die Geschwindigkeit der Applikationen in den virtuellen Maschinen und zeigt auch die Konsolidierungsfähigkeit von Servern auf.

Die CPU- und Server-Hersteller wie Cisco, Dell, Fujitsu, Hewlett-Packard oder IBM erkennen den VMware VMmark als Vergleichsmaßstab an und veröffentlichen die Virtualisierungsleistung ihrer Produkte. Dabei achten die Hersteller darauf, die bestmöglichen Resultate zu erreichen. Die Ergebnisse lassen sich somit als ultimative Leistungsfähigkeit der jeweiligen Server werten - mehr Virtualisierungs-Performance ist nicht drin!

In diesem Artikel präsentieren wir Ihnen die Virtualisierungs-Performance der besten Server mit zwei, vier und acht Prozessorsockeln.

Virtualsierungs-Benchmark: VMmark

Das unabhängige Benchmark-Konsortium SPEC setzte im Oktober 2006 eine Arbeitsgruppe zur Entwicklung eines offenen Standards für Virtualisierungs-Benchmarks ein. SPEC befindet sich noch in der Evaluierungs- und Testphase des Virtualisierungs-Benchmarks. VMware zählt zusammen mit Industriepartnern und Konkurrenten zu den aktiven Mitgliedern der Arbeitsgruppe.

VMware ging mit dem eigenen VMmark in Vorleistung. Der Benchmark soll in Teilen als Grundlage für die künftige SPEC-Version dienen, dementsprechend weist VMware auf eine enge Zusammenarbeit mit dem Konsortium hin.

Workload: VMmark testet die Virtualisierungs-Performance mit sechs verschiedenen virtuellen Maschinen. (Quelle: VMware)

Der kostenlos zum Download zur Verfügung stehende VMmark ermöglicht einen standardisierten Vergleich der Virtualisierungs-Performance von Plattformen. VMmark besteht aus sechs typischen Server-Workloads, die mit gängigen Tools zur Lastgenerierung erzeugt werden. Jeder Workload läuft in einer eigenen virtuellen Maschine (VM). Diese sechs virtuellen Server setzen sich aus je drei VMs mit Microsoft Windows Server 2003 Enterprise Edition und SUSE Linux Enterprise Server 10 zusammen.

Jeweils eine Windows-VM bearbeitet einen dieser Workloads:

Auf die drei Linux-VMs sind die anderen drei Workloads aufgeteilt:

Die virtuellen Maschinen auf dem Server erzeugt der Hypervisor. Dieser Virtual Machine Manager (VMM) kann laut VMware der VMware ESX Server, vSphere oder ein anderes Produkt sein, das die Anforderungen der VMmark Run & Reporting Rules erfüllt. Alle von den CPU- und Server-Herstellern publizierten Ergebnisse verwenden jedoch den VMware ESX Server in der Version 3.x und VMware vSphere 4.0 (ESX 4.0).

Test der Konsolidierungsfähigkeit

Moderne Server mit mehreren Multi-Core-Prozessoren, einem Arbeitsspeicher von weit über 32 GByte und leistungsfähigen Storage-Subsystemen wären durch die sechs virtuellen Maschinen von VMmark nicht ausgelastet. Der Virtualisierungs-Benchmark fasst diese sechs Workloads deshalb in einem sogenannten "Tile" zusammen.

VMmark lässt zum Bestimmen der maximalen Leistungsfähigkeit des Servers deshalb mehrere Tiles parallel laufen. Jeder Workload in einen Tile ist so ausgelegt, dass die jeweilige virtuelle Maschine nicht voll ausgelastet ist. Mit zusätzlichen Tiles sinkt dennoch die Performance des einzelnen Tiles, weil der Server seine Ressourcen auf alle Tiles aufteilen muss. Die addierte Performance aller Tiles nimmt trotzdem zu. Sollte beim Hinzufügen eines weiteren Tiles die Gesamt-Performance nicht mehr steigen, so ist die Konsolidierungsfähigkeit des Servers erreicht. Je nach Ausstattung reichen die CPU-, Arbeitsspeicher- oder Storage-Ressourcen nicht mehr aus, um alle Tiles mit ausreichend Bandbreite zu bedienen.

1 Tile = 6 VMs: VMmark fasst sechs virtuelle Maschinen in einem Tile zusammen. Um die Grenze der Konsolidierungsfähigkeit eines Servers auszuloten, lässt der Benchmark mehrere Tiles parallel laufen. (Quelle: VMware)

In der Praxis sind die VMmark-Benchmarks jedoch bei vergleichbar ausgestatteten Servern (CPU-Kerne, Arbeitsspeicher, Storage) meist mit identischer Tile-Anzahl durchgeführt. Ab einer bestimmten Anzahl arbeiten die CPUs im Server unter Volllast, ein Hinzufügen von Tiles erhöht die Gesamt-Performance nicht mehr. Außerdem gilt es zu beachten, dass ein Tile zirka 6 GByte Arbeitsspeicher und 80 GByte Storage benötigt.

Die Anzahl der möglichen Tiles informiert über die Konsolidierungsfähigkeit eines Servers. Je mehr Tiles, desto mehr Ressourcen muss der Server natürlich bieten.

Infrastruktur: Pro "Tile" (6 VMs) benötigt VMmark einen dedizierten Client, um entsprechende Lastanfragen an den Server zu richten. (Quelle: VMmark)

Zum Erzeugen und Steuern der Last in den virtuellen Maschinen stehen verschiedene Clients parat. Jedes auf dem Server laufende VMmark-Tile benötigt einen dedizierten Client. Auf dem Client läuft Windows Server 2003 Enterprise Edition mit folgenden Applikationen:

VMmark: Gesamt- und Einzel-Performance

Als Ergebnis gibt VMmark einen normierten Gesamtwert aus. Je höher der VMmark-Score ist, desto besser eignet sich ein Server für die Virtualisierung.

Es gilt jedoch darauf zu achten, mit wie vielen Tiles der Wert erreicht wurde. Besitzen beispielsweise zwei Server den gleichen VMmark-Score von 20, so bietet derjenige Server mehr Virtualisierungs-Performance, der diesen Wert mit weniger Tiles erreicht. Erreicht Server A diesen Wert beispielsweise mit fünf Tiles und Server B mit zehn Tiles, so arbeitet ein Tile im Server A doppelt so schnell wie im Server B.

Der VMmark-Score ist deshalb immer in Verbindung mit der Tile-Anzahl angegeben. In den Detailergebnissen von VMmark findet sich zusätzlich die normierte Performance jedes einzelnen Tiles. Die Addition dieser bis auf typische Toleranzen identischen Einzelwerte ergibt den Gesamtwert.

Während der Gesamtwert somit ein Maß für die Virtualisierungs-Performance in Verbindung mit der Konsolidierungsfähigkeit eines Servers darstellt, zeigt der Vergleich der Tile-Werte die tatsächliche Performance der Applikationen.

Auf den folgenden Seiten stellen wir Ihnen bei Servern mit zwei, vier und acht Prozessoren jeweils die Virtualisierungs-Performance des gesamten Systems vor. Zusätzlich vergleich wir die Performance eines einzelnen Tiles bei den Servern. Damit wird die tatsächliche Performance der Applikationen in den virtuellen Maschinen gezeigt.

Virtualisierungs-Performance: Zwei-Sockel-Server

Server mit zwei Prozessoren sind das primäre Einsatzgebiet von AMDs Opteron und Intels Xeon. Bei den Quad-Core-Opterons der Serie 2300 gibt es die 65-nm-Modelle Barcelona mit 2 MByte L3-Cache und die 45-nm-CPUs Shanghai mit 6 MByte L3-Cache. Aktueller sind die Hexa-Core-Modelle Opteron 2400 "Istanbul" sowie die 12-Core-CPUs der Opteron-6100-Serie "Magny-Cours". Die Intel-basierten Server setzen auf Quad-Core-CPUs der Xeon-5400-Serie "Harpertown" und Xeon-5500-Serie "Nehalem-EP". Als aktuelle Variante hat Intel die 32-nm-CPUs der Xeon-5600-Serie "Westmere-EP" mit Hexa-Core im Angebot. Vereinzelt wird auch die Xeon-7500-Serie in 2-Sockel-Servern eingesetzt, obwohl die CPU primär für Systeme mit vier oder mehr Prozessoren prädestiniert ist.

Bei den aufgeführten Servern achten wir darauf, dass möglichst viele unterschiedliche CPU-Modelle aufgeführt werden. Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Neue Generation: Knapp an die Spitze setzen sich die zwei 8-Core-CPUs Xeon X7560. Normalerweise in 4-Sockel-Servern, bietet Dell den PowerEdge R810 auch mit zwei Xeon X7560 an. Server mit den Hexa-Core-CPUs Xeon X5680 bieten über 40 Prozent mehr Virtualisierungsleistung im Vergleich zu den schnellsten Xeon-5500-Servern - ein deutlicher Fortschritt. AMD verdoppelt mit seinem Opteron 6100 den VMmark-Score gegenüber Servern mit den Vorgänger-CPUs der Opteron-2400-Serie.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Mehr Einheit: Wird die Performance eines "Tiles" (entspricht sechs VMs) verglichen, so sind die Abstände zwischen den verschiedenen Hardwareplattformen deutlich kleiner. Der große Unterschied liegt in der Anzahl der parallel laufenden Tiles.

Die Performance innerhalb einer virtuellen Maschine (VM) muss bei zusätzlichen parallelen VMs nicht entsprechend sinken, solange die Ressourcen des Servers noch nicht aufgebraucht sind. Denn die zwei virtuellen Prozessoren, die jeder VM zur Verfügung stehen, sind bei den VMmark-Workloads stets nur teilweise ausgelastet. Kommen zusätzliche VMs beim Server hinzu, so müssen deshalb die zwei CPUs des Servers noch immer nicht voll ausgelastet sein. Die Anzahl der möglichen VMs hängt von den Ressourcen des Servers, in erster Linie vom Arbeitsspeicher, ab. Bei benötigten zirka 6 GByte RAM pro Tile (6 VMs) sind somit beispielsweise bei 21 Tiles 126 GByte Arbeitsspeicher notwendig - ohne bremsendes Storage-Swapping.

Der HP ProLiant DL385 G7 mit zwei Opteron 6176 SE ist mit 128 GByte RAM ausgestattet. Mehr als die 21 Tiles waren bei dieser RAM-Ausstattung somit nicht möglich. Bei zusätzlichem Arbeitsspeicher könnte der Server sicherlich noch in der Performance etwas zulegen.

Virtualisierungs-Performance: Vier-Sockel-Server

Für Server mit vier Prozessoren sind von AMD die Opteron-Serie und von Intel die Xeon-7000-Modelle vorgesehen. Bei den Quad-Core-Opterons der Serie 8300 gibt es die 65-nm-Modelle Barcelona mit 2 MByte L3-Cache und die 45-nm-CPUs Shanghai mit 6 MByte L3-Cache. Aktueller sind die Hexa-Core-Modelle Opteron 8400 "Istanbul" sowie die 12-Core-CPUs der Opteron-6100-Serie "Magny-Cours". Intels Xeon-7300-Modelle sind mit 65-nm-Quad-Core-Technologie ausgestattet, die 7400er Serie setzt auf 45-nm-Strukturbreite. Die Xeon-7400-Serie gibt es als Quad- und Hexa-Core-Versionen an. Auf eine komplett neue Plattform mit QuickPath-Verbindungen setzen Intels Xeon-7500-Prozessoren mit 8-Core-Technologie.

Bei den aufgeführten Servern achten wir darauf, dass möglichst viele unterschiedliche CPU-Modelle aufgeführt werden. Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Kernig: Die vier 8-Core-CPUs Xeon X7560 im Fujitsu RX600 S5 bieten eine beeindruckende Virtualisierungsleistung - fast vervierfacht gegenüber dem Vorgänger. Durch den massiven möglichen Speicher von 1024 GByte sind locker 50 Tiles möglich. AMDs 12-Core-Prozessor Opteron 6174 kann dem Xeon X7560 nicht folgen, verdoppelt aber seine Virtualisierungs-Performance gegenüber 4-Sockel-Opteron-8400-Systemen.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Kleine Unterschiede: Obwohl der Fujitsu-Server RX600 S5 die sehr hohe Anzahl von 50 Tiles laufen lässt, ist die Performance in einer VM auf Top-Niveau. Die älteren CPU-Generationen Xeon 7300 und Opteron 8300 liefern in der virtuellen Maschine jedoch schon merklich weniger Geschwindigkeit.

Virtualisierungs-Performance: Acht-Sockel-Server

Für x86-basierte Server mit acht Prozessoren stehen von AMD die Opteron-8000-Serie und von Intel die Xeon-7000-Modelle zur Verfügung. Bei den Quad-Core-Opterons der Serie 8300 gibt es die 65-nm-Modelle Barcelona mit 2 MByte L3-Cache und die 45-nm-CPUs Shanghai mit 6 MByte L3-Cache. Aktueller sind die Hexa-Core-Modelle Opteron 8400 "Istanbul". Die neuen 12-Core-CPUs der Opteron-6100-Serie "Magny-Cours" sind für 8-Sockel-Systeme nicht vorgesehen. Intels Xeon-7300-Modelle sind mit 65-nm-Quad-Core-Technologie ausgestattet, die 7400er Serie setzt auf 45-nm-Strukturbreite. Die Xeon-7400-Serie gibt es als Quad- und Hexa-Core-Versionen an. Auf eine komplett neue Plattform mit QuickPath-Verbindungen setzen Intels Xeon-7500-Prozessoren mit 8-Core-Technologie.

Bei den aufgeführten Servern achten wir darauf, dass möglichst viele unterschiedliche CPU-Modelle aufgeführt werden. Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Generationswechsel: Die gelisteten 8-Sockel-Server bieten inzwischen deutlich weniger Virtualisierungs-Performance als 4-Sockel-Systeme mit modernen Xeon-7500-CPUs (75,8 Punkte) oder Opteron-6100-Modellen (59,7 Punkte).

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Konstant: Die Performance der einzelnen virtuellen Maschine ist bei allen Servern relativ ähnlich. Auch im Vergleich zu den Zwei- und Vier-Sockel-Servern arbeitet eine VM im Acht-Sockel-Server auf vergleichbarem Performance-Level. Deutliche Unterschiede gibt es nur in der Anzahl der gleichzeitig arbeitenden VMs pro Server.

Fazit

Die VMmark-Ergebnisse zeigen bei allen Servern ein interessantes Ergebnis: Egal ob mit zwei, vier oder acht Prozessoren, ob mit AMD oder Intel, die Performance der einzelnen virtuellen Maschinen (VM) liegt auf einem sehr ähnlichem Niveau. Jeder einzelnen VM stehen beim verwendeten Hypervisor VMware ESX/vSphere zwei virtuelle Prozessoren zur Verfügung. Die einzelnen VMs unterscheiden sich bei den Servern in der Geschwindigkeit um maximal 14 Prozent.

Viel entscheidender ist die Konsolidierungsfähigkeit der Systeme. So liefert beispielsweise ein Zwei-Sockel-Server HP ProLiant DL385 G7 mit zwei Opteron 6176SE eine VM-Performance von 1,41 (die Geschwindigkeit eines Tiles) bei 22 Tiles parallel. Ein HP ProLiant DL385 G6 mit zwei Opteron 2435 kann diese VM-Performance nur bei 11 Tiles aufrechterhalten. Hier hilft den Opteron-6100-Modellen einerseits die Verdoppelung der Kernanzahl von sechs auf 12. Andererseits können die 12-Core-Opterons durch vier Speicher-Channels pro CPU deutlich mehr DIMMs adressieren als die Opteron-2400-Modelle mit Dual-Channel-Controller. Der RAM-Ausbau gestaltet sich so viel einfacher.

Bei den Vier-Sockel-Servern zieht Intel mit seinen neuen Xeon-X7560-Prozessoren deutlich davon. Dank 8-Core-Technologie und massiven Speicherausbau sind Xeon-X7560-Server prädestiniert für Virtualisierungsszenarios. Bei einem Arbeitsspeicher von 1024 GByte lässt der Fujitsu RX600 S5 50 Tiles parallel laufen. AMDs Opteron 6100 mit 12-Core-Technologie kann hier nicht mithalten und schlägt nur die 6-Core-Variante Xeon X7540 im Fujitsu BX960 S1. Allerdings bieten vier Opteron 6174 bereits eine höhere Virtualisierungsleistung als acht Opteron 8439SE.

Beeindruckend ist bereits die Konsolidierungsfähigkeit der Zwei-Sockel-Server. Ausgestattet mit 192 GByte Arbeitsspeicher lässt beispielsweise ein Cisco UCS B250 M2 mit zwei Xeon X5680 insgesamt 26 Tiles (1 Tile = 6 VMs) parallel laufen. Das entspricht 156 virtuellen Maschinen, die der Server managt. Auf der 4-Sockel-Maschine Fujitsu RX600 S5 mit Xeon X7560 laufen sogar 300 virtuelle Maschinen parallel. Bei dieser Konsolidierungsfähigkeit werden nochmals deutlich teurere 8-Sockel-Server bereits mehr als überflüssig. (cvi)

Dieser Artikel basiert auf einem Beitrag der CW-Schwesterpublikation TecChannel.