VMware-Benchmark

Die Top-Server für Virtualisierung

10.06.2009 von Christian Vilsbeck
Je mehr Performance ein Server hat, desto besser. Umso mehr seit die Workloads vermehrt in virtuellen Maschinen wie von VMware bewältigt werden. Server-Hersteller liefern sich ein heißes Rennen, wer die beste Virtualisierungs-Lösung am Start hat. Der Tecchannel hat eine Performance-Rangliste zusammengestellt.

Intel stellt genau wie AMD seine Prozessoren als die bestmögliche Lösung für Virtualisierung dar. So zählen AMD-V aus der Opteron-Serie und Intel VT-x bei den Xeon-Modellen bereits zu den Standard-Features bei der CPU-Virtualisierung. Genau wie die Prozessortechnologien immer weiter verfeinert werden, nimmt auch der Grad der Virtualisierung immer mehr zu. Mittlerweile zeichnet sich ein Trend zur Virtualisierung der kompletten Plattform vom Speicher über die Netzwerkverbindungen bis hin zu allen I/O-Zugriffen ab.

Beim sogenannten „World Switch“, dem Wechsel zwischen virtuellen Maschinen, zeigte sich AMDs Opteron konzeptionell bisher im Vorteil. Der integrierte Speicher-Controller sorgt durch seine Virtualisierung für flinkere Umschaltzeiten. Das Zauberwort heißt „Nested Paging“. Der eigene Adressbereich jeder virtuellen Maschine (VM) muss von der Virtualisierungssoftware nicht mehr umgelenkt werden, die CPU erledigt dies deutlich schneller selbst. Seit März 2009 hat Intel mit seiner neuen Xeon-5500-Serie ebenfalls integrierte Speicher-Controller in den CPUs. „VT Extended Page Tables“ soll bei Intel für effizientere Wechsel zwischen den VMs sorgen.

Das Ziel der zusätzlichen Virtualisierungstechnologien ist klar: Die Prozessoren und die gesamte zugehörige Plattform sollen die Virtualisierungsleistung steigern. Möglichst wenig sollte mit der Software aufwendig und langsam emuliert werden müssen, die Hardware übernimmt mit hoher Performance und Stabilität die Virtualisierung zunehmend selbst.

Welche Performance ein Server bei der Virtualisierung mit all den Technologien von AMD oder Intel tatsächlich bietet, lässt sich mit dem Virtualisierungs-Benchmark VMmark von VMware überprüfen. Der Test erlaubt eine Einordnung für die Geschwindigkeit der Applikationen in den virtuellen Maschinen und zeigt auch die Konsolidierungsfähigkeit von Servern auf.

Die CPU- und Server-Hersteller wie Cisco, Dell, Hewlett-Packard, IBM oder Sun erkennen den VMware VMmark als Vergleichsmaßstab an und veröffentlichen die Virtualisierungsleistung ihrer Produkte. Dabei achten die Hersteller darauf, die bestmöglichen Resultate zu erreichen. Die Ergebnisse lassen sich somit als ultimative Leistungsfähigkeit der jeweiligen Server werten – mehr Virtualisierungs-Performance ist nicht drin!

In diesem Artikel präsentieren Ihnen unsere Schwesterpublikation Tecchannel die Virtualisierungs-Performance der besten Server mit zwei, vier und acht Prozessorsockeln.

Virtualsierungs-Benchmark: VMmark

Das unabhängige Benchmark-Konsortium SPEC setzte im Oktober 2006 eine Arbeitsgruppe zur Entwicklung eines offenen Standards für Virtualisierungs-Benchmarks ein. SPEC befindet sich noch in der Evaluierungs- und Testphase des Virtualisierungs-Benchmarks. VMware zählt zusammen mit Industriepartnern und Konkurrenten zu den aktiven Mitgliedern der Arbeitsgruppe.

VMware ging mit dem eigenen VMmark in Vorleistung. Der Benchmark soll in Teilen als Grundlage für die künftige SPEC-Version dienen, dementsprechend weist VMware auf eine enge Zusammenarbeit mit dem Konsortium hin.

Workload: VMmark testet die Virtualisierungs-Performance mit sechs verschiedenen virtuellen Maschinen. (Quelle: VMware)

Der kostenlos zum Download zur Verfügung stehende VMmark ermöglicht einen standardisierten Vergleich der Virtualisierungs-Performance von Plattformen. VMmark besteht aus sechs typischen Server-Workloads, die mit gängigen Tools zur Lastgenerierung erzeugt werden. Jeder Workload läuft in einer eigenen virtuellen Maschine (VM). Diese sechs virtuellen Server setzen sich aus je drei VMs mit Microsoft Windows Server 2003 Enterprise Edition und SUSE Linux Enterprise Server 10 zusammen.

Jeweils eine Windows-VM bearbeitet einen dieser Workloads:

Auf die drei Linux-VMs sind die anderen drei Workloads aufgeteilt:

Die virtuellen Maschinen auf dem Server erzeugt der Hypervisor. Dieser Virtual Machine Manager (VMM) kann laut VMware der VMware ESX Server, vSphere oder ein anderes Produkt sein, das die Anforderungen der VMmark Run & Reporting Rules erfüllt. Alle von den CPU- und Server-Herstellern publizierten Ergebnisse verwenden jedoch den VMware ESX Server in der Version 3.x und VMware vSphere 4.0 (ESX 4.0).

Test der Konsolidierungsfähigkeit

Moderne Server mit mehreren Multi-Core-Prozessoren, einem Arbeitsspeicher von weit über 32 GByte und leistungsfähigen Storage-Subsystemen wären durch die sechs virtuellen Maschinen von VMmark nicht ausgelastet. Der Virtualisierungs-Benchmark fasst diese sechs Workloads deshalb in einem sogenannten „Tile“ zusammen.

VMmark lässt zum Bestimmen der maximalen Leistungsfähigkeit des Servers deshalb mehrere Tiles parallel laufen. Jeder Workload in einen Tile ist so ausgelegt, dass die jeweilige virtuelle Maschine nicht voll ausgelastet ist. Mit zusätzlichen Tiles sinkt dennoch die Performance des einzelnen Tiles, weil der Server seine Ressourcen auf alle Tiles aufteilen muss. Die addierte Performance aller Tiles nimmt trotzdem zu. Sollte beim Hinzufügen eines weiteren Tiles die Gesamt-Performance nicht mehr steigen, so ist die Konsolidierungsfähigkeit des Servers erreicht. Je nach Ausstattung reichen die CPU-, Arbeitsspeicher- oder Storage-Ressourcen nicht mehr aus, um alle Tiles mit ausreichend Bandbreite zu bedienen.

1 Tile = 6 VMs: VMmark fasst sechs virtuelle Maschinen in einem Tile zusammen. Um die Grenze der Konsolidierungsfähigkeit eines Servers auszuloten, lässt der Benchmark mehrere Tiles parallel laufen. (Quelle: VMware)

In der Praxis sind die VMmark-Benchmarks jedoch bei vergleichbar ausgestatteten Servern (CPU-Kerne, Arbeitsspeicher, Storage) meist mit identischer Tile-Anzahl durchgeführt. Ab einer bestimmten Anzahl arbeiten die CPUs im Server unter Volllast, ein Hinzufügen von Tiles erhöht die Gesamt-Performance nicht mehr. Außerdem gilt es zu beachten, dass ein Tile zirka 6 GByte Arbeitsspeicher und 80 GByte Storage benötigt. Die Anzahl der möglichen Tiles informiert über die Konsolidierungsfähigkeit eines Servers. Je mehr Tiles, desto mehr Ressourcen muss der Server natürlich bieten.

Infrastruktur: Pro „Tile“ (6 VMs) benötigt VMmark einen dedizierten Client, um entsprechende Lastanfragen an den Server zu richten. (Quelle: VMmark)

Zum Erzeugen und Steuern der Last in den virtuellen Maschinen stehen verschiedene Clients parat. Jedes auf dem Server laufende VMmark-Tile benötigt einen dedizierten Client. Auf dem Client läuft Windows Server 2003 Enterprise Edition mit folgenden Applikationen:

VMmark: Gesamt- und Einzel-Performance

Als Ergebnis gibt VMmark einen normierten Gesamtwert aus. Je höher der VMmark-Score ist, desto besser eignet sich ein Server für die Virtualisierung.

Es gilt jedoch darauf zu achten, mit wie vielen Tiles der Wert erreicht wurde. Besitzen beispielsweise zwei Server den gleichen VMmark-Score von 20, so bietet derjenige Server mehr Virtualisierungs-Performance, der diesen Wert mit weniger Tiles erreicht. Erreicht Server A diesen Wert beispielsweise mit fünf Tiles und Server B mit zehn Tiles, so arbeitet ein Tile im Server A doppelt so schnell wie im Server B.

Der VMmark-Score ist deshalb immer in Verbindung mit der Tile-Anzahl angegeben. In den Detailergebnissen von VMmark findet sich zusätzlich die normierte Performance jedes einzelnen Tiles. Die Addition dieser bis auf typische Toleranzen identischen Einzelwerte ergibt den Gesamtwert.

Während der Gesamtwert somit ein Maß für die Virtualisierungs-Performance in Verbindung mit der Konsolidierungsfähigkeit eines Servers darstellt, zeigt der Vergleich der Tile-Werte die tatsächliche Performance der Applikationen.

Auf den folgenden Seiten stellen wir Ihnen bei Servern mit zwei, vier und acht Prozessoren jeweils die Virtualisierungs-Performance des gesamten Systems vor. Zusätzlich vergleich wir die Performance eines einzelnen Tiles bei den Servern. Damit wird die tatsächliche Performance der Applikationen in den virtuellen Maschinen gezeigt.

Virtualisierungs-Performance: Zwei-Sockel-Server

Server mit zwei Prozessoren sind das primäre Einsatzgebiet von AMDs Opteron und Intels Xeon. Bei den Quad-Core-Opterons der Serie 2300 gibt es die 65-nm-Modelle „Barcelona“ mit 2 MByte L3-Cache und die 45-nm-CPUs „Shanghai“ mit 6 MByte L3-Cache. Die Intel-basierten Server setzen auf die Xeon-5400-Serie „Harpertown“ und auf die neue Xeon-5500-Serie „Nehalem-EP“. Die CPUs arbeiten ebenfalls mit Quad-Core-Technologie, die 5500er Xeons beherrschen zusätzlich Hyper-Threading.

Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Xeon-5500-Phalanx: Die drei führenden Server von Cisco, Dell und HP bieten mit den Nehalem-Xeons mehr als die doppelte Virtualisierungsleistung im Vergleich zum schnellsten AMD-basierten System HP ProLiant DL385 G5p. Während der Opteron-Server nur acht „Tiles“ ermöglicht, lassen die Xeon-5500-Server bis zu 17 Tiles parallel laufen.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Mehr Einheit: Wird die Performance eines „Tiles“ (entspricht sechs VMs) verglichen, so sind die Abstände zwischen den verschiedenen Hardwareplattformen deutlich kleiner. Der große Unterschied liegt in der Anzahl der parallel laufenden Tiles.

Bei der detaillierten Betrachtung zeigt sich, dass beispielsweise zwei Xeon X5570 (Nehalem-EP) im Supermicro-Server 6026T-NTR+ die gleiche Tile-Performance wie im Cisco B200-M1 bieten. Allerdings laufen beim Cisco-Server 17 Tiles parallel, beim Supermicro-System nur zehn.

Hier wird deutlich, dass die Performance innerhalb einer virtuellen Maschine (VM) bei zusätzlichen parallelen VMs nicht entsprechend sinken muss, solange die Ressourcen des Servers noch nicht aufgebraucht sind. Denn die zwei virtuellen Prozessoren, die jeder VM zur Verfügung stehen, sind bei den VMmark-Workloads stets nur teilweise ausgelastet. Kommen zusätzliche VMs beim Server hinzu, so müssen deshalb die zwei Xeon X5570 noch immer nicht voll ausgelastet sein. Beim Supermicro-Server sind die zwei Xeon X5570 bei zehn Tiles definitiv noch nicht unter Volllast, weil der Cisco-Server bei 17 Tiles die identische Tile-Performance bietet. Allerdings verfügt der Supermicro 6026T-NTR+ nur über 64 GByte Arbeitsspeicher. Bei benötigten zirka 6 GByte RAM pro Tile sind somit mehr als zehn Tiles ohne bremsendes Storage-Swapping nicht möglich. Der Cisco B200-M1 ist jedoch mit 96 GByte RAM ausgestattet und hält damit sogar 17 Tiles fast vollständig im Arbeitsspeicher.

Virtualisierungs-Performance: Vier-Sockel-Server

Für Server mit vier Prozessoren sind von AMD die Opteron-8300-Serie und von Intel die Xeon-7000-Modelle vorgesehen. AMDs Quad-Core-Opteron gibt es in der 65-nm-Ausführung „Barcelona“ mit 2 MByte L3-Cache sowie als neuere 45-nm-Variante mit 6 MByte L3-Cache. Intels Xeon-7300-Modelle sind mit 65-nm-Quad-Core-Technologie ausgestattet, die 7400er Serie setzt auf moderne 45-nm-Strukturbreite. Die Xeon-7400-Serie bietet Intel als Quad- und Hexa-Core-Versionen an.

Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Trotz Kernnachteil: Vier Quad-Core-Opteron 8389 bieten im HP ProLiant DL685c G6 eine etwas höhere Virtualisierungsleistung als die vier Hexa-Core-Xeons X7460 im IBM System x3850 M2 – bei jeweils 14 Tiles. Allerdings übertrumpfen sogar Zwei-Sockel-Server mit Xeon-5500-CPUs die Virtualisierungs-Performance der Vier-Sockel-Systeme.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Kleine Unterschiede: Mehr Taktfrequenz innerhalb einer CPU-Serie bringt in einer VM etwas mehr Performance – wenn die Tile-Anzahl der verglichenen Systeme identisch ist. Der Geschwindigkeitsunterschied zwischen der langsamsten VM mit 1,33 (HP ProLiant BL680c G5) und der schnellsten VM mit 1,49 (HP ProLiant DL685c G6) beträgt gerade mal zwölf Prozent.

Virtualisierungs-Performance: Acht-Sockel-Server

Für x86-basierte Server mit acht Prozessoren stehen wie bei Vier-Sockel-Servern von AMD die Opteron-8300-Serie und von Intel die Xeon-7000-Modelle zur Verfügung. AMDs Quad-Core-Opteron gibt es in der 65-nm-Ausführung „Barcelona“ mit 2 MByte L3-Cache und als neuere 45-nm-Variante mit 6 MByte L3-Cache. Intels Xeon-7300-Modelle sind mit 65-nm-Quad-Core-Technologie ausgestattet, die 7400er Serie setzt auf moderne 45-nm-Strukturbreite. Die Xeon-7400- Serie bietet Intel als Quad- und Hexa-Core-Versionen an.

Das folgende Diagramm zeigt die konsolidierte Virtualisierungs-Performance der Systeme:

Generationswechsel: Am Beispiel des an erster und letzter Stelle liegenden HP ProLiant DL785 G5 wird deutlich, welchen Performance-Sprung der Wechsel von Barcelona- auf Shanghai-Opterons ermöglicht. So steigt die Virtualisierungsleistung mit dem Opteron 8393SE um 39 Prozent gegenüber dem Opteron 8360SE.

Im nächsten Diagramm sehen Sie die Performance eines einzelnen Tiles (6 VMs). Damit lässt sich die Geschwindigkeit der Applikation in der virtuellen Maschine vergleichen:

Konstant: Die Performance der einzelnen virtuellen Maschine ist bei allen Servern relativ ähnlich. Auch im Vergleich zu den Zwei- und Vier-Sockel-Servern arbeitet eine VM im Acht-Sockel-Server auf vergleichbarem Performance-Level. Deutliche Unterschiede gibt es nur in der Anzahl der gleichzeitig arbeitenden VMs pro Server.

Fazit

Die VMmark-Ergebnisse zeigen bei allen Servern ein interessantes Ergebnis: Egal ob mit zwei, vier oder acht Prozessoren, ob mit AMD oder Intel, die Performance der einzelnen virtuellen Maschinen (VM) liegt auf einem sehr ähnlichem Niveau. Jeder einzelnen VM stehen beim verwendeten Hypervisor VMware ESX/vSphere zwei virtuelle Prozessoren zur Verfügung. Die einzelnen VMs unterscheiden sich bei den Servern in der Geschwindigkeit um maximal 15 Prozent.

Viel entscheidender ist die Konsolidierungsfähigkeit der Systeme. So liefert beispielsweise ein Zwei-Sockel-Server Cisco B200-M1 mit zwei Xeon X5570 Nehalem-EP eine VM-Performance von 1,42 (die Geschwindigkeit eines Tiles) bei 16 Tiles parallel. Ein HP ProLiant DL385 G5p mit zwei Quad-Core-Opteron 2384 kann diese VM-Performance nur bei acht Tiles aufrechterhalten.

Hier hilft den Nehalem-Xeons einerseits das zusätzliche Hyper-Threading, weil hier dem System bereits die doppelte Kernanzahl (16) im Vergleich zu zwei Quad-Core-Opterons zur Verfügung steht. Andererseits gestaltet sich der maximale RAM-Ausbau mit insgesamt sechs Speicher-Channels im Allgemeinen einfacher als mit vier Stück beim Zwei-Sockel-Operton-System.

Bei den Vier-Sockel-Servern sieht es zwischen AMD und Intel relativ ausgeglichen aus. AMDs Quad-Core-Modelle wie der Opteron 8393SE liegt zwar gegenüber den Quad-Core-Xeon-X7350-CPUs im Vorteil, die Hexa-Core-Modelle Xeon X7460 schließen jedoch zu den Shanghai-Opterons auf. Bei x86-Servern mit acht Prozessoren dominiert AMD mit seinen Opteron-8300-Modellen die Szene. Speicherbestückungen mit 256 GByte RAM sind durch die bei acht CPUs integrierten Dual-Channel-Controller leichter realisierbar.

Beeindruckend ist bereits die Konsolidierungsfähigkeit der Zwei-Sockel-Server mit Xeon-5500-Prozessoren. Ausgestattet mit 96 GByte Arbeitsspeicher lässt beispielsweise ein Cisco B200-M1 insgesamt 17 Tiles (1 Tile = 6 VMs) parallel laufen. Das entspricht 102 virtuellen Maschinen, die der Server managt. Nur Acht-Sockel-Server wie der HP ProLiant DL785 G5 mit Opteron 8393SE-CPUs lassen aufgrund der zur Verfügung stehenden Ressourcen (32 CPU-Kerne, 256 GByte RAM) sogar 126 VMs mit ähnlicher Tile-Performance laufen.

Auf die Virtualisierungs-Performance bezogen sind Zwei-Sockel-Server mit Intels Xeon-5500-Prozessoren das Maß der Dinge und stellen sogar Vier-Sockel-Server in den Schatten. Allerdings bieten Server mit vier oder acht CPUs meist mehr RAS-Features und fokussieren auf eine erhöhte Ausfallsicherheit. (cvi)

Dieser Artikel stammt von unserer Schwesterpublikation Tecchannel. (pah)