HPs Integrity und Superdome Server

Mehr Hochverfügbarkeit mit Tukwila

04.08.2010 von Klaus Manhart
Die Prozessor-integrierten Hochverfügbarkeitseigenschaften wurden im Itanium 9300 weiter verbessert. Das nutzt HP für seine unternehmenskritischen Integrity und Superdome Server. Einige ausgewählte High Availability Features stellt dieser Beitrag vor.

Mit dem neuen Intel Itanium 9300 Prozessor - Codename Tukwila - hat Intel die RAS-Features (Reliability, Availability, Serviceability) noch einmal verbessert, die bereits in den Vorgängerprozessoren enthalten waren. Die RAS-Funktionen erkennen und beheben Hardware- und Software-Fehler, die Systemausfälle bewirken und optimieren damit die Hochverfügbarkeit.

Verbesserte Hochverfügbarkeit

Intels Itanium 9300 Prozessoren verfügen über vielfältige Möglichkeiten der Fehlerentdeckung, -vermeidung und -korrektur.

Der neue Itanium bringt erweiterte RAS-Funktionalitäten mit, die die High Availabilitay Fähigkeiten von Server-Systemen weiter befördern oder erst ermöglichen. So kann der Itanium die fehlerhaften Daten bereits während des Verarbeitens im Prozessor beheben. Tukwila-basierte Serversysteme sind damit die idealen Kandidaten für unternehmenskritische Anwendungen.

HP hat die verbesserten RAS-Fähigkeiten der CPU für seine neue Integrity-Reihe und den Superdome 2 genutzt und konsequent umgesetzt. Der neue Itanium liefert die Grundlage, um die Server-Hardware weiter in Hinblick auf höhere Verfügbarkeiten zu optimieren. So wurden in die Integrity- und Superdome Reihe neue High-Availibility Features integriert, die erst die RAS-Eigenschaften des neuen Prozessors möglich machten.

Double Device Data Correction

Im Zentrum der RAS-Features steht das Entdecken, Eingrenzen und Korrigieren von Software- und Hardware-Fehlern. Hier standen schon bei früheren Itanium-Versionen diverse Mechanismen zur Verfügung wie DRAM-Protection oder die Cache Safe Technology.

Besonders wichtig ist das Entdecken von Fehlern in Speicherriegeln, um im Fall der Fälle nicht mit fehlerhaften Memory-Inhalten weiter zu rechnen. Hierzu laufen im Rahmen der bekannten ECC Fehlerkorrektur Checksummen, die die Fehler finden, den Inhalt korrigieren oder defekte Riegel isolieren.

Das Erkennen und Isolieren defekter Speicherriegel beherrschten schon die Vorgänger des Itanium 9300. Doch die Fehlerkorrektur in den Itanium-Chips konnte bislang nur einen Hardware-Fehler in einem Speicherriegel Fehler identifizieren und isolieren. Traten Fehler in mehreren Riegeln auf stürzte das System ab.

Die SD2 Analysis Engine überwacht den Superdome 2 und hält ihn über Self Healing Mechanismen fehlerfrei am Laufen.

Der Tukwila erweitert nun die Fähigkeiten seiner Vorgänger und erlaubt es mit der "Double Device Data Correction" (DDDC) einem Memory-Baustein, auch bei zwei aufeinander folgenden Hauptspeicherfehlern weiterzuarbeiten. Abstürze aufgrund von Fehlern in DIMM-Chips können mit dieser verbesserten Variante der Fehlerkorrektur weiter reduziert und die Verfügbarkeit damit erhöht werden.

Dynamisches Partitionieren möglich

Moderne Server müssen nicht unbedingt nur für eine Anwendung zur Verfügung stehen. Dynamic Domain Partitioning erlaubt es, Integrity-Systeme zur Laufzeit in verschiedene Bereiche (Domains) aufzuteilen. Mit der Vergrößerung oder Verkleinerung von Domains lassen sich beispielsweise Belastungen dynamisch abfangen und besser verteilen.

Müssen Server im Normalfall extra heruntergefahren werden, um solche Partitionierungen vorzunehmen, kann bei HP-Systemen die Änderung der Einteilung im laufenden System erfolgen. Sollen etwa statt der 256 Prozessoren nachts nur 64 Prozessoren für eine bestimmte Anwendung zur Verfügung gestellt werden, kann die CPU-Anzahl dynamisch bei hochgefahrenem Server neu verteilt werden. Genauso lässt sich bei laufendem System mehr oder weniger RAM, Speicherbrandbreite oder I/O zuweisen. Der Server steht so ununterbrochen bereit.

In den bisherigen Integrity Servern wurde das Dynamic Domain Partitioning durch Firmware und den eingebauten HP Chipsatz umgesetzt. Mit dem neuen Itanium 9300 ist diese Funktionalität in den Prozessor integriert worden. Das hat mehrere Vorteile: So arbeitet Dynamic Domain Partitioning nun zuverlässiger und schneller. Zudem ist der Aufwand, diese Funktionalität in die Server einzubauen, deutlich geringer, was sich ebenfalls günstig auf die Verfügbarkeit der Systeme auswirkt.

Advanced Machine Check Architecture koordiniert "Error"-Handling

Viele der RAS-Mechanismen des Tukwila werden hardwareseitig unterstützt. Andere verlangen Support von der Firmware oder vom Betriebssystem. Mit der "Advanced Machine Check Architecture" stellt der neue Itanium Mechanismen bereit, die das Error-Handling über all diese verschiedenen Ebenen koordinieren.

Die Architektur bündelt und stimmt alle Zuverlässigkeitsmechanismen aufeinander ab. Sie nutzt hierfür definierte Interfaces, die Server-Hersteller in die Lage versetzen, die RAS-Fähigkeiten des Itanium 9300 in ihrem System Design und den Management-Applikationen zu integrieren und zu erweitern. Das Risiko der Beschädigung von Daten wird damit deutlich verringert und die Wiederherstellung des Systems vereinfacht.

Zusätzlich stellt die Advanced Machine Check Architecture Funktionen bereit, die ein Weiterlaufen des Systems garantieren - selbst wenn in der CPU oder in der Umgebung Fehler auftreten. Zudem verfügt der neue Itanium über eine Reihe von Erweiterungen der Advanced Machine Check Architecture. Corrected Machine Check Interrupts beispielsweise ermöglicht Fehlerreporting durch das lokale Prozessor Interface und hilft, Fehler schneller zu lokalisieren und vorherzusagen.

Superdome SD2 Analysis Engine analysiert Server-Herz

Die RAS-Features, die im neuen Itanium enthalten sind, nutzt auch die Analysis Engine SD2. Die in die neuen Superdomes 2 integrierte SD2 analysiert das Herz des Systems bis zum CPU-Core und garantiert damit deutlich höhere Uptimes.

Die Engine prüft nicht zum einen den Ad-hoc Status des Systems, und zeigt zum anderen auch die Status-Entwicklung an. Für jedes Bauteil, das im Superdome steckt -wie Memory DIMMs oder CPUs - liefert eine eigene Datenbank eine Historie. Wird beispielsweise ein Memory DIMM ausgetauscht, trägt die Engine in der Datenbank das Austauschdatum und weitere Informationen ein.

Die Analysis Engine überwacht das System mit einer gewissen Eigenintelligenz. Stecken im Superdome beispielsweise acht Blades mit je zwei CPUs drin und ist ein Memory-Riegel auf dem achten Blade fehlerhaft melden üblicherweise alle Blades den defekten Riegel. Der Administrator bekommt achtmal die gleiche Meldung und hat acht tote Punkte zu verarbeiten. Die Intelligenz der SD2 verhindert solche verwirrenden Mehrfachmeldungen und führt diese auf die eine Ursache, den Memory DIMM xy, zurück.

Eine weitere intelligente Eigenschaft der SD2 ist das Self Healing. Die Engine hält das System selbstständig fehlerfrei am Laufen. Es schaltet beispielsweise nicht nur defekte Memory DIMMs ab, sondern organisiert alle weiteren notwendigen Prozesse, um den Server verfügbar zu halten. Das macht die Analysis Engine ohne Eingriff des Admins. Meldungen werden zudem im normalen SNMP Format versendet, so dass diese von jedem üblichen System-Management Tool weiter verarbeitet werden können.