Cluster: Hochverfügbarkeit bevorzugt

05.10.2001 von Kriemhilde Klippstätter

MÜNCHEN (COMPUTERWOCHE) - Mit der Kopplung von PC-Servern lassen sich heute Spitzenwerte bei der Rechenleistung erzielen. Cluster dienen in den Rechenzentren der Unternehmen aber hauptsächlich einem: der höheren Verfügbarkeit der Anwendungen.

Rechnen im Verbund ist populär geworden. Mit gekoppelten, kostengünstigen PC-Servern lassen sich heute Rechenaufgaben so schnell lösen, dass manch "großes Eisen" das Nachsehen hat. Selbst im wissenschaftlichen Bereich des High-Performance-Computing (HPC) dringen Server-Verbünde zunehmend in die Top-500-Liste der leistungsstärksten Rechner der Welt ein. Die Spitze hält, mit einer Rechenleistung von 4,9 Teraflops, bereits seit ein paar Jahren IBMs "Asci-White"-Maschine. Sie besteht aus 512 Knoten, die über SP-Switches aus den massiv-parallelen Supercomputern der ehemaligen Baureihe "RS/6000 SP" miteinander verbunden sind. Forscher wie Thomas Sterling, der am California Institute of Technology und am Jet Propulsion Laboratory der Nasa arbeitet, halten es für möglich, dass Cluster bereits Mitte dieser Dekade die dominierende Highend-Computing-Architektur

darstellen werden.

Im kommerziellen Umfeld dienen Cluster jedoch hauptsächlich einem anderen Zweck: Sie sollen für Hochverfügbarkeit sorgen. Fällt ein Rechner aus, übernimmt ein anderer die Arbeitslast des ersten. Bei entsprechender Konfiguration bleibt dem Anwender verborgen, dass seine Applikation nun auf einem anderen Server läuft. In einem derartigen Failover-Cluster spielt die Anzahl der von der Cluster-Software unterstützten Knoten keine große Rolle: Microsofts erste Cluster-Lösung "Wolfpack" koppelte nur zwei Maschinen - genug, um den Ausfall eines Servers abzufangen. IBM beispielsweise erlaubt mit seiner Softwarelösung für Hochverfügbarkeit "HACMP" (High Availability Cluster Multiprocessing) heute die Verbindung von 32 Knoten. Sun begnügt sich bei "Sun Cluster 3.0" derzeit mit acht gekoppelten

Rechnern, bis Jahresende sollen es 16 Maschinen sein. Dabei positioniert gerade die Solaris-Company ihre Architektur als "General-Purpose-System", geeignet sowohl für hohe Verfügbarkeit als auch Skalierbarkeit.

Ohne System-Management geht nichts

"Das Wichtigste am Cluster ist das System-Management, weil genau daran das Rechnen im Verbund scheitern kann", erklärt Klaus Gottschalk, Architect System Sales bei IBM. Die an sich unabhängigen Maschinen müssen gemeinsam verwaltet werden. Die Softwareschmiede Veritas bietet mit dem "Cluster Server" als einziger unabhängiger Hersteller eine Verbundsoftware an, die zudem noch verschiedenartige Rechnerdolden von einer Management-Konsole aus administrieren kann: "Betreibt ein Unternehmen ein NT-, ein HP-UX- und ein Solaris-Cluster, dann lassen sich alle drei von einer Konsole aus jedem Cluster-System heraus verwalten", beschreibt Robert Gorbahn von Veritas in München das Konzept.

Der Charme der Veritas-Lösung besteht unter anderem darin, dass sie für verschiedene Betriebssysteme verfügbar ist. Zu den genannten gesellt sich demnächst Windows 2000, das dann als 32-Knoten-Cluster konfiguriert werden kann. In Arbeit sind auch Versionen für Linux und AIX.

Der Cluster Server von Veritas ist ähnlich modular aufgebaut wie das Sun Cluster 3.0. Das Standardprodukt enthält alle Betriebssystem-spezifischen Funktionen wie IP-Adressen, NFS-Freigaben (NFS = Network File System) sowie Services, die gestartet oder gestoppt werden. Darüber hinaus gibt es für die gängigsten Applikationen kostenpflichtige "Agents", die die Anwendung hochverfügbar machen und etwa dafür sorgen, dass diese beim Ausfall eines Knotens sauber beendet und auf einem anderen Server neu gestartet wird.

Big Blue hat als Grundlage für die beiden Cluster-Programme HACMP (für Hochverfügbarkeit) und "PSSP" (Parallel System Support Programs - für hohe Skalierbarkeit) das "Phoenix"-Projekt entwickelt. Damit sollen Funktionen, die für beide Cluster-Arten benötigt werden, auf eine gemeinsame Basis gestellt werden. Dabei handelt es sich beispielsweise um Programme für die Fehlererkennung, Event-Behandlung oder das Erkennen der Netztopologie.

Ebenso wie Sun arbeitet Big Blue am Cluster-File-System und will neben NFS und Unix das hauseigene "General Parallel File System" (GPFS), das bislang nur auf den teuren "SP"-Verbünden zu finden ist, für alle Cluster-Varianten zugänglich machen. "Heute muss dafür eine SP-Konfiguration vorhanden sein, demnächst kann irgendein schnelles Netzwerk wie Gigabit Ethernet benutzt werden", erwartet Gottschalk. Dafür entwickelt IBM eine Lösung, die es erlaubt, alle Rack-basierten AIX-Server als mögliche SP-Knoten einzusetzen. Die passende Steuerungssoftware PSSP soll in einer abgespeckten Version (Codename "Blue Hammer) dann auch mit Linux zusammenarbeiten. Nachteil des Ansatzes ist, dass er "demokratisch" arbeitet: GPFS startet erst, wenn sich die Mehrheit der Server im Cluster gemeldet hat. Entscheidend für die Leistungsfähigkeit einer Cluster-Lösung ist neben der übergreifenden File-System-Unterstützung auch die Kommunikation zwischen den

Rechnerknoten. So besteht etwa Veritas darauf, dass zwischen allen Maschinen zwei getrennte Ethernet-Links vorhanden sein müssen, um für die ausgetauschten Statusmeldungen Ausfallsicherheit gewährleisten zu können.

Bei Sun übernimmt die Kommunikation der "Cluster Interconnect". Das sind bis zu sechs parallele Verbindungen, die zwischen den Rechnern die Daten transferieren oder über die "Heartbeat"-Funktion den Betrieb der Komponenten kontrollieren. Die TCP/IP-Verbindung unterstützt Ethernet und Gigabit Ethernet. Cluster Interconnect und das Global File-System bilden auch die Grundlage dafür, dass Daten, die per Subsystem physikalisch mit einem Server verbunden sind, den anderen Knoten ebenfalls zur Verfügung stehen. Fällt ein Knoten aus, bleiben seine Daten für die anderen Stationen nutzbar, zumindest wenn sie auf einem Sun-Speicher liegen.

Kopplung mit Cluster-Datenbanken

Seit Oracle den "Parallel Server" vorstellte, ist in der kommerziellen Datenverarbeitung die Diskussion über geclusterte Datenbanken neu entbrannt. Die meisten Cluster-Programme - Ausnahme Microsoft - unterstützen diese Kopplung. Die Datenbank startet auf mehreren Servern immer die gleiche - unabhängige - Instanz, so dass beim Stillstand eines Knotens trotzdem weitergearbeitet werden kann. Der Nachteil dabei ist, dass alle Instanzen auf gemeinsam benutzte Platten zugreifen und man für Datenintegrität sorgen muss. Ein "Log"-Manager verhindert zwar den gleichzeitigen Zugriff zweier Knoten auf eine Datei, schmälert aber den Parallelisierungsvorteil. Außerdem ist er nur einmal vorhanden, bildet also einen zusätzlichen "point of failure". Analysten empfehlen deshalb, beim Oracle Parallel Server auf weitere Releases zu warten.

Cluster-Studie

Das US-Marktforschungsunternehmen D.H. Brown Associates Inc. unterzieht einmal im Jahr die gängigsten Unix-Cluster für Hochverfügbarkeit einer peinlich genauen Untersuchung. Die Analysten testeten unter anderem die Angebote von Compaq (unter Tru-64-Unix und der Cluster-Software "Tru-Cluster Server"), IBM (unter AIX, Cluster-Programm "HACMP"), Hewlett-Packard (HP-UX mit "MC/Service Guard") sowie Sun unter Solaris und der alten Version von Sun Clusters. Die einzelnen Tests wurden in sechs Kategorien zusammengefasst und unterschiedlich stark gewichtet. Als Kategorien definierten die Prüfer alle Funktionen für Backup und Recovery, Failover-Konfigurationsspielraum, parallelen Datenbankzugriff, Administration, Single-System Image sowie Disaster Recovery.

Das Ergebnis: In der Gesamtwertung variieren die Produkte zwar nur wenig, bei der Betrachtung der sechs Kategorien lässt sich jedoch ein klares Ranking feststellen. So erreichte Compaq erste Plätze beim parallelen Datenbankzugriff und Single-System-Image, war aber in Sachen Disaster Recovery auf den letzten Platz abgeschlagen. IBM schaffte immerhin zweimal Rang eins (Disaster Recovery, Failover-Konfigurationsspielraum) und stellte einmal das Schlusslicht (Backup und Recovery). Mit gleichmäßig verteilten Stärken und Schwächen kam HP aus dem Test: In den diversen Disziplinen wurde der Hersteller jeweils einmal erster, zweiter, dritter und vierter, belegte zwei fünfte Plätze, fiel aber nie auf den letzten. Das passierte Sun sogar zweimal (Verwaltung, Single-System Image), für einen Spitzenplatz reichte es in keiner Kategorie.