PC-Hersteller stellen erste "Cluster-Server"-Produkte vor

Microsoft-Konzept ist nicht Stand der Technik

21.11.1997

Seit Anfang November beginnen PC-Server-Anbieter, ihre Multiprozessor-Maschinen mit "Cluster Server" anzubieten. Die Technologie ermöglicht es, das Betriebssystem Windows NT Server und andere Produkte des "Backoffice"-Pakets sowie Applikationen von Drittanbietern auf einem aus mindestens zwei Servern bestehenden Rechnerverbund laufen zu lassen.

In Phase eins, so Microsofts Nomenklatur, lassen sich zwei Maschinen in einem sogenannten Fail-over-Cluster koppeln. Grundidee ist, sicherzustellen, daß im Fall der Havarie des aktiven Servers ein gespiegelter zweiter Rechnerkomplex mehr oder weniger in Echtzeit, also sofort, die Arbeit übernimmt.

Dieser Entwicklungsabschnitt von Microsofts Cluster-Konzept ist nun abgeschlossen. Erste PC-Server-Hersteller wie Dell, Hewlett-Packard (HP), die Siemens-Nixdorf Informationssysteme AG (SNI) oder Data General (DG) beginnen, Cluster-Server-Lösungen auf den Markt zu bringen.

Phase zwei sieht die Unterstützung von bis zu 16 Rechnerknoten vor, die in einer sogenannten Shared-nothing-Umgebung (siehe Kasten "Speicher") miteinander kooperieren. Ursprünglich wollte Microsoft eine Betaversion von Phase zwei seiner Cluster-Server-Lösung 1998 fertiggestellt haben. In Anbetracht der Tatsache, daß sich bereits die Einführung der Fail-over-Variante in gewohnter Microsoft-Manier mehrfach verschob, kann man über die Marktreife des nächsten Entwicklungsschritts aber wohl nur vorsichtig spekulieren.

Microsofts Cluster-Konzept weist allerdings ein wesentliches Problem auf, das sowohl in der Unix- als auch der Mainframe-Welt längst gelöst ist: Ein Fail-over-Ansatz gewährt zwar ein gewisses Maß an Ausfallsicherheit. Wirklich interessant aber werden Cluster-Topologien erst, wenn der Anwender die Arbeitslast über einen kompletten Rechnerverbund flexibel verteilen kann. Dies geht mit Phase eins von Cluster-Server nicht.

Daß in der Windows-NT-Welt schon jetzt leistungsstarke Cluster mit Lastverteilung über mehrere Systeme hinweg möglich sind, demonstriert Tandem. Der mittlerweile unter die Fittiche der Compaq Computer Corp. geschlüpfte Marktführer im Segment fehlertoleranter Rechner präsentierte im Frühjahr ei- ne zwei Terabyte große Data-Warehouse-Anwendung. Diese lief auf einem Rechnerverbund, der aus 16 NT-Servern mit jeweils vier CPUs, insgesamt also 64 Prozessoren, bestand.

Als wesentliches Element dieser Topologie übernahm Tandem Know-how aus seiner Entwicklung ausfallsicherer Großsysteme. Hierzu gehört zum einen die "Nonstop"-Software, zum anderen aber die erstmals 1995 vorgestellte Servernet-Technologie (siehe Kasten "Servernet").

Von besonderem Interesse ist auch DECs Cluster-Konzept für die Open-VMS-Umgebung, das aber irgendwann einmal auch auf NT portiert werden soll. Mit dem "Galaxy" genannten Softwareprojekt will DEC die Vorzüge von SMP- und MPP-Architekturen verquicken.

Im Prinzip handelt es sich bei Galaxy um eine Erweiterung des Open-VMS-Betriebssystems.Offiziell vorgestellt werden soll es im Juni 1998. Kern von Galaxy ist die sogenannte Adaptive-Partitioned-Multiprocessing-(APMP-)Architektur, bei der auf jedem Rechnerknoten mit mehreren CPUs (siehe Grafik) eine Betriebssystem-Kopie liegt - im Prinzip also ein MPP-Ansatz. Jedem Knoten wird ein sogenannter Private-Memory-Bereich zugeordnet, in dem Systemcode und Daten lagern. Ferner docken an jeden Knoten I/O-Komponenten an.

Alle Rechnerknoten zusammen stellen sich für den Anwender wie ein einziges System dar, das über einen gemeinsamen Speicherbereich verfügt (shared memory). Applikationen können über das Gesamtsystem hinweg genutzt werden - insofern ein SMP-Ansatz.

Der Clou des DEC-Cluster-Konzepts: Wie die Bezeichnung Adaptive Partitioned Multiprocessing schon andeutet, kann der Anwender in einer Galaxy-Architektur via Softwarepartitionierung im Millisekundenbereich Prozessoren, Speicher und I/O-Komponenten bestimmten Knoten zuordnen. Wenn beispielsweise Knoten A in der Regel Batch-Prozesse abarbeitet, Knoten C aber zeitweise mit seinen Data-Warehouse-Aufgaben überfordert ist, kann eine Prozessor-Reallokation von Knoten A nach Knoten C stattfinden. Ein Neustart des Systems ist hierzu nicht nötig. Ein ähnliches Konzept hat Sun Microsystems in seinen "Starfire"-Topmaschinen verwirklicht.

Die Galaxy-Architektur soll auf bis zu 32 Acht-Wege-Knoten und einen gemeinsamen Speicher von bis zu 1 TB ausgebaut werden können. Darüber hinaus lassen sich bis zu 200 I/O-Subsysteme an diesen Rechnerkomplex andocken. DEC glaubt, daß in solch einer Topologie 300000 Transaktionen pro Sekunde realisiert werden können. Bei optimal an die Galaxy-Architektur angepaßter Software ließe sich dieser Wert sogar auf eine Million Transaktionen pro Sekunde steigern.

Obwohl DEC seine Cluster-Architektur sowohl unter Open VMS und DEC Unix als auch unter Windows NT zeigen will, ist klar, daß das Unternehmen Galaxy zuvörderst für seine Open-VMS-Kunden entwickelt.

Servernet

Tandems Servernet-Technologie zeichnet sich dadurch aus, daß der CPU-Bus mittels einer Zwischenschicht von den I/O-Bus-Systemen entkoppelt wird. Das Kernstück der sogenannten "Any-to-any"-Struktur bilden Sechs-Port-Router mit ASICs, die eine theoretische Bandbreite von 300 MB/s und eine Latenzzeit von unter 300 Nanosekunden haben sollen. Zugrunde liegt die Idee, ein Netzwerk innerhalb des Rechners zu entwerfen, das einen Informationsaustausch unter den verschiedenen Systemteilen (CPU, Festplatte, Kommunikationseinrichtung) erlaubt. Durch die Möglichkeit der direkten Kommunikation zwischen Peripherieeinheiten wie Massenspeichern können Datenvolumina, die nicht von der CPU bearbeitet, sondern nur transportiert werden müssen, schneller durch das System bewegt werden. Die CPU erhält nur noch die Daten, die zu verarbeiten sind. Die Router übernehmen mit ihren ASICs Verwaltungsaufgaben wie Arbitration und Kontrolle. Indem man mehrere dieser als "Servernet Connection Fabric" bezeichneten Router-Module zusammenschaltet, kann man sehr hohe Bandbreiten erzielen.

Speicher

Shared-nothing-Konzepte - wie sie etwa für massiv-parallele Systeme typisch sind - zeichnen sich dadurch aus, daß jeder Rechnerknoten eine eigene Betriebssystem-Version und einen eigenen lokalen Speicher besitzt. Im Gegensatz dazu läuft etwa auf symmetrischen Multiprocessing-(SMP-)Architekturen nur eine einzige Betriebssystem-Version. Außerdem besitzen solche Systeme einen globalen Speicher. Dieses Design macht SMP-Maschinen anfälliger für Störungen - fällt eine CPU aus, geht das gesamte System in die Knie.