Server-Strategien/Doppelt gemoppelt hält besser - Redundanz soll Windows-Plattformen ausfallsicher machen

Hochverfügbarkeit wird zum kritischen IT-Faktor

22.03.2002
Der Geschäftserfolg vieler Unternehmen hängt heute von der sicheren Verfügbarkeit von IT-basierenden Services, Anwendungen und Daten ab. Ein nicht verfügbares DV-System gleicht dem Schild "Geschlossen, komme gleich zurück" an der Ladentür. Doch es ist fraglich, ob ein Kunde tatsächlich zurückkehrt und nicht zur Konkurrenz weitersurft. Von David Chalmers*

Mit der Entwicklung des Internet und der damit verbundenen Ausweitung des E-Commerce für B2C und B2B erhöhen sich die Anforderungen an die IT, die notwendige Infrastruktur einer permanent verfügbaren Systemumgebung bereitzustellen. Hersteller und Dienstleister sehen sich dadurch gezwungen, mit ihren Produkten höhere Anforderungen an die Betriebssicherheit zu erfüllen.

So rechnet beispielsweise International Data Corp. (IDC) damit, dass im Jahr 2003 mehr als eine halbe Milliarde Nutzer im Internet elektronische Geschäfte im Wert von etwa 1,3 Billionen Dollar abwickeln werden. Auf Basis dieser Faktoren prognostizieren die Analysten, dass der weltweite Markt für hochverfügbare Systeme eine jährliche Gesamtwachstumsrate von 14,8 Prozent bei den Umsatzerlösen und 22,8 Prozent bei den ausgelieferten Systemen verzeichnen wird.

Um hohe Verfügbarkeit in Windows-Server-Umgebungen zu erreichen, sind Cluster die häufigste Wahl der Anwender. Fehlertolerante Systeme und Cluster weisen jedoch unterschiedliche Vor- und Nachteile auf. Beide Architekturen haben ein grundlegendes Merkmal gemeinsam: Sie basieren auf redundanter Hardware, um Single Points of Failure zu beseitigen. Und hier enden auch schon die Gemeinsamkeiten beider Methoden.

Fehlertolerante Server nutzen im Gegensatz zu Clustern eine Lockstep-Technologie für CPU und Speichereinheiten. In diesen Systemen führen doppelt oder dreifach vorhandene Motherboards alle Instruktionen im Lockstep-Verfahren aus, das heißt, alle Module arbeiten simultan. Wenn die Fehlererkennung eine Störung identifiziert, wird das fehlerhafte Motherboard augenblicklich vom System isoliert und abgeschaltet. Eine zweite Ebene der Fehlererkennung vergleicht die Outputs jeder CPU/ Speichereinheit bei jedem I/O-Vorgang. In beiden Fällen läuft die Datenverarbeitung ohne Unterbrechung oder Leistungsminderung weiter. Der Prozess, die Fehler zu erkennen und die betroffenen Komponenten zu isolieren, funktioniert innerhalb von Millisekunden.

Ein High-Availability-Cluster dagegen initiiert den Fail-Over-Prozess erst, wenn die "Heartbeat"-Nachricht eines ausgefallenen Knotens ausbleibt. Es können Sekunden vergehen, bevor der funktionierende Knoten mit der Fail-Over-Routine beginnt, was selbst unter besten Bedingungen zu einer Ausfallzeit führt.

Cluster-Start braucht ZeitNach einer Fail-Over-Initiierung wird der neue Cluster gebildet, die Datenbank wiederhergestellt und die Anwendungen neu gestartet. Dieser Prozess kann sich über mehrere Minuten hinziehen, abhängig von der Komplexität der Anwendungsumgebung und der Cluster-Konfiguration.

Im Gegensatz zu Clustern weiten fehlertolerante Systeme den Schutz redundanter Hardware auf die gesamte Architektur in einer Weise aus, die für Betriebssystem, Middleware und Anwendungen transparent ist. Zu den Komponenten gehören doppelte "hot-swappable" CPU/Speichereinheiten, I/O-Boards, PCI-Karten, Speichereinheiten, Stromversorgung und Belüftung. Bei Geräteredundanz besteht keine Abhängigkeit von Scripting oder von einer Konfigurationskontrolle, um die Verfügbarkeit abzusichern.

Eine Stärke von High-Availability-Clustern ist die Fähigkeit, im Vergleich zu herkömmlichen fehlertoleranten Geräten einen hohen Grad an Softwareverfügbarkeit zu gewähren. Von Clustern wird ein Versagen der Software ähnlich behandelt wie ein Geräteausfall. Wenn eine Anwendung nicht reagiert, übergibt der Cluster den Betrieb an einen Ersatzknoten, und seine Betriebsbereitschaft wird innerhalb kurzer Zeit wiederhergestellt.

Ein fehlertoleranter Server würde für einen ähnlichen Neustart der Anwendung mehr Zeit benötigen. Jedoch wurde auch von den Herstellern fehlertoleranter Server der Bedarf erkannt, die gesamte Systemverfügbarkeit zu verbessern. Die Rechner enthalten deshalb Funktionen, welche die Wiederherstellung im Fall eines Softwareausfalls beschleunigen. Zusätzlich bieten einige Server auch Verbesserungen hinsichtlich der Betriebssicherheit, sodass durch Software verursachte Ausfälle gar nicht erst auftreten.

Fehlertolerante Lösungen erschienen früher im Vergleich zu High-Availability-Alternativen relativ teuer, wenn man sie ausschließlich hinsichtlich der Anschaffungskosten bewertete. Heute sind fehlertolerante Server zum gleichen Preis wie ein äquivalent konfigurierter High-Availability- Cluster mit zwei Knoten zu haben. Dies liegt zum einen daran, dass Standardkomponenten genutzt werden, wie sie zum Beispiel bei den "ftServern" des Herstellers Stratus zum Einsatz kommen. Alle Hauptkomponenten in diesen Rechnern sind Standardhardware. Das fehlertolerante System verwendet die gleichen Prozessoren, Speichereinheiten und Strom-Subsysteme wie herkömmliche Einzel-Server.

Lizenzen im Cluster teurerAußerdem spielen die geringeren Kosten für die Softwarelizenzierung eine wichtige Rolle. Für einen Cluster sind nicht nur mehr Hardwarekomponenten nötig, auch das Betriebssystem, die Middleware und Anwendungen müssen in mehreren Exemplaren vorhanden sein. Ein fehlertolerantes System benötigt nur eine einzige Version von Betriebssystem, Middleware und Anwendungen.

Die Gesamtkosten einer Hochverfügbarkeitslösung sollten nicht nur an den Anschaffungs- und Wartungskosten gemessen werden, sondern auch die eingesparten Kosten mit einbeziehen. Für die Bestimmung der Total Cost of Ownership (TCO) sind auch die Kosten der Ausfallzeiten, der Personalbedarf und die Aufwendungen für Verzögerungen bei der Markteinführung ausschlaggebend.

In der Finanzbranche können beispielsweise Anwendungen wie Brokerage-Vorgänge oder Autorisierungen für Online-Zahlungen mit Kreditkarten Kosten in Höhe von mehreren Millionen Euro pro Stunde Ausfallzeit verursachen. Fehlertolerante Server sind für die Bereitstellung von 99,999 Prozent Betriebszeit ausgelegt - das bedeutet weniger als fünf Minuten ungeplante Ausfallzeit pro Jahr. Hersteller von High-Availability-Clustern bieten Lösungen an, die einen Verfügungsgrad von bis zu 99,9 Prozent bieten, was durchschnittlich 8,7 Stunden Ausfallzeit pro Jahr bedeutet. (ba)

*David Chalmers ist Product and Technology Director Emea (Europe, Mittlerer Osten und Afrika) bei Stratus Technologies in Schwalbach/Ts.

Vor- und Nachteile von Hochverfügbarkeitslösungen

Lösung zur Sicherung der Verfügbarkeit / Für / Wider

Einzel-Server / Niedriger Preis, Einfache Anwendung / Eingeschränkter Schutz gegen Hardwareausfälle, Kein Schutz vor Softwareausfällen

High-Availability-Cluster / Behebung von Single Points of Failure der Hardware, Anpassung geplanter Ausfallzeiten / Schwierige Implementierung, Komplexes System-Management, Modifikation der Anwendungen für Cluster notwendig, Fail-Over-Zeiten bei Hardwareausfällen

Fehlertolerante Hardware-Systeme / Keine Fail-Over-Zeit aufgrund des Ausfalls von Komponenten, Funktion als eigenständiges System, Gespeicherte Transaktionen bleiben erhalten/ Geplante Ausfallzeit für Software Upgrades nötig

Realisierung von Hochverfügbarkeit: Der Martk bietet dem Anwender verschiedene Technologien, um hohe Verfügbarkeitslevel zu erreichen. Neben einzelnen Servern sind die am weitesten verbreiteten Technologien High-Availability-Server-Cluster und fehlertolerante Server. Die Tabelle stellt Stärken und Schwachpunkte gegenüber.