Hochverfügbarkeit

Airbags für Server-Systeme

30.01.2003 von von Dirk
Die Verfügbarkeit lässt sich bereits mit relativ einfachen Maßnahmen entscheidend verbessern. Aber natürlich gilt auch hier: Je höher die Anforderungen, desto tiefer muss das Unternehmen in die Tasche greifen, um sie zu realisieren.

AUSFÄLLE kritischer Server sind das Horrorszenario jedes Unternehmens. Sie führen dazu, dass Kunden nicht bestellen, Wareneingänge nicht verbucht und Mitarbeiter schlichtweg nicht arbeiten können. Ihre Ursachen können unterschiedlich sein, aber fast immer kann man etwas dagegen tun.

Eine nicht unerhebliche Fehlerquelle stellt beispielsweise der Prozessor eines Servers dar. Fällt dieser aus, stürzt das System ab. Das gilt auch für die meisten Mehrprozessormaschinen. Einige Hersteller bieten hierfür Offline-Backup-Prozessoren an, die im Normalbetrieb abgeschaltet sind und im Fehlerfall für einen ausgefallenen Kollegen einspringen. Das geht zwar nicht ohne einen Server-Reboot, jedoch ist der damit verbundene Zeitverlust erheblich geringer als der Aufwand, der zum Austausch des Prozessors notwendig wäre. Eine weitere Fehlerquelle stellt der Systemspeicher dar. Hier hat sich inzwischen Error-Correction-Code (ECC) Memory etabliert, das einfache Fehler zu korrigieren vermag. Derzeit noch seltener im Gebrauch, aber sinnvoller ist das Advanced ECC Memory, da hierbei ein Speichermodul komplett ausfallen kann, ohne einen Server-Absturz zu provozieren. Server-Systeme der neuesten Generation gehen gar so weit, Speicherbänke komplett zu spiegeln. Dann dürfen

notfalls auch mehrere Module ausfallen, ohne dass der Betrieb beeinträchtigt ist. Häufig kann der Systemverwalter den defekten Speicher dann noch im laufenden Betrieb austauschen.

Alles doppelt

Zur soliden Basis eines ausfallsicheren Servers zählen natürlich auch eine unterbrechungsfreie Stromversorgung und redundante Lüfter. Zu beachten ist hierbei, dass die Lüfter im laufenden Betrieb getauscht werden können, ohne dass das Öffnen des Server-Gehäuses zum Abschalten des Rechners führt. Wichtige Beiträge zur Verfügbarkeit eines Servers leisten zudem die Netzwerkkarten. Redundante Ausführungen sind je nach Konfiguration in der Lage, einen Failover von einer defekten Karte auf eine noch funktionierende durchzuführen. Alternativ können zwei oder mehr Karten in einem Loadbalancing-Modus betrieben werden. Dieser sorgt für einen besseren Durchsatz und erhöht die Ausfallsicherheit.

Der Plattenspeicher ist ein weiterer extrem wichtiger Aspekt für die Verfügbarkeit. Festplatten sind aufgrund ihrer mechanischen Eigenschaften sowie durch thermische Einflüsse besonders anfällig. Lokale RAID-Systeme (Redundant Array of Inexpensive Disks) gehören hier zwar mittlerweile zum Standard, bieten jedoch keine hundertprozentige Garantie, denn der RAID-Controller stellt eine gravierende potenzielle Fehlerquelle dar. Aus diesem Grund bieten einige Hersteller bereits doppelt ausgelegte RAIDController an. Als sinnvolle Alternative in diesem Bereich kristallisiert sich jedoch zunehmend hochverfügbar ausgelegter SAN-Speicher (Storage Area Network) heraus.

Ausfallsicherheit ist teuer

Aufwändige Hardware ist schön und gut, ersetzt aber keinesfalls Präventivmaßnahmen. Dazu zählt neben einer regelmäßigen Wartung der Systeme der Einsatz von Software, die den Status eines Servers überwacht und etwaige Unregelmäßigkeiten sofort meldet. Nahezu alle namhaften Anbieter liefern entsprechende Tools, die in der Regel im Kaufpreis des Servers enthalten sind.

Soll die Systemverfügbarkeit weiter in die Höhe getrieben werden, so ist dies nur mit speziellen Lösungen möglich. Bei fehlertoleranten Systemen beispielsweise sind Prozessoren, Hauptspeicher sowie weitere kritische Komponenten in doppelter oder dreifacher Ausführung vorhanden.

Da alle Komponenten identische Instruktionen ausführen, wirkt sich der Ausfall einer Komponente nicht störend auf den produktiven Betrieb aus. Failover-Cluster sind eine weitere mögliche Alternative, um die Verfügbarkeit zu steigern. Diese arbeiten meist mit zwei Knoten, bei denen einer aktiv ist und beispielsweise eine Datenbank bereitstellt, während der zweite darauf wartet, dass der andere ausfällt, um ihn zu ersetzen.

Ausfallsichere Server sind zwar teuer, doch noch teurer sind Server- Ausfälle für ein Unternehmen. Entscheider sollten daher genau abwägen, wie lange ein Server tatsächlich vom Netz gehen kann, bevor es für die Firma kritisch wird. Die Mehrinvestitionen für die Ausfallsicherheit machen sich häufig schon bei der ersten defekten Komponente bezahlt. (uk)

*Dirk Pelzer ist freier Journalist in München.