Single Point of Failure beherrschen

Virtualisierung schafft Hochverfügbarkeit

14.03.2009
Von 
Dipl. Inform. Johann Baumeister blickt auf über 25 Jahre Erfahrung im Bereich Softwareentwicklung sowie Rollout und Management von Softwaresystemen zurück und ist als Autor für zahlreiche IT-Publikationen tätig. Sie erreichen ihn unter jb@JB4IT.de

Um auch größere Entfernung und den Ausfall des Enclosures abzusichern werden die Knoten des Cluster auf unterschiedliche Enclosures gelegt. Beim Campus- oder Metrocluster beispielweise kann die Distanz der Cellboards einige Dutzend Kilometer betragen. Metro-Cluster schützen folglich vor einem lokal begrenzten Ausfall des Systems und führen den Serverbetrieb an einem entfernten Standort fort.

Wenn noch größerer Entfernungen überbrückt werden müssen, um beispielsweise auch gegen lokal begrenzter Naturkatastrophen abgesichert zu sein, so kommen die Continental Cluster ins Geschehen. Sie erlauben eine weltumspannende Absicherung der Serverdienste gegen Ausfall. Die Knoten eines Continental Cluster sind räumlich beliebig weit zu trennen. Sie stimmen sich über Standard-IP-Netze und einer Internetverbindung ab.

Diese unterschiedlichen Varianten der Integrity-Cluster und die Redundanzen der Integrity NonStop Server erlauben vielfältige Absicherungen gegen Ausfälle. Dabei erfolgt die Absicherung der Serversysteme im Ganzen. Aber auch die einzelnen Baugruppen sind dabei den Integrity-Systemen gegen Ausfälle gewappnet. Dies beginnt bei Rechnerdesign, geht über die Auswahl der Baugruppen und setzt sich in den passiven Komponenten, wie etwa den Bussystemen fort. Dabei sind sowohl die CPUs, die Speicherbausteine, die IO-Anschlüsse und auch Stromversorgung und Kühlung redundant ausgelegt.

Sicherheit in allen Baugruppen

CPU: Je nach Konfiguration des Rechnersystems werden unterschiedliche Cellboards mit mehreren Intel Itanium-CPUs verwendet. Dabei lassen sich die CPUs dynamisch zu- und abschalten. Dies ermöglicht die geforderte Flexibilität und Dynamik. Gleichzeitig wird damit der Ausfall einer CPU abgesichert. In ihrem Innersten weisen die Prozessoren der Intel Itanium-Reihe darüberhinaus eigene Vorkehrungen zur Fehlerkorrektur auf. Datenfehler werden von der CPU selbst erkannt. Daneben ist auch der 24 MByte Cache der CPU mit einer Fehlererkennung nach dem ECC-Verfahren abgesichert.

Arbeitsspeicher: Neben der CPU zählt der Arbeitsspeicher zu den wichtigsten Bausteinen für die Codeabarbeitung. Auch er ist gegen Ausfälle und Fehler abgesichert. Dies passiert durch die Fehlererkennung und -korrektur nach dem ECC-Verfahren. Desweiteren befinden sich auf jedem der Speichermodule zwei zusätzliche Ersatzchips. Diese können bei einem Ausfall von bis zu zwei primären Speicherchips dynamisch dazu geschaltet werden und die Rolle der defekten Bausteine einnehmen. Laut Messungen vermindert dies die Downtime für das System um den Faktor 17.