Fault-Tolerant-Controller zur Fehlererkennung und Korrektur:

Dreifache Redundanz vermeidet Systemcrash

02.03.1984

Fehlertolerante Rechnersysteme sind die Voraussetzung für den Einsatz von Computern in kritischen Anwendungen. bei denen es auf eine hohe Zuverlässigkeit ankommt. Hierzu zählt die Kontrolle von Prozessen unter Realzeitbedingungen in Industrie, bei Versorgungsunternehmen oder in der Luft- und Raumfahrt ebenso wie die Überwachung von Schwerkranken in Kliniken. Systemzusammenbrüche werden in fehlertoleranten Rechnern durch das Erkennen und Korrigieren nahezu aller Fehler vermieden.

Da in Realzeitanwendungen Rollback-Verfahren ausgeschlossen sind, müssen Verfahren gewählt werden, die auch bei Auftreten eines Fehlers und während des folgenden Recovery nahezu die volle Rechenleistung garantieren.

Ein Verfahren basiert auf dem bekannten Prinzip der dreifachen Redundanz. Drei gleiche Systeme werden durch spezielle Fault-Tolerant-Controller (FTC) überwacht.

Der FTC erkennt Fehler durch einen Vergleich der Systemzustände und der Ausgabedaten. Die Korrektur wird ausgeführt durch einen Kaltstart des fehlerhaften Moduls, durch Kopieren der Systemzustände der korrekt arbeitenden Module in das zuvor fehlerhafte Modul während des normalen Betriebs oder durch eine Wiedereingliederung des zuvor fehlerhaften Moduls in den laufenden Rechengang. Eine weitere Aufgabe des FTC ist die Verteilung von Eingabedaten nicht parallel betriebener Peripherieeinheiten.

Die Wahl der zu überwachenden Signale muß die Erkennung eines jeden Einfachfehlers gewährleisten und ihn so markieren, daß eine falsche Steuerung des Prozesses ausgeschlossen ist.

Von diesem Prinzip muß beim Anschluß teurer Peripheriegeräte wie Hintergrundspeicher oder Prozeßperipherie abgesehen werden können. Sofern aus Kostengründen oder Handhabungsgründen (zum Beispiel Terminal) auf ein dreifaches Vorhandensein verzichtet werden muß übernimmt der FTC die Aufgabe, alle Prozessoren gleichzeitig mit den Daten dieser nur einfach vorhandenen Geräte zu versorgen. In diesem Fall müssen andere Techniken zur Fehlererkennung herangezogen werden. Aus Sicherheitsgründen sollte natürlich zumindest ein alternativ verwendbares Gerät vorhanden sein.

Besondere Vorteile des Verfahrens der dreifachen Redundanz liegen darin, daß sich das fehlertolerante System aus Sicht des Programmierers nicht von einem Einfachrechner unterscheidet. Software kann auf jedem Entwicklungssystem erstellt und getestet werden und ist ohne Änderung auf das fehlertolerante System zu übertragen. Dem Benutzer sollte ein Standard-Betriebssystem für Realzeitanwendungen zur Verfügung stehen.

Die Systeme eröffnen neue Einsatzmöglichkeiten in kritischen und sicherheitstechnischen Anwendungen. Aber auch aus rein wirtschaftlichen Kriterien ist der Einsatz von fehlertoleranten Anlagen überall dort sinnvoll, wo durch einen Rechnerausfall Folgekosten (zum Beispiel Produktionsstillstand) entstehen, die einige hundert Mark pro Stunde überschreiten.

*Dr.-Ing. Wolfgang Roehder ist Geschäftsführer der Enerko GmbH, Aachen.