Dialog-gestützte Betriebsorganisation erfordert fehlertolerantes Rechnersystem:

Datenspiegelung erhöhte Systemdurchsatz

18.05.1984

MÜNCHEN - Sicherheitskonzept, Software-Kosten-Kontrolle und Anpassungsgeschwindigkeit der Betriebsorganisation sind die nicht delegierbaren Handlungsparameter der Unternehmensführung im Bereich der Datenverarbeitung. Jens Christopher Ruhsert, Geschäftsführer der Wilhelm Gienger GmbH, München, und verantwortlich für den Bereich Information und Logistik, gibt eine praktizierte Antwort auf die Frage nach dem Sicherheitskonzept.

Trotz Preissturz bei der Hardware (ein VW-Käfer dürfte heute nur fünf Mark kosten legte man die Entwicklung des Preis/Leistungs-Verhältnisses der letzten 20 Jahre zugrunde) steigen die Datenverarbeitungskosten so sicher, wie jeder Computer einmal ausfällt. Nicht ganz unschuldig an der Kostenentwicklung ist der Bildschirmdialog, der heute Prozesse und Organisationen steuert und maßgeblich Flexibilität und Servicegrad der Fachabteilungen (und damit die Wettbewerbssituation des Unternehmens) bestimmt. Diese Situation skizziert die drei Entscheidungsbereiche bei der ungeliebten Datenverarbeitung, die die Unternehmensführung tunlichst nicht den EDV-Spezialisten allein überlassen sollte:

1. Welche Sicherheitsinvestitionen sind angesichts der hohen und wachsenden Ausfallrisiken dialoggestützter Betriebsabläufe unerläßlich?

2. Wie ist eine Kosten-Nutzenbewertete Kontrolle der Datenverarbeitung möglich? (Um Mißverständnissen vorzubeugen: Beeinflußbar sind hier ohnehin nur die Personalkosten des Rechenzentrums sowie die Kosten der Software-Erstellung und der Software-Wartung.)

3. Wie viele Chancen der Organisationsentwicklung wurden bereits auf dem Altar der Kompatibilität zu vorhandener Hardware und Software geopfert? (Gibt es geeignete Programmierwerkzeuge, um die Betriebsorganisation schnell und flexibel genug an geänderte Marktverhältnisse anzupassen?)

Es gibt demnach drei nicht delegierbare Handlungsparameter der Unternehmensführung im Bereich der Datenverarbeitung: Sicherheitskonzept, Software-Kosten-Kontrolle und Anpassungsgeschwindigkeit der Betriebsorganisation. Wer diese drei Handlungsparameter ernst nimmt, sollte nicht versäumen, sich mit interpretierenden und relationalen Datenbankbetriebssystemen auf fehlertoleranten Rechnern zu befassen.

Die Wilhelm Gienger GmbH, München, ist ein technischer, lagerhaltender Sortimentsgroßhandel für Sanitär- und Heizungsmaterial mit Filialen in Erlstätt (Chiemsec), Memmingen (Allgäu) und Wolfratshausen (Starnberger Sec). Sie setzt ein integriertes Dialogsystem für Angebotsverwaltung, Auftragsabwicklung, Bestellwesen, Lagerbewirtschaftung mit Hochregal-Lagersteuerung (zweistufiger Etikettenkommissionierung) und Tourenverwaltung mit Fuhrpark-Informationssystem für den hauseigenen Fuhrpark von über 30 Lkw ein. Die Anwendung umfaßt natürlich auch Finanzbuchhaltung und Personalverwaltung.

Duplex-System auf PDP-Basis

Die Hardware besteht aus einem fehlertoleranten Duplexsystem auf PDP-11/70-Basis von Digital Equipment mit Datenspiegelung der gesamten Datenbank (rund 2500 MB Plattenkapazität). An dieses System sind derzeit rund 150 Terminals und 25 Drucker angeschlossen. Damit sind 75 Prozent der Büroarbeitsplätze mit Bildschirmen ausgerüstet. Die Umstellung auf vernetzte VAX11 /750- und Micro-VAX-Systeme nach dem Cluster-Prinzip (Computer Interconnect) ist bereits eingeleitet und soll 1985 abgeschlossen sein.

Die Anwendersoftware wurde schlüsselfertig vom DEC-Systemhaus Viso-Data GmbH, Wien, mit dem interpretierenden, relationalen Datenbanksystem "Mumps" und dem fehlertoleranten Betriebssystem Visos erstellt. Die Softwarewartung ist geringfügig und erfolgt im Bildschirmdialog über Datenfernverarbeitung.

Bisher konnte das Gesamtsystem folgende Kriterien der Ausfallsicherheit einhalten:

- 99,9 Prozent Betriebsbereitschaft bei einem 24-Stunden-Betrieb an sieben Tagen pro Woche. Das bedeutet maximal acht Ausfallstunden pro Jahr.

- Die Wiederanlaufzeit bei Ausfall einer Systemkomponente beträgt höchstens eine Viertelstunde.

Dieses Anwendungsprofil macht das hohe Ausfallrisiko deutlich:

- zeitkritische Verkaufsabwicklung, vor allem in den Außenlagern;

- zeitkritische Hochregal-Lagersteuerung und Tourenverwaltung für einen Fuhrpark von über 30 Lkw;

- Abhängigkeit aller Organisationsabläufe vom Bildschirmdialog ("elektronischer Kugelschreiber " ) einschließlich Indexverwaltung des Mikrofilm-Archivs aller Lieferpapiere.

Daraus ergeben sich die drei folgenden Anforderungen an das Sicherheitskonzept:

Ausfallsicherheit

Der Einsatz komplexer Dialogsysteme liegt hauptsächlich darin begründet, daß verschiedene Arbeitsbereiche gleichzeitig unabhängig voneinander computerunterstützt arbeiten wollen. Die Effektivität ergibt sich aus der aktuellen Sofortinformation aller Beteiligten, die benutzerkonform aus der Datenbank bereitgestellt wird. Dabei - und das ist das Entscheidende - wird das Papier als Datenträger durch den Bildschirm ersetzt. Informationen auf Papier werden nur noch im Bedarfsfall ausgegeben. Sie sind nicht mehr Träger der Ablauforganisation. Mit der Anzahl der Dialogarbeitsplätze steigt jedoch das Ausfallrisiko. Einsatzabhängig kann der Systemausfall den Stillstand der Gesamtorganisation bedeuten.

Datenbankintegrität

Bei Dialogsystemen werden oft Tausende Transaktionen am Bildschirm "beleglos" abgewickelt. Daher kann ein Plattendefekt zum Totalverlust der noch nicht gesicherten Daten führen. Der Verlust von Daten, für die ein Beleg vorhanden ist, bedeutet die Nacherfassung in einer nur beschränkt verfügbaren Zeit. Dabei müßte die Reihenfolge der ursprünglichen Datenerfassung genau eingehalten werden, um den identischen Datenbestand wiederherzustellen.

Modulare Ausbaufähigkeit des Gesamtsystems

Wenn bei Dialogsystemen wie im Fallbeispiel der Anteil der Datenerfassung für die Stapelverarbeitung erheblich unter 40 Prozent sinkt, können Benutzerfrequenz, Anforderungen der Organisationsentwicklung und Belastung von Peripheriegeräten wie Platten- und Drucker kaum noch geplant werden.

Dennoch ist es nicht wünschenswert, auf immer größere Computer immer neuerer Generationen umstellen zu müssen. Vielmehr sollen weitere Systeme in den bisherigen Systemverbund integrierbar sein, wobei Geräte unterschiedlicher Leistungsklassen dem Verbund angehören können müssen.

Ausfallrisiko steigt mit Automatisierung

Mit der Abhängigkeit der Organisation vom Bildschirmdialog wächst unabdingbar die Forderung nach ständiger Betriebsbereitschaft des Rechnersystems. Das Ausfallrisiko steigt mit zunehmender Automatisierung. Technische Voraussetzung für die Ausfallsicherheit ist ein fehlertolerantes System. Dabei darf der Ausfall einer Systemkomponente (zum Beispiel ein Rechner oder eine Platte) nicht zum Ausfall der Computerleistung führen. Diese Fehlertoleranz wird durch die Bereitstellung redundanter Systemkomponenten erreicht, die bei Ausfall von Teilfunktionen planmäßig umorganisiert werden. Grundsätzlich gibt es dazu drei Möglichkeiten:

Back-up-System

Es werden zwei möglichst identisch konfigurierte Systeme installiert. Die zeitkritischen Anwendungen werden einem System übertragen. Dieselben Eingabedaten können dann auf dem anderen System synchron verarbeitet werden. Diese Lösung ist deswegen so aufwendig, weil jedes der beiden Systeme einzeln im Hinblick auf die Maximalbelastung ausgelegt werden muß.

Um diese unwirtschaftliche Redundanz abzumildern, werden häufig zeitunkritische Anwendungen (zum Beispiel Stapelverarbeitung) auf dem zweiten System gefahren. Dabei muß bedacht werden, daß die Dialogsysteme den Rechnern der konventionellen Datenverarbeitung (Mainframer) in der reinen Stapelverarbeitung erheblich (Faktor 4) unterlegen sind. Andererseits stehen immer weniger zeitunkritische Anwendungen zur Verfügung, je mehr sich der Bildschirmdialog im gesamten Büroverbund durchsetzt. Aus diesen Gründen wurde im Fallbeispiel diese Lösung verworfen.

Aktive Redundanz

Hierbei arbeiten autonome Rechner mit eigenem Betriebssystem unabhängig voneinander. Gleichzeitig sind sie jedoch durch einen Hochleistungskanal so zu einem lokalen Rechnerverbund gekoppelt, daß von jedem Terminal wechselseitig auf die Peripherie des anderen Rechnersystems (Platte Drucker etc.) zugegriffen werden kann. Die Arbeitslast wird ausgewogen auf die gekoppelten Rechner verteilt. Bei Komponentenausfall kann dadurch - wenn auch mit verminderter Leistung - die Bedienung der zeitkritischen Terminals aufrechterhalten werden. Wenn das Gesamtsystem auf die erforderliche DV-Kapazität dimensioniert wurde, beschränkt sich bei dieser Lösung die Komponenten-Redundanz auf die Plattenkapazität.

Da fehlertolerante Systeme auch eine Durchsatzoptimierung bewirken, bedeutet diese Lösung jedoch einen beachtlichen Leistungsabfall bei Komponentenausfall, der in der Regel Beeinträchtigungen des Betriebsablaufes nach sich zieht. Weil der Hardwareaufwand für die Ausfallsicherheit gering ist (nur Plattenredundanz), wurde dieser Lösungsweg in der vorliegenden Anwendung gewählt.

Systemvernetzung

Dennoch ist auch dieses Sicherheitskonzept insbesondere hinsichtlich des dritten Anforderungskriteriums (modulare Ausbaufähigkeit) unbefriedigend: Fällt ein Rechner aus, steht nur die halbe Computerleistung zur Verfügung. Im praktischen Fall wird bestätigt, daß zirka 20 Prozent der Rechnerleistung für jedes zusätzlich in den Rechnerverbund einbezogene System als Overhead für die Systemverwaltung benötigt wird. Daher wird der Lösungsansatz vernünftigerweise nicht in der Kopplung weiterer Rechner zu suchen sein.

Vielmehr sieht das sogenannte Cluster-Konzept eine Vernetzung ausgelagerter Teilfunktionen des Gesamtsystems vor. Dabei werden eine Reihe von Mikroprozessoren (zum Beispiel Micro-PDP-11/23) vernetzt, die lediglich Teilfunktionen übernehmen, zum Beispiel die Steuerung einer Anzahl von Bildschirmen (Terminal-Handler) oder von Druckern (Print-Handler) oder reine Sortieraufgaben (Sort-Handler), die bei kommerziellen Anwendungen einen Engpaß in der Massenverarbeitung darstellen können (zum Beispiel der Lagerort-Sort für Ausgabe der Sammelunterlagen).

Bei derartigen Netzen muß jedoch der zentrale Engpaß kommerzieller Anwendungen beachtet werden: Der Zugriff aller Terminals auf die gemeinsame, zentrale Datenbank. Daher muß ein gekoppeltes Rechnersystem (zum Beispiel 2xVAX-11/750) vor der Datenbank hauptsächlich als Data-Base-Handler in dem Rechnernetz eingebunden werden. Der Vorteil derartiger Rechnernetze ist offenkundig: Man kann gezielt die Teilfunktion verstärken, bei der Engpässe in der Rechnerleistung auftreten, ohne gleich neue Rechnersysteme einsetzen zu müssen.

Im Hinblick auf die Büroverbund-Systeme kann diese Rechnervernetzung dadurch erweitert werden, daß anstelle von Bildschirmen Arbeitsplatzcomputer mit eigenen Plattenspeichern eingesetzt werden. Die Arbeitsplatzcomputer können dann reine Terminalfunktionen im Rechnernetz im Zugriff auf die zentrale Datenbank übernehmen und zusätzlich Stand-alone-Anwendungen (zum Beispiel Textverarbeitung mit Archivverwaltung auf eigenen Winchester-Platten) übernehmen, ohne den Rechnerverbund zu belasten. Alle drei Kriterien für fehlertolerante Systeme (1. Ausfallsicherheit, 2. Datenbankintegrität, 3. modulare Ausbaufähigkeit) werden durch dieses Cluster-Konzept am besten erfüllt.

Gegenwärtig arbeitet das fehlertolerante DEC-System der Wilhelm Gienger GmbH noch nach dem Prinzip der aktiven Redundanz. Es besteht aus dem Zusammenwirken folgender Komponeten: Die Rechnerkopplung verbindet zwei (bis theoretisch neun) Rechnersysteme gleicher oder verschiedener Leistungsstärke innerhalb der DEC-PDP-11- oder DEC-VAX-Familie durch einen Hochgeschwindigkeitskanal (1-MB-Bus) zu einem logischen Datenbanksystem (zur Zeit 2xPDP-11/70, in Zukunft wahrscheinlich 2xVAX-11/750).

Das Cluster-Konzept soll bei der Wilhelm Gienger GmbH schrittweise bis Ende 1985 eingesetzt werden wobei dann etwa 200 Bildschirme augeschlossen sein werden.

Das Betriebssystem Visos der Viso-Data GmbH, Wien, gestattet den Anschluß von bis zu 200 Terminals und den Simultanbetrieb von 63 Programmen an einem Rechner. Es ist integraler Bestandteil des interpretierenden Datenbanksystems Mumps (ANSI-Spezifikation X11.1 1977): Das Betriebssystem Visos steuert autonom jedes der unabhängig voneinander arbeitenden Rechnersysteme PDP-11/70.

Fehlertolerantes System im praktischen Einsatz

Beide Betriebssysteme kommunizieren jedoch zusätzlich über den lokalen DMC-Kanal derart miteinander, daß von allen Terminals wechselseitig auf die angeschlossene Peripherie an beiden Rechnern zugegriffen werden kann. Dieser Rechnerverbund wird vom Betriebssystem Visos im sogenannten Transparent-Mode durchgeführt, das heißt unabhängig von der Schnittstellen-Spezifikation der angeschlossenen Peripherie. Alle Anwendungsprogramme werden auf beiden Systemen geführt.

Alle Bildschirme sind entsprechend der vom System überwachten Benutzerfrequenz gleichmäßig auf die beiden Systeme verteilt. Dabei werden alle Bildschirmleitungen Mikroprozessor-gesteuert verwaltet. Diese gestattet eine schnelle Umschaltung der zeitkritischen Bildschirme der Rechnerausfall auf den arbeitsfähigen Rechner bei gleichzeitiger Abschaltung von dessen als zeitunkritisch definierten Bildschirmen.

Das Betriebssystem stellt dabei einen ordnungsgemäßen Wiederanlauf (Check-point/Restart) sicher. Die Umschaltung der Bildschirme erfolgt aus Sicherheitsgründen nicht Betriebssystem-gesteuert, sondern per Handschaltung am Mikroprozessor. Vor Einführung der prozessorgesteuerten Bildschirm-Umschaltung hat dieser Vorgang in der Praxis etwa eine Stunde gedauert, weil die Benutzer trotz Ermahnung das System nicht rechtzeitig freigegeben haben.

Das fehlertolerante DEC-System mit einer sehr kurzen Wiederanlaufzeit von nur einer Viertelstunde benötigt eine Absicherung nicht nur gegen Rechnerausfall, sondern auch gegen Plattenausfall. Für zeitkritische Anwendungen reicht eine derartige Wiederanlaufzeit niemals für ein Nachfahren aller Datenbank-Veränderungen ab letzter Datensicherung aus. Außerdem würde das zweite Kriterium (Datenbankintegrität) gefährdet, wenn infolge Plattenausfalls ein Datenverlust bei einer "beleglosen" Transaktion eintritt. Deswegen wird die gesamte Datenbank auf verschiedenen Fest- oder Wechselplatteneinheiten geführt. Für jede Fortschreibung erfolgt simultan eine Datenspiegelung. Dadurch stehen zudem jedem Zeitpunkt zwei identische Datenbankbestände zur Verfügung. Das Betriebssystem überwacht den Ausfall der Datenspiegelung bei Plattenausfall.

Um den kommerziellen Engpaß "Datenbank-Zugriff" zu entschärfen, ist die gespiegelte Datenbank zur gemeinsamen Nutzung auf getrennte Plattenlaufwerke, angeschlossen an beide Rechner, aufgeteilt, obwohl sie logisch als eine Datenbank geführt wird. Auf jedem PDP-System wird eine Dateibibliothek verwaltet mit dem Hinweis, auf welchem System die Daten real gespeichert sind.

Alle Plattenlaufwerke in Fest- oder Wechselplattentechnik sind mittels Dual-Access-Kit zum wechselseitigen Zugriff auf jeden Rechner umschaltbar. Damit ist Aufrechterhaltung des Spiegelbetriebes bei Rechnerausfall möglich.

Im praktischen Einsatz beträgt bei Dialogsystemen das Verhältnis von Schreibvorgängen zu Leseoperationen bis zu 1:10. Diesen Umstand nutzt das Betriebssystem Visos für eine Zugriffsoptimierung über die jeweiligen Magnetkopfpositionen der gespiegelten Platten. Dadurch kann nicht nur der doppelte Schreibaufwand der Datenspiegelung kompensiert werden. Vielmehr läßt sich zusätzlich eine wesentliche Durchsatzsteigerung erzielen.

Die ständige Datenspiegelung der gesamten Datenbank löst nur das Hardware-Ausfallrisiko, nicht das Sicherheitsrisiko (Anschlag auf MAN-Rechenzentrum, Brandgefahr etc.). Deshalb wird die Datenbank unabhängig von der Datenspiegelung regelmäßig körperlich gesichert und der Sicherungsbestand räumlich getrennt verwahrt (täglich Datensicherung). Zu diesem Zweck sind neben den Winchester-Plattenlaufwerken (500-MB-Festplatten) 2 x 250 MB-Wechselplattenlaufwerke installiert.

Ergebnisse

Das fehlertolerante System arbeitet nach den üblichen Anlaufschwierigkeiten (besonders hohe Empfindlichkeit der Festplatten-Controller auf Spannungsschwankungen; einwandfreie dynamische Verwaltung der System-Fehlerdiagnosen) seit etwa eineinhalb Jahren fehlerfrei.

Durch gleichmäßige Verteilung der Prozessor- und der Ein-/Ausgabeaktivitäten sowie der Massenspeicherzugriffe ließ sich eine Durchsatzsteigerung von 80 Prozent je weiterem in den Rechnerverbund aufgenommen System erzielen. Zusätzlich bringt die Zugriffsoptimierung bei der Datenspiegelung eine Verbesserung des Antwortzeitverhaltens von mindestens 30 Prozent (bis zu 100 Prozent). Dieser Sachverhalt ist sehr wirksam meßbar bei Ausfall der Datenspiegelung infolge (Wechsel-) Plattenausfall.

Die Anforderungen an die Ausfallsicherheit hielt das System ein:

1. 99,9 Prozent Verfügbarkeit des Gesamtsystems bei 8760 Jahresbetriebsstunden.

2. Wiederanlaufzeit von maximal einer Viertelstunde bei Komponentenausfall. Trotz großer Funktionssicherheit der DEC-Systeme und der Anwendersoftware wurde in den anderthalb Jahren dreimal ein Ausfall eines Wechselplattenlaufwerkes festgestellt. Außerdem ist PDP-11 -Rechner einmal für zwei Tage ausgefallen. Ohne fehlertolerantes System hätten diese Systemausfälle zu kaum absehbaren Betriebsstörungen geführt.

Auch das Konzept der aktiven Redundanz führt zu erheblichen Beeinträchtigungen des dialogunterstützten Betriebsablaufes, wenn der Rechnerverbund regelmäßig an seiner Kapazitätsgrenze beansprucht wird. Dann führt bereits der Wegfall der Zugriffsoptimierung infolge Datenspiegelung zu einer deutlich spürbaren Verschlechterung des Antwortzeitverhaltens. erst recht natürlich bei Ausfall eines Rechners.

Fazit: Bei zeitkritischen Anwendungen im kommerziellen Bereich mit dialogunterstütztem Betriebsablauf ist der Einsatz fehlertoleranter Systeme unabweisbar. Aufgrund der praktischen Erfahrungen erweist sich das Konzept der "Vernetzung" von Systemkomponenten (Cluster) als zukunftsweisender Lösungsansatz.