Neu- und Fortschreibungsplanung für den DV-Anlagenpark mittels der Wahrscheinlichkeitsrechnung:

Benutzer erwarten 99 Prozent Verfügbarkeit

06.05.1983

"Die Verfügbarkeitsanforderungen an DV-Systemelemente werden zunehmend von denjenigen Werten bestimmt, die der DV-ferne Endbenutzer von seinem Terminal aus sieht", so zu lesen in einem "Spotlight" der CW in der Ausgabe vom 10. Dezember letzten Jahres, auf Seite 17. Außerdem ist an dieser Stelle beschrieben, wie man etwa mit Multiprozessorsystemen die Wahrscheinlichkeit, daß ein System in einem vorgesehenen Zeitraum nicht versagt, erhöhen kann. Hier nun sollen diese pauschalen Aussagen konkretisiert werden.

Es sei ein Timesharingsystem betrachtet, das aus acht Komponenten besteht (g = 8).

Komponente Nr. 1 Stromversorgung

Komponente Nr. 2 Klimaanlage

Komponente Nr. 3 Zentrale Hardware, ausgenommen Hintergrundspeicher

Komponente Nr. 4 Hintergrundspeicher

Komponente Nr. 5 Software

Komponente Nr. 6 Operating

Komponente Nr. 7 Datenvernübertragungsstrecke

Komponente Nr. 8 Datenendgerät

Komponente Nr. 1: Die Netzteile im Rechner seien so gestaltet, daß sie Kürzest-Unterbrechnungen des Stromnetzes (Ausfall einiger Halbwellen bei Schaltvorgängen im Elektrizitätswerk, Netzunterbrechungen bis zu einigen Zehntelsekunden etc.) zu überbrücken vermögen; Stromausfälle ab Sekundendauer können jedoch nicht mehr überbrückt werden. Ein Notstrom-Aggregat sei nicht vorhanden. Damit führen Netzausfälle ab etwa Sekundendauer zum Rechnerstillstand. Es sei nun beobachtet worden, daß innerhalb eines Jahres neun Netzausfälle mit nachfolgendem Rechnerstillstand stattfanden. Die Gesamtdauer dieser Netzausfälle macht zwar nur wenige Sekunden aus, die nachfolgend durchzuführende Wiederanlaufprozedur der Rechenanlage dauert aber jeweils eine gewisse Zeit (angenommen seien 15 Minuten und weitere 15 Minuten, um die Datenbanken konsistent zu machen und die Teilhabersysteme eine zu "restarten"). Für unsere Betrachtungen kann man vereinfachend so tun, als ob das System bei Wiederkommen des Netzstromes sofort wieder voll funktioniert, aber die Netzausfalldauer um die Zeit der Wiederanlaufprozedur länger ist. Damit ergibt sich im vorliegenden Beispiel eine gesamte Netzausfalldauer von 9 x (15 + 15) Minuten. Gemäß Gleichung (1) ist dann bei einer geplanten Betriebszeit von werktäglich 7.00 Uhr bis 17.00 Uhr (= jährlich rund 250 Tage á zehn Stunden) Online-Betrieb:

f1 = (9 x 1/2Std.)/(250 x 10Std.) = 1,8 x 10-³

Komponente Nr. 2: Bei Betriebsunterbrechung wegen Störung in der Klimatisierung kann man analog zum Netzausfall vorgehen: Die Wiederanlaufzeit des Rechensystems nach Zwangsabschaltung infolge Klimastörung rechnet man zur Ausfalldauer der Klimaanlage hinzu. Der dabei mögliche Fall, daß sich ein sehr kurzer Klimaausfall mit einem Netzkurzausfall zeitlich überdeckt und man so fälschlicherweise die Wiederanlaufzeit zweimal in Anrechnung bringt, ist äußerst selten, und der dadurch bedingte Rechenfehler darf hier getrost vernachlässigt werden. Klimastörung ist in vielen Rechenzentren leider ein alltägliches Ereignis, und es kommt vor, daß die Gesamtausfallwahrscheinlichkeit der Klimaanlage mehrere Prozent beträgt. Hier sei als Beispiel jedoch eine relativ gute Klimaanlage angenommen, die in zwei Jahren (Rund-um-die-Uhr-Betrieb) auf insgesamt zehn Stunden für kleinere Ausfälle kam und einen Tag wegen einer größeren Reparatur ausfiel.

Dann ist:

f2 = (24 x 10Std.)/(2 x 365 x 24 Std.) = 1,9 x 10-³

Komponente Nr. 3: Die zentrale Hardware umfasse im vorliegenden Beispiel einen Prozessor aus der Tabelle von Abschnitt III.1 ganz unten. Seine mit fz1 bezeichnete Ausfallwahrscheinlichkeit ist fz1 = f05 = 0,7 x 10-³. Für die restlichen Teile (E/A-Prozessor, Hauptspeicher, Frontendrechner etc.), deren Konfiguration hier nicht weiter beschrieben sei, sei angenommen, daß die Gruppe auf eine Ausfallwahrscheinlichkeit von fz2 = 2,5 x 10-³ kommt. Die Ausfallwahrscheinlichkeit der Komponente Nr. 3 ist dann f3 = 1 - (1-fz1) x (1-fz2), und es wird: f3 = 3,2 x 10-³.

Komponente Nr. 4: Als Hintergrundspeicher diene ein Plattenspeicher, der neben dem Controller acht vollbenutzte Laufwerke (also kein Reservelaufwerk) besitzt. Die Ausfallwahrscheinlichkeit des Controllers und der Laufwerke sei: fcon = 10 4 und flaufw = 0,4 x 10-³.

Die Berechnung gemäß Abschnitt 11. 2 ergibt:

f4 = 3,3 x 10-³.

Komponente Nr. 5: Für die Anlage sei angenommen, daß sie im Sinne eines Teilhabersystems betrieben werde und im Onlinebetrieb eine Reihe von Bildschirmen mit jeweils speziellen Anwenderprogrammen bediene. (Beispiel: Online-Dateneingabe mit sofortigem Eintrag in die Dateien, Korrektur, Abfragen etc. für ein Versicherungsunternehmen, bei dem Vertragsabschlüsse, Änderungen und ähnliches direkt vom Bildschirm aus gemacht werden.) Jeder Fehler sowohl im Betriebssystem wie auch in der laufenden Anwendersoftware, der zu einer Betriebsunterbrechung führt, bedeutet einen Ausfall der zentralen Komponente "Software". Natürlich lassen sich solche Ausfälle nicht immer absolut eindeutig als Softwarefehler identifizieren, so daß es zum Teil im Ermessen des Beobachters liegt, ob er eine Betriebsstörung als Softwarefehler einstuft oder nicht.

Zu den Auswirkungen solcher Fehler sei noch ergänzt, daß sie oft nicht einen totalen Kollaps des Betriebes mit anschließendem Kaltstart bedeuten. Vielmehr wirken sie sich oft als Kurzunterbrechung aus, die beispielsweise durch einen Warmstart oder eine Normierung des Betriebssystems behoben werden kann. Als Beispiel sei angenommen, daß die genaue Durchsicht der Betriebsprotokolle ergeben habe, daß es im Laufe eines Vierteljahres doch einige Dutzend derart einzustufender Betriebsunterbrechungen waren, - mit einer Gesamtdauer von rund einer Stunde Betriebsunterbrechung. Weiter sei angenommen, daß in einem Fall durch Bedienungsfehler die Datenbank zerschossen worden sei, was drei Stunden Regenerierzeit benötigt habe. Damit ist

f5 = (1 + 3Std.)/(1/4 x (250 Tage á 10 Std.)) = 6,4 x 10-³.

Komponente Nr. 6: Bedienungsfehler im Operating sind unvermeidlich und kommen je nach Ausbildungs- und Kenntnisstand des Personals häufiger oder seltener vor. Bei gewissenhafter Betriebsbuchführung lassen sie sich mehrheitlich recht gut aus der Gesamtmenge aller Fehler herausfiltern. Im Laufe eines Jahres kommen nämlich diverse Fehler vor, die teils zu simplem Stocken des Betriebs, teils zu Warmstarts oder Betriebsnormierungen und gelegentlich auch zu Coldstarts führen. Ein Beispiel, das der Bedienungsmannschaft sicherlich kein schlechtes Zeugnis ausstellt, ist die Annahme, daß pro Monat einige Warmstarts und vielleicht ein Coldstart auf Bedienungsfehler zurückgehen. Weiterhin gebe es - so die Annahme einige falsch gestartete Onlineprogramme pro Jahr und einige Auflagefehler bei Bändern und Platten. Dies bedeute insgesamt dreieinhalb Stunden Betriebsunterbrechung für den Online-Service innerhalb eines Jahres. Also ist:

f6 = (3,5Std.)/(250 Tage á 10 Std.) = 1,4 x 10-³.

Komponente Nr. 7: Die Datenfernübertragungsstrecke beinhalte im vorliegenden Beispiel die Modems, die von der Post gemietete Datenleitung und Konzentratoreinrichtungen, um mehrere Bildschirme über einem gemeinsamen Datenweg zu betreiben. Weiter sei angenommen, daß es einen zweiten Leitungsweg gebe, auf den bei Übertragungsstörung automatisch umgeschaltet werde. Mit Betrachtungen, wie sie in den Abschnitten II bis IV angestellt wurden, sei ermittelt worden, daß

f7 = 1 x 10hoch4

ist. Dies, so läßt sich sagen, ist ein sehr guter Wert, der wesentlich auf den Einsatz einer Reserveleitung zurückgeht, und der natürlich sehr betriebssichere Modems und Konzentratoren voraussetzt.

Komponente Nr. 8: Bei vielen typischen Onlineanwendungen stehen zwar oft mehrere Terminals nahe beieinander (so etwa je ein Bankbuchungsterminal an jedem von drei Bankschaltern in einer Bankzweigstelle), jedoch bieten diese oft keine gegenseitige Aushilfe. Im vorliegendem Beispiel liege ein solcher Mißstand vor, was man sich in praxi etwa so vorstellen kann, daß die drei Bankschalter relativ kräftig von Kunden frequentiert werden, so daß der Schalterangestellte bei Ausfall eines Terminals nicht etwa das des Kollegen benutzen kann. Zur Ermittlung der Verfügbarkeit der Terminals sei so vorgegangen, daß die geplante Betriebszeit (sie enthält natürlich nicht vorgeplante Wartungszeiten und vorbeugende Instandhaltung) aller am System vorhandenen Terminals des betreffenden Typs während eines Jahres errechnet und demgegenüber festgestellt wird, wieviel Ausfallstunden innerhalb dieser Zeit angefallen sind. In unserem Beispiel sollen bei insgesamt 15 Terminals 27 000 geplante Betriebsstunden und 29,5 Störungsstunden angefallen sein. Damit ist:

f8 = (25 Std.)/(27000) = 1,1 x 10-³.

Gesamtsystem: Die Benutzerverfügbarkeit ergibt sich aus den Werten von f1 bis f8 mittels der Gleichungen (3) und (14). Die Benutzerausfallwahrscheinlichkeit ist

fben = 1 - vben, (15) und es ergibt sich hier:

fben = 19,2 x 10-³.

Damit liegt die Benutzerausfallwahrscheinlichkeit bei rund zwei Prozent. Dies ist angesichts der Tatsache, daß derzeit viele Rechenzentren noch bei drei bis sechs Prozent liegen, kein schlechter Wert. Er darf jedoch nicht darüber hinwegtäuschen, daß das Benutzerbedürfnis ganz eindeutig höher liegt - nämlich bei einem Prozent -, und daß dieser Wert anzustreben ist.

*Professor Dr. Werner Dirlewanger gehört an der Gesamthochschule Kassel dem Fachbereich Mathematik an und vertritt dort das Fach Informatik; zudem leitet er das Universitätsrechenzentrum.