Neu- und Fortschreibungsplanung für den DV-Anlagepark mittels Wahrscheinlichkeitsrechnung:

Benutzer erwarten 99 Prozent Verfügbarkeit

15.07.1983

Ein relativ komfortables Hilfsmittel, um die Verfügbarkeit von DV-Systemelementen abzuschätzen, bietet die Wahrscheinlichkeitsrechnung. Ein relativ komfortables Hilfsmittel, um die Verfügbarkeit von DV-Systemelementen abzuschätzen, bietet die Wahrscheinlichkeitsrechnung. Eine Einführung in dieses Verfahren gab Professor Werner Dirlewanger* vom Fachbereich Mathematik der Gesamthochschule Kassel in den Ausgaben 17 bis 19 der COMPUTERWOCHE. Als Abschluß folgen hier noch einige Rechenhilfen, die den Umgang mit der Verfügbarkeitsrechnung vereinfachen sollen.

Die im vorletzten Abschnitt vorkommende Gleichung (14) (CW 18/1983, Seite 35) verlangt die Multiplikation einer Reihe von Zahlen, die meist sehr knapp unter 1 liegen. Dabei sind gewöhnliche Taschenrechner (mit zum Beispiel nur 6 bis 10 Dezimalstellen) oft überfordert, so daß man für die Benutzerverfügbarkeit v_ben und die Benutzerausfallwahrscheinlichkeit f_ben siehe Gl. (14) + (15) sehr genaue Werte erhält. Dasselbe Problem tritt bei vielen anderen Formeln für Verfügbarkeitswerte auch auf , bei den früheren Gleichungen (4a) und (5), (CW 17, 1983, Seite 37). Man kann sich beispielsweise dann mittels folgender Identität helfen:

(1 - y)*(1 - x) = 1 - y - x + x * y (16)

Man wendet sie mehrfach an, was sich am Beispiel gegebenenfalls in Abschnitt II. 1 zeigen läßt. Dort war:

v_ges= v1 * v2 * v3

= 0,99949 * 0,99993 * 0,99973

= (1 - 0,00051) - (1 0,00007) * 0,99973

Mit Formel (16) wird:

v_ges = (1 - 0,00051 - 0,00007 + 0,375 * 10E-7) * 0,99973

Man sieht, daß in der Klammer die Zahl ganz rechts getrost vernachlässigt werden kann. Es ist also:

v _ges = (1 - 0,00058) * 0,99973

= (1 - 0,00058) * (1 - 0,00027)

Daraus ergibt sich mit (16), Gleichung auch ohne Taschenrechner leicht zu rechnen:

v_ges = 1 - 0,00058 - 0,00027 + 0,1566 * 10E-6

Wieder kann man die ganz rechts stehende Zahl getrost vernachlässigen und man erhält:

v_ges = 0,99915.

Hier ging es ebenfalls ohne Taschenrechner. Bei schwierigen Zahlenverhältnissen zeigt sich dann, daß unter Zuhilfenahme dieser Methode auch ein einfacher Taschenrechner ausreicht. Es ist keineswegs immer ein hochkomfortabler wissenschaftlicher Rechner mit vielen Mantissenstellen und Gleitkomma-Arithmetik erforderlich.

Die Grundidee kann man ausbauen, wie das Beispiel der Gleichung (1 4) vom vorigen Abschnitt zeigt. Sie kann mittels Gleichung (3) wie folgt umschrieben werden:

V_ben = (1 - f1) * (1 - f2) * * * (1 - f8).

Anders geschrieben:

V_ben = (1 - f1) * (1 - f2) * * * (1 - fk).

wobei k die Anzahl der Faktoren ist (im Beispiel hier ist k = 8). Es ist laut Gleichung (15) f_ben = 1 - v_ben die aus Benutzersicht gesehene Ausfallwahrscheinlichkeit des Gesamtsystems. Also gilt für sie:

f_ben = 1 - (1 - f1) * * * (1 - fk).

Um f_ben numerisch einfacher ausrechnen zu können, kann man folgende Näherungsformel gebrauchen:

1 - (1 - f1) (1 - f2) * * * (1 - fk) = f1 + f2 +. . . + fk. (17)

Zu der Formel sei als Faustregel bemerkt, daß ihr Fehler für 1<= k <= 10 und 0<= fi <= 0,005 im Rahmen der hier angestellten Betrachtungen wegen seiner Geringfügigkeit vernachlässigt werden kann. Die Faustregel ist im vorliegenden Beispiel ungefähr erfüllt, also erhält man den Wert von f_ben , durch Addition der acht Ausfallwahrscheinlichkeiten f1 bis f8:

f_ben = (1,8 + 1,9 + 3,2 + 3,3 + 6,4 + 1,4 + 0,1 + 1,1) * 10E-3 = 19,2 * 10E-3.

Betrachtet man diese Summe, dann fällt auf, daß der vorletzte Summand (es ist f7) mit Abstand der kleinste ist. Dank der Reserveleitung ist also die Datenfernübertragung so gut, daß zuerst an anderen Stellen im System verbessert werden muß. Da jedoch hier die Systembestandteile schon aus relativ sicheren Teilkomponenten zusammengesetzt sind, läßt sich eine grundlegende Verbesserung nicht ganz auf einfache Art erreichen. Jedoch können an vielen Stellen Reserveeinheiten eingebaut werden, wie

Komponente Nr. 1: sogenannte unterbrechungsfreie Stromversorgung

Komponente Nr. 2: Modulare Klimaanlage mit Reserve-Klima-Schränken

Komponente Nr. 3: Reserveeinheiten beziehungsweise Modularisierung bei Prozessor, Hauptspeicher, Frontendrechner etc.

Komponente Nr. 4. Ein oder zwei zusätzliche Plattenlaufwerke als Reserveeinheiten.

Die Gesamtausfall-Wahrscheinlichkeits-Werte dieser Komponenten ließen sich damit leicht auf den zehnten Teil herabdrücken, womit f_ben dann nur noch etwa 0,01 entspräche und damit ein außerordentlich guter Wert erreicht wäre. Von verbleibenden Störgrößen hätte dann die Software den größten Anteil, so daß nun an dieser Stelle Verbesserungen nötig würden; es ist aber fraglich, ob und wie schnell sich in der Praxis dabei Erfolge erzielen lassen. Es blieben noch Änderungen organisatorischer Art, die f6 noch verbessern könnten; da f6 = 1,4 * 10E-3 schon ein sehr guter Wert ist, fallen einem große Erfolge nicht in den Schoß. Eher aussichtsreich erscheint es, durch Wartungsmaßnahmen an den Terminals den Wert von f8 noch zu optimieren; guten Erfolg verspreche sicher auch, bei größeren Terminalgruppen ein gemeinsames Reserveterminal aufzustellen.

Ein anderer Punkt der Rechenungenauigkeit aufgrund zu geringer Stellenzahl ist die Bildung von Potenzen von Zahlen, die sehr nahe an 1 liegen. Man kann sich dann gegebenenfalls der mehrfachen Anwendung folgender Formel bedienen, um zu genaueren Ergebnissen zu kommen:

( 1 +- X) 2 = 1 +- 2X + X 2. (18)

Stationärer Fall maßgebend

Datenverarbeitungssysteme oder deren Subsysteme bestehen jeweils aus mehreren Systemkomponenten. Hier ist die Frage nach der Wahrscheinlichkeit interessant, mit der sich zu einem zufälligen Zeitpunkt ein solches System oder Subsystem in einem bestimmten Zustand befindet. Er läßt sich mittels eines n-dimensionalen Vektors

X = (X1, X2....... ,Xn)

beschreiben, wobei n die Zahl der enthaltenen Systemkomponenten ist. Dabei gibt Xi den Zustand der iten Systemkomponente an (Xi = 0 bedeutet, daß Nr. i ausgefallen ist bzw. Xi = 1 bedeutet, daß Systemkomponente i betriebsbereit ist).

Setzen wir, wie früher schon angedeutet, mehrere einschlägige sogenannte Unabhängigkeitsannahmen voraus, nehmen wir ferner an, daß sich die Systemkomponenten bezüglich der Ausfälle gegenseitig nicht beeinflussen, und vernachlässigen wir den sogenannten Einschwingvorgang: Dann ist der "stationäre Fall" maßgebend, und die Wahrscheinlichkeit w(X1, ...... ,Xn), das betrachtete System im Zustand X =(X1, ..... ,Xn) vorzufinden, ist das Produkt:

P1(X1) * P2(X2) * ....... *Pn(Xn),

mit Pi(Xi) - fi falls Xi = 0, (19)

und Pi(Xi) - Vi falls Xi = 1.

Betrachten wir ein System (es sei n=3), das aus zwei Prozessoren (Komponenten 1 und 2) und dem Hauptspeicher (Komponente 3) einer DV-Anlage besteht. Dann ist w(1,1,0) die Wahrscheinlichkeit, daß zwar beide Prozessoren betriebsbereit, der Hauptspeicher aber defekt ist, also Totalausfall vorliegt. Dagegen sind w(0,1,1) und w(1,0,1) Wahrscheinlichkeiten für den Ausfall eines der beiden Prozessoren; in diesem Fall läuft die Anlage zwar mit verminderter Leistung, versagt aber nicht ganz. w(0,0,1) ist die Wahrscheinlichkeit dafür, daß zwar der Hauptspeicher betriebsbereit ist, beide Prozessoren aber defekt sind, also auch Totalausfall vorliegt. Es gibt folglich mehrere Zustände (insgesamt sind es: (0,0,1), (0,1,0), (1,0,0), (0,0,0), (1,1,0)

die Totalausfall darstellen. Die Summe der Wahrscheinlichkeiten für diese Zustände ist die Wahrscheinlichkeit für Totalausfall:

Der Fall "verminderte Leistung" tritt in Zuständen (0,1,1) und (1,0,1) auf. Die Wahrscheinlichkeit für "verminderte Leistung" ist also:

w(verminderte Leistung) = w (0, 1, 1) + w(1,0,1) = f1 * V2 * V3 + f1 * V2 * f3

Es gibt jedoch nur einen Zustand der Gruppe, in dem sie volle Leistung bringt; die Wahrscheinlichkeit hierfür ist:

w(volle Leistung) = w(1, 1, 1),

also: V_ges = V1 * V2 * V3

Dies ist die frühere Formel (4a) für den Fall n=3, die auch im Beispiel

II.1 gilt. Analoge Überlegungen führen zu weiteren Formeln, die in früheren Abschnitten angegeben sind. So führt

V_ges = w(0, 1) + w(1,0) + w(1, 1)

zu Formel (9), in Abschnitt III.1.a und

V_ges = w(0, 1, 1) + w(1,0, 1) + w(1,1,0) + w(1,1,1)

zu Formel (10) in Abschnitt Ill.1.b.

Die bisherigen Betrachtungen sollten zeigen, daß man mit verhältnismäßig wenig Aufwand klare und mit Zahlen belegbare Antworten zu Zuverlässigkeitsfragen im RZ-Bereich geben kann. Aus der Sicht der Wahrscheinlichkeitstheorie ist die angewandte Methode eher simpel. Man muß sich folglich im Klaren darüber sein, daß genau genommen nur ein "Abschätzen von Verfügbarkeit oder Fehlerwahrscheinlichkeiten" und nicht eine exakte Berechnung erfolgt.

Es wird also klar, wie die Verfügbarkeit von Gruppen von deren Komponenten abhängt; auch läßt sich zeigen, wie "gut" die Komponenten einer gegebenen Konfiguration mindestens sein müssen, um eine gewisse Mindestverfügbarkeit des betrachteten jeweiligen Gesamtsytems nicht zu unterschreiten. Als Beispiel hierfür soll eine Prozessorengruppe dienen. Man kann leicht rückrechnen, wie sehr sich die Leistungsfähigkeit der Prozessoren verschlechtern darf, bis die Benutzerverfügbarkeit deutlich absinkt.

Ein Beispiel zur Verfügbarkeit von Gruppen ist das DV-Gesamtsystem im letzten Abschnitt. Dort zeigt sich, wie gut die Komponenten sein müssen, um eine Benutzerverfügbarkeit zu erreichen, die den Terminalbenutzer zufriedenstellt; es wird aber auch ersichtlich, daß man das Ziel auch mit weniger guten Komponenten erreichen kann, wenn man Reserveeinheiten einsetzt.

Nicht immer, aber in sehr vielen Fällen, liegen Organisationsformen des Anlagebetriebs vor, bei denen die Reserveeinheiten genutzt werden können, wenn sie gerade funktionsfähig sind, und nicht nur in Standby-Stellung stehen. Dann liegt die "überdurchschnittliche Leistung" des Systems über der Nennleistung und dieser durchschnittliche Wert kann zahlenmäßig ermittelt werden.

Die Betrachtungen gingen der Einfachheit halber oft von einem Rund-um-die-Uhr-Betrieb aus. In der Praxis ist dies jedoch oft nicht der Fall. Meist gibt es neben den Leerzeiten auch Zeiten für vorbeugende Wartung. Liegen solche Stillstände vor, dann sind sie aus der Rechnung wegzulassen und es zählen nur die Intervalle mit wirklich geplanten Betriebszeiten. Dann ergibt sich ein sozusagen zusammengestückelter Ablauf, auf den die beschriebenen Methoden ebenfalls anwendbar sind.

*Professor gehört an der Gesamthochschule Kassel dem Fachbereich Mathematik an und vertritt dort das Fach Informatik; er leitet ferner das Universitätsrechenzentum.

_AU:Dr. Werner Dirlewanger