Neu- und Fortschreibungsplanung für den DV-Anlagenpark mittels der Wahrscheinlichkeitsrechnung:

Benutzer erwarten 99 Prozent Verfügbarkeit

29.04.1983

"Die Verfügbarkeitsanforderungen an DV-Systemelemente werden zunehmend von denjenigen Werten bestimmt, die der DV-ferne Endbenutzer von seinem Terminal aus sieht"; so zu lesen in einem "Spotlight" der CW in der Ausgabe vom 10. Dezember letzten Jahres, auf Seite 17. Außerdem ist an dieser Stelle beschrieben, wie man etwa mit Multiprozessorsystemen die Wahrscheinlichkeit, daß ein System in einem vorgesehenen Zeitraum nicht versagt, erhöhen kann. Hier nun sollen diese pauschalen Aussagen konkretisiert werden.

Beispiel III. 3

Plattenspeicher mit Reservelaufwerken

Das betrachtete System sei ein Plattenspeicher, der S = 600 MByte speichern soll und aus einem Controller und m = 4 Laufwerken (mit je 200 MByte) besteht. Es ist also ein Reservelaufwerk vorhanden. Der Kontroller sei Komponente Nr. 1 und habe die Verfügbarkeit V1. Die Laufwerke seien die Komponenten Nr. 2, 3, 4 und 5; deren Verfügbarkeiten seien alle gleich v2.

Die Gesamtverfügbarkeit Vges ist die Summe der Wahrscheinlichkeiten für alle diejenigen Zustände, in denen sowohl der Controller wie auch mindestens drei Laufwerke arbeitsfähig sind. Die Formel für die Gesamtverfügbarkeit lautet:

Vges = 4 x V1 x (1 - V2) x V2 3 + V1 x V2 4 (13)

Angenommen, für Controller und Laufwerke gelten die Annahmen aus Beispiel II. 2, nämlich Controller-Ausfallwahrscheinlichkeit = 0,24 x 10 -5 und Laufwerkausfallwahrscheinlichkeit = 0,24 x 10 -3

(daß heißt V1 = 0,999997 und V2 = 0,999760),

dann ergibt sich

Vges = 0,99999665 und fges = 0,335 x 10 -5.

Damit verringert hier ein einziges Reservelaufwerk die Gesamtausfallwahrscheinlichkeit auf 1/216 (vergleiche Beispiel II. 2; dort war fges = 0,723 x 10 -3), was eine enorme Verbesserung bedeutet.

Grenze nach oben

Die Formel für den allgemeinen Fall mit m Laufwerken, von denen mindestens k funktionsfähig sein müssen, führt zu einer relativ komplizierten Formel, die deshalb hier weggelassen sei. Aus ihr ersieht man, daß es wenig Sinn hätte, hier noch ein zweites oder gar noch mehr Reservelaufwerke einzusetzen; denn der Wert von Vges ist nach oben durch V1, begrenzt. Mit anderen Worten: Da die Zuverlässigkeit des Plattenspeichers als Ganzes nicht besser als der zentrale Teil (der Controller) werden kann, ist es nicht sinnvoll, die Gruppe der Laufwerke besser als diesen zentralen Teil zu machen.

Beispiel III. 4

Plattenspeicher mit zusätzlichem Controller

Das betrachtete System sei ein Plattenspeicher, der insgesamt S=400 MByte speichern soll, aber m= 4 Laufwerke zu je 2 00 MByte besitzt; er enthält also zwei Reservelaufwerke. Für die Laufwerke und den Controller sollen die selben Verfügbarkeitswerte wie im obigen Beispiel III. 3 gelten (V1 = 1 - 0,3 - 10 -5 und V2 = 1 - 0,24 - 10 -3).

Obwohl im Beispiel II. 2 (dort gab es kein Reservelaufwerk) ein zusätzlicher Controller keinen Vorteil brachte, sei nochmals diese Frage ausgeschnitten; denn man könnte hier je zwei Laufwerken einen Controller zuordnen. Der Speicher hätte auch dann noch 400 MByte Kapazität aufzuweisen, wenn ein Controller ausfiele, während bei nur einem vorhandenen Controller dessen Störung den Totalausfall des Plattenspeichers bedeutete.

Die Berechnung der Gesamtverfügbarkeit basiert auf komplizierteren Formeln, die hier nicht angegeben seien. Es seien lediglich die zahlenmäßigen Resultate genannt.

Mit dem obigen Wert für V1 und V2 ergibt sich die Gesamtverfügbarkeit:

Vges1 = 1 - 3,0 x 10 -6 für den Fall mit einem Controller,

Vges2 = 1 - 2,9 - 10 -9 für den Fall mit zwei Controllern.

Rechnen statt fühlen

Damit kann - wie erhofft - hier mit einem zweiten Controller die Gesamtverfügbarkeit erheblich verbessert werden. Betrachtet man sich die Formeln für Vges1 und Vges2 jedoch näher, dann steht man, daß sie die Möglichkeit beinhalten, daß Vges2 auch schlechter als Vges1 ausfällt. Dazu sie folgendes Beispiel betrachtet: Es sei, wie bisher,

V1 = 1 - 3,0 x 10 -5, aber es sei

V2 = 0,6 (also sehr schlechte Laufwerke). Dann wird:

Vges1 = 0,82079754,

Vges2 = 0,82079724.

Es ergibt sich also in der Tat hier eine (allerdings sehr geringe) Verschlechterung, wenn man einen zweiten Controller hinzunimmt. Daß und unter welchen Bedingungen dies eintritt, läßt sich nicht nur mittels Zahlenbeispielen zeigen, sondern auch allgemein, das heißt unter Verwendung der Gleichungen für Vges2 und Vges1. Dies soll aber der Kürze wegen hier unterbleiben. Ebenso sei auf eine anschauliche Deutung des Ergebnisses, die durchaus möglich ist, der Kürze wegen verzichtet. Auch wird ein Wert von V2 = 0,6 in der Praxis kaum vorkommen.

Also könnte man dieses Beispiel zunächst als rein akademisch ansehen. Dazu ist jedoch zu sagen, daß es mit voller Absicht hier aufgeführt wurde. Es soll stellvertretend für die vielen Fälle stehen, in denen eine ganze Zahlenrechnung Ergebnisse zutage fördert, die nicht dem gefühlsmäßig Erwarteten entsprechen. Wenn nun also die Zuverlässigkeit eines Systems verbessern will, sollte man immer erst anhand der Rechnung prüfen, ob eine beabsichtigte Umkonfiguration und/oder Erweiterung überhaupt eine Erhöhung von Vges beinhaltet, und ob die Verbesserung, falls sie im Prinzip eintritt auch in der gewünschten zahlenmäßigen Höhe zu erwarten ist.

IV. Systeme mit "nicht unbenutzten" Reserveeinheiten

Über die in den Abschnitten II und III beschriebenen typischen Problemstellungen hinaus tritt in der Praxis oft eine weitere Klasse von Fällen auf. Bei dieser werden im täglichen Betrieb alle vorhandenen Komponenten der Anlage von genutzt. Tritt nun ein Ausfall einer Komponente ein (oder der Ausfall eines Plattenlaufwerkes), gilt der Betrieb - im Gegensatz zu Abschnitt III - solange nicht als zusammengebrochen, solange wenigstens eine Mindestanzahl gleichartiger Komponenten noch funktionsfähig ist (beispielsweise mindestens sechs von acht Laufwerken). Erst wenn diese Mindestzahl unterschritten ist, betrachtet man das System als nicht mehr mit der Nennleistung laufend, sondern als (total-)ausgefallen.

Bedingter Erwartungswert

Die zur Erbringung der Nennleistungswerte (Rechenleistung R, Speicherkapazität S etc.) nötige Menge an Komponenten (etwa zwei von mehreren Prozessoren, drei von fünf Magnetbandmaschinen) stellte die "Grundkonfiguration" dar, während die darüber hinaus vorhandenen Komponenten die Reserveeinheiten sind. Für die Gesamtverfügbarkeit das Ausfallverhalten des Systems bei Totalausfall - gelten also die Betrachtungen und Berechnungen von Abschnitt III.

Während dort jedoch die Reserveeinheiten, auch wenn sie funktionsfähig sind, unbenutzt bleiben (also immer genau die diversen Nennleistungswerte des Systems in Anspruch genommen werden), werden bei der hier betrachteten Klasse von Fällen immer alle funktionsfähigen Komponenten von genutzt. Anders gesagt: Es wird hier ausgenutzt, daß das System (wenigstens zeitweilig) Leistungswerte, die größer als R, S, etc. sind, erbringen kann. Damit wird zusätzlich zur Verfügbarkeitsfrage die Frage interessant, welche mittleren Leistungswerte R, S, etc. das System - gemittelt über diejenigen Zeitabschnitte, in denen es nicht total ausgefallen ist - erbringt.

Dies ist die Frage nach dem "bedingten Erwartungswert" der Leistung unter der Bedingung, daß wenigstens der Nennleistungswert erbracht wird. Da die allgemeinen Formeln den hier vorgegebenen Rahmen sprengen würden, sei gleich auf Beispiele eingegangen.

Beispiel IV. 1

Betrachtet sei Fall a) von Abschnitt III, 1.

Mit den Zahlenwerten des Beispiels wird:

R = 1,9986 x R

Beispiel IV. 2

Betrachtet sei Fall b) von Abschnitt III. 1.

-Mit den Zahlenwerten des Beispiels wird:

R = 1,4993 x R

Beispiel IV. 3

Betrachtet sei der Fall c) von Abschnitt III. 1.

Mit den Zahlenwerten des Beispiels wird:

R = 1,5996 x R

Vergleich der drei Beispiele:

Im Fall IV. 1 wird fast die doppelte Nennleistung und damit die größte Leistung der drei Beispiele erreicht; gleichzeitig wird (siehe Abschnitt III. 1) auch die beste Verfügbarkeit erreicht; gleichzeitig wird (siehe Abschnitt III. 1) auch die beste Verfügbarkeit erreicht. Im Fall IV. 2 wird (siehe Abschnitt III. 1) bei kaum schlechterer Verfügbarkeit als bei VI. 1 noch fast die eineinhalbfache Nennleistung erreicht. Daß Verfügbarkeit und mittlere Leistung natürlich nicht miteinander gekoppelt sind, zeigt der Fall IV. 3: Diese Konfiguration erreicht eine höhere mittlere Leistung als diejenige von IV. 2, obwohl sie (siehe Abschnitt III. 1) eine erheblich schlechtere Verfügbarkeit als die von Fall IV. 2 aufweist.

V. Die Benutzerverfügbarkeit von DV-Systemen

Der Benutzer eines DV-Systems, beispielsweise der am interaktiven Terminal, sieht das gesamte DV-System als eine "black box". Für ihn ist es ohne Unterschied, ob die von ihm gewünschten Tätigkeiten nicht bearbeitet werden, weil ein Defekt im Stecker des Bildschirmgerätes dieses ohne Strom läßt, oder weil ein Modem der DFÜ ausfällt, oder weil ein Fehler im Betriebssystem vorliegt und damit das System "down" ist, ober aber weil die Zentraleinheit aufgrund einer Störung in der Klimaanlage außer Betrieb ist, obwohl die Zentraleinheit eigentlich funktionsfähig wäre. Ob Hardwarefehler, Softwarefehler, Fehler im Operating oder Ausfall bei Umgebungsbedingungen (Kraftstromversorgung, Klimatisierung etc.), in jedem Fall ist der Benutzer behindert; denn es fehlt ihm die EDV-Unterstützung. Er toleriert dabei erfahrungsgemäß in etwa einem Prozent aller Fälle das Nichterbringen der Leistung. Bei stärkerer Störungsrate wird er deutlich in seiner Arbeit gehemmt und reagiert entsprechend ärgerlich.

Das System kann man sich bezüglich der Benutzersicht als aus folgenden Komponenten aufgebaut denken: Interaktives Terminal (oder auch RJE-Station), Modems, Leitungswege, Frontendrechner, Hauptrechner, Massenspeicher (beispielsweise Platten für Permanentfiles und andere Daten), Klimaanlage, Stromversorgung, Betriebssystem, Anwendersoftware, Operating. Nur in denjenigen Zeitabschnitten, in denen alle diese Komponenten funktionsfähig sind, wird der Benutzer bedient und empfindet das Gesamtsystem als betriebsbereit; fällt auch nur eine dieser Komponenten aus, dann ist aus Benutzersicht das System total ausgefallen. Was "funktionsfähig" bedeutet, ist dabei unterschiedlich je nach Art der Komponente zu verstehen. Komponenten sind meist ihrerseits zusammengesetzte Systeme (Beispiele: Zentraleinheit, bestehend aus mehreren Hauptspeichereinheiten und mehreren Prozessoren; Klimaanlage, bestehend aus der zentralen Steuerung und mehreren Klimaschränken).

Softwareverfügbarkeit nach Hardwaremuster

Für jede Komponente des Gesamtsystems kann demnach anders definiert sein, was "funktionsfähig", also nicht-total-ausgefallen bedeutet. So bedeutet bei einer Zentraleinheit mit zwei Prozessoren schon dann der Ausfall eines Prozessors den Totalausfall; wenn es sich um eine Zentraleinheit ohne Reserveprozessoren handelt. Wenn aber die Klimaanlage drei Klimaschränke besitzt, von denen bereits zwei ausreichen, um die nötigen Klimawerte zu erbringen, dann liegt ein Totalausfall erst vor, wenn mindestens zwei Klimaschränke ausgefallen sind.

Der Benutzer sieht also ein Gesamtsystem (Kette), bei dem zwar die Verfügbarkeit der Komponenten auf durchaus verschiedene Weise von deren Teilkomponenten abhängen darf; aber bei dieser Kette darf kein Glied (Komponente) ausfallen. Damit berechnet sich die vom Benutzer gesehene Verfügbarkeit wie folgt (wobei g die Zahl der Komponenten ist):

Vben = V1 x V2 x . . . . . . . x Vg (14)

Die Werte Vi sind je nach Fall gemäß den in den Abschnitten II bis IV gegebenen Verfahren zu bestimmen. Auch die Komponenten "Software" (eventuell aufgeteilt in Betriebssystem, Datenbankverwaltung, Anwenderprogramm etc.) und "Operating" können mit dem für die Hardwarekomponenten beschriebenen Verfahren behandelt werden, was vielleicht zunächst überraschen mag, was aber keineswegs über den Rahmen des hier gewählten relativ großen mathematischen Modells hinausgeht. Die Verfügbarkeitswerte dieser Komponenten berechnen sich ebenfalls gemäß den Gleichungen (1) und (2) aus Abschnitt I, so etwa aus den Aufzeichnungen des Betriebslogbuches oder aus anderen statistischen. Ermittlungen.

Wird fortgesetzt

*Professor Dr. Werner Dirlewanger gehört an der Gesamthochschule Kassel dem Fachbereich Mathematik an und vertritt dort das Fach Informatik; zudem leitet er das Universitätsrechenzentrum.