Mehr Augenmerk auf die konsequente Auswertung von Verfügbarkeitsdaten legen

Hardware-Auswahl: Auch Kollegen können irren

19.04.1984

Seit Informationsverarbeitungssysteme ein unentbehrliches Instrument zur Sicherung des Unternehmenserfolgs geworden sind, haben Zuverlässigkeitsoptimierung und Ausfallsicherung der Anlagen zunehmend an Bedeutung gewonnen. Dennoch legen viele Anwender nach Ansicht des Autors hier ein ambivalentes Verhalten an den Tag: Bei gravierenden Ausfällen fordert der User mit markigen Worten sofortige Abhilfe; läuft das System wieder halbwegs, wird das erlebte Risiko bis zum nächsten Systemausfall ignoriert. Dabei ließe sich mit konsequentem Überwachen der einzelnen Verfügbarkeiten rasch feststellen, welche Systeme signifikant zuverlässig arbeiten - und mit besonders kritischen Anwendungen belegt werden können. Und bei Entscheidungen über die Ablösung oder die Anschaffung neuer Anlagen brauchte sich der DV-Manager nicht wie zumeist üblich - auf wacklige Kollegenempfehlungen zu stützen.

Dem DV-Manager stehen grundsätzlich zwei Hilfsmittel zur Bewältigung seiner Aufgaben zur Verfügung: Personal und Maschinen. Qualität und Zuverlässigkeit dieser Hilfsmittel entscheiden über Erfolg und Mißerfolg des DV-Betriebs. Die informationsverarbeitende Industrie hat in den vergangenen fünfzehn Jahren Millionenbeträge investiert, um Zuverlässigkeit, Produktivität und Leistungsfähigkeit dieser zwei Hilfsmittel zu erhöhen. Investiert wurde vor allem, weil höhere Zuverlässigkeit und Produktivität am ehesten geeignet erschienen, die zunehmenden Anwenderwünsche an das Datenzentrum zu erfüllen. Doch: Trotz dieser wesentlichen Investitionen in die Zuverlässigkeit waren die Auswirkungen eines Ausfalls nie größer als heute.

Wir vergleichen unsere heutigen Schwierigkeiten gerne mit denen von gestern und fühlen uns aufgrund des Vergleichs besser oder schlechter. Sind Ausfälle mit besonders gravierenden Konsequenzen verbunden, fordern wir Abhilfe. Wird der Zustand wieder halbwegs erträglich, ignorieren wir all das, was diesen Zustand beim nächsten Mal vielleicht sogar verschlimmern könnte. Egal, ob es sich um einen "Hard-Fail" oder um "Soft-Fails" handelt.

Hardware-Ausfälle wirken konstant destruktiv

Die Wirklichkeit ist: Der Hardware-Ausfall stört als konstant destruktiver Faktor Produktionspläne, verzögert Entwicklungen, verärgert den Anwender, und verursacht dem Unternehmen unnötige Kosten. Und was noch schlimmer ist - die aus Ausfällen des DV-Systems resultierenden Kosten werden von Jahr zu Jahr gravierender. Dieser Trend ist das direkte Ergebnis der Faktoren: Hardware, Software, Benutzungszeiten, Peripherie und Herstellerverhalten.

Während allgemein anerkannt wird, daß die Verfügbarkeit der Komponenten etwa bei den heutigen 303X- oder 308X-Systemen wesentlich besser als die vergleichbarer früherer Generationen ist, wird gerne vergessen, daß der Grad der Verbesserung keineswegs mit der gestiegenen Komplexität der jetzigen Generation Schritt halten konnte: Verstärkte Abhängigkeit von komplexen Betriebssystemen, Datenbank-Verwaltungssystemen, Fernübertragungsprozessoren und/oder virtuellen Speichersystemen erhöhen die Gefahr eines Ausfalls exponentiell. Hinzu kommt, daß Computersysteme heute intensiver genutzt werden und einer größeren Abnutzung unterliegen, mit der Folge, daß es unendlich schwieriger ist, bei einmal Fehlern Zeit für Wiederholungsläufe zur Verfügung zu stellen, ohne andere geplante Jobs zu stören: Leerzeiten gibt es nicht mehr.

Zudem führt die Unfähigkeit, dem Anwender seine Informationen termingerecht zur Verfügung zu stellen, oft zu finanziellen Einbußen, die weitaus höher sind als das gesamte DV-Budget. Ohne eine sicher und fehlerfrei arbeitende Datenverarbeitung sind viele Unternehmen arbeitsunfähig - in letzter Konsequenz sogar in ihrer Existenz bedroht.

Online-Unterstützung und Multiprogramming tun ein übriges, um die Abhängigkeit von der DV und die Systemausfallkosten als solche um eine Dimension zu erhöhen. Fazit: Bei der heutigen Systemgeneration sind Geräteausfälle kostspieliger, ihre Eingrenzung und die Behebung von Störungen zugleich schwieriger geworden.

RZ-Statistiken verharmlosen das Ausfallproblem

Dennoch bestehen nach wie vor zwei unterschiedliche Ansichten in den Unternehmen, wenn es um die Beurteilung der Verfügbarkeit und das Problem des Ausfalls von Computern geht.

Die erste Meinung, basierend auf den Rechenzentrums-Statistiken, verharmlost den Ausfall als unbedeutendes, wenn nicht sogar nicht existentes Problem. Allgemeiner Tenor: "Unsere Systemverfügbarkeit liegt im Bereich von 99 Prozent."

"Ganz anders hört sich dies zum Beispiel bei den meisten Programmentwicklern an, deren eigene Leistung unmittelbar von einer Systemverschlechterung oder einem Ausfall beeinträchtigt wird. Sie sind keineswegs von der hohen Zuverlässigkeit und der angeblich extremen Verfügbarkeit der Systeme überzeugt. Und die tägliche Praxis scheint eher den Anwendererfahrungen als den Datenzentren-Statistiken recht zu geben.

Der Verbesserung der Verfügbarkeit sowie der Hardware- und Software-Zuverlässigkeit muß künftig daher mehr Gewicht eingeräumt werden. Für Rationalisierungs- und Produktivitäts-verbessernde Maßnahmen im DV-Betrieb sind umfassende Analysen des Systemverhaltens, basierend auf detallierten Informationen über Hardware- und Software-Verfügbarkeiten, unerläßlich.

Ausfall raubt teure Produktionszeit

Die Gründe hierfür sind einleuchtend: Traditionsgemäß waren wir eine Miet-Industrie. Ausfallzeiten wurden vom Hersteller nicht irr Rechnung gestellt, der Anwender bezahlte nur für das, was er benutzte. Heute bezahlen wir für jeden Wiederholungslauf. Ausfallzeit raubt Produktionszeit, für die bereits bezahlt wurde. Eine Minute Maschinenzeit für die Wartung beinhaltet die gleichen Kosten wie eine Minute Produktion.

Für die Leitung des Datenzentrums ist es daher genauso wichtig, mit den Zuverlässigkeitseigenschaften jedes einzelnen Produktionsgerätes bestmöglich vertraut zu sein, wie es für den Leiter der Programmentwicklung unerläßlich ist, die Fähigkeiten und Eigenschaften der ihm unterstehenden Programmierer richtig einzuschätzen.

Die Ausfallquote angeblich identischer Rechner (zum Beispiel 20 Stück Magnetplatten) kann innerhalb der gleichen Anlage sehr stark variieren. Eine Rangfolge, die die Zuverlässigkeit der Geräte innerhalb eines Pools beurteilt, versetzt den DV-Leiter zum Beispiel in die Lager auf rationellerer Grundlage zu entscheiden, welche besonders kritischen Aufgaben diesen Geräten zugeordnet werden könnten. Gleichzeitig kann diese Rangfolge dazu verwendet werden zu entscheiden, ob die Zuverlässigkeit dieser Geräte im Vergleich zu anderen die Ablösung des Herstellers rechtfertigt.

Zu unterscheiden ist bei dieser "Zuverlässigkeits-Rangfolge" nach harten (permanenten) und sogenannten "Soft"-Ausfällen.

"Hard-Ausfälle" (Job- oder System-Abstürze) stellen nur die Spitze des "Ausfall-Eisbergs" dar. Sie sind leichter sichtbar, aber weder zahlreicher noch destruktiver als die "Soft-Ausfälle". Diese verschlechtern zwar die Leistung, führen aber nicht zur Beendigung von Jobs oder Systemen. Was sie aber im Gegensatz zu "Hard-Fails" dennoch so destruktiv macht: Software-Fehler wiederholen sich, bis sie entdeckt und korrigiert werden wobei jede Wiederholung eine Systemverschlechterung verursacht. Und: Anders als bei Hardware-Fehlern, deren Schaden sich zum Beispiel auf einen einzigen Job beschränkt, beeinflussen Soft-Fehler das ganze System.

Die Fehlerkorrektur-Routinen des Betriebssystems arbeiten in einem Serien-Modus, das heißt, während der Zeit, in der die Recovery-Prozeduren zu einer Platte erfolgen, werden andere I/O-Unterbrechungen nicht bedient.

Die Bedeutung dieses letzten Faktors kann nicht genug betont werden. Eine Geräteverschlechterung kann bei einem Batch-Job als Unannehmlichkeit "abgehakt" werden. Führt die gleiche Verschlechterung indes dazu, daß eine Online-Transaktion über mehrere Minuten nicht bedient wird, eskalieren die Ausfallkosten sofort.

Systemausfälle können auf ein Minimum reduziert werden

Eine Systemverschlechterung kann bei jeder Computer-Anlage täglich auftreten. Gerade deshalb ist das Management herausgefordert, den Level der Anlage genauestens zu beobachten und zu reagieren, wenn es zu Leistungsabfällen kommt:

Wer dies als DV-Leiter nicht tut, wird sich mit steigender Kritik der Anwender konfrontiert sehen.

Andererseits lassen sich die Auswirkungen von Systemausfällen beziehungsweise -verschlechterungen bei konsequenter Nutzung geeigneter Informationsquellen für Zuverlässigkeits- und Verfügbarkeitsdaten auf ein Minimum reduzieren. Als effiziente Maßnahmen mit Zielrichtung "Zuverlässigkeits-Optimierung" sind hier zu nennen:

- tägliche, rationelle Überwachung der "Soft-Mängel" bei jedem Gerät, um die Entwicklung eines Hard-Fail entdecken zu können,

- gezielte Wartung, damit erforderliche Reparaturen rechtzeitig unter Kontrolle des Anwenders durchgeführt werden können,

- tägliche, wöchentliche und monatliche Ermittlung von fehleranfälligen Geräten, um den Hersteller darauf aufmerksam zu machen und die geplante Reparatur einzuleiten,

- Ermittlung der Geräte mit hoher Verfügbarkeit und Aufstellung einer Zuverlässigkeits-Rangfolge der Geräte zur Benutzung für kritische Dateien (Paging, Master Catalog),

- Ermittlung der Geräte und Hersteller, deren Leistung bundesweit die beste ist, und zwar, bevor sie ausgewählt und installiert werden.

All dies sind Überwachungsmaßnahmen, die sich in der täglichen Praxis bewährt haben.

Was aber, so könnte man fragen, bringt nun die konsequente Überwachung und Nutzung der Zuverlässigkeitsdaten? Wie wirkt sich dieser ganze Aufwand in bezug auf die Zuverlässigkeit aus? Nach meiner Erfahrung: sehr positiv! Eine hohe Hardwarezuverlässigkeit ist zum Beispiel das oberste Ziel des DV-Managements. Wenn mit der Erreichung dieses Ziels zusätzlich noch eine Kostenreduzierung verbunden ist, scheint die vorgeschlagene Vorgehensweise um so sinnvoller zu sein.

Nähere Auskünfte erteilt: CW-CSE, Friedrichstr. 31, 8000 München 40, Tel.: 089/38 17 21 66/169, Telex: 5 215 350.