Der Trend zeigt in Richtung automatisierte Systeme:

Von Hand geht's einfach nicht mehr geschwind genug

21.07.1989

Eine hohe Systemverfügbarkeit bedeutet wenig Zeit für die Behebung von Performance-Problemen. Mit Hilfe eines automatisierten Performance-Managements, so Udo Pfeiffer*, lassen sich Problemerkennung und -analyse, die Suche nach den Ursachen sowie die daraus resultierenden Aktionen entsprechend schnell durchführen.

Mehr Terminals, eine wachsende Anzahl von Anwendungen, komplexe Rechnerverbindungen, hohe Ansprüche an die Verfügbarkeit und gleichzeitig kurze Antwortzeiten bezeichnen die Anforderungen, welche heute an ein gut funktionierendes Performance-Management gestellt werden.

Angenommen, Sie rechnen mit einer Verfügbarkeit von 99 Prozent während der Online-Zeit zwischen 7 und 17 Uhr. Von insgesamt 600 Minuten verbleiben somit maximal 6 Minuten für die Problemerkennung über die Analyse bis hin zur Lösung. Die Probleme rechtzeitig in den Griff zu bekommen, wird dadurch zusehends schwieriger.

Dazu kommt, daß in heutigen DV-Umgebungen die Problemursachen enorm vielfältig sein können. Umfassende Informationen aus den Subsystemen aller Rechner werden zur Entscheidungsfindung benötigt. Ein funktionales Performance-Management im Hinblick auf optimale Auslastung der Ressourcen, Zufriedenheit der Anwender und nicht zuletzt unter Berücksichtigung der Kosten gliedert sich im wesentlichen in vier Bereiche:

Der erste Schritt ist die automatische Problemerkennung. Die Frage lautet hier: Liegen erste Anzeichen vor, die auf eine Beeinträchtigung der Systemverfügbarkeit oder der Antwortzeiten hindeuten? Performance-Management setzt dabei voraus, daß Schwellenwerte definiert und automatisch kontrolliert werden können. Ohne Schwellenwerte ist es nahezu unmöglich, das laufende System zu beurteilen.

Je besser diese Analyse der Service-Level-Definitionen, um so höher ist die Qualität der daraus resultierenden Aktionen. Wenn gleichzeitig Erklärungen und Empfehlungen online verfügbar sind, können die Zusammenhänge umgehend transparent gemacht werden.

Auf die Problemerkennung folgt die Problemanalyse. Werden in der ersten Phase Abweichungen von den vorgegebenen Schwellenwerten festgestellt, so erfolgt wiederum automatisch eine Detailanalyse. Das Ziel ist es, Ursachen beziehungsweise Verursacher festzustellen.

Zum Beispiel erfolgt der Hinweis, daß die vorgesehene Laufzeit eines Batch-Job bereits um fast zwei Stunden überschritten ist. Die folgende Anzeige weist 37 Prozent Workload-Contention aus, verursacht durch einen bestimmten Adreßraum. Der nächste Schritt verweist dann auf den Ressourcenverbrauch im Detail.

In dieser Phase gilt es also zu klären, wer oder was einen bestimmten Workload zu wieviel Prozent behindert. Eine Workload-orientierte Betrachtung von Problemen ist hier grundsätzlich aussagekräftiger und erspart viel Zeit gegenüber der Ressource-bezogenen Analyse.

Da Problemerkennung und Analyse automatisch zusammenspielen, bleiben von den eingangs erwähnten sechs Minuten noch etwa vier für eine weitere Analyse, falls die bisherigen Informationen zur Lösung des Problems nicht ausreichen. Diese Ursachenfindung kann sehr zeitaufwendig werden, zumal sie in vielen Fällen bereichs- oder gar abteilungsübergreifend sein muß.

Oft hilft jedoch schon der Vergleich mit historischen Werten: Entspricht die Job-Laufzeit dem Durchschnittsprofil der vergangenen Woche? Wie war die Antwortzeit vor einer Stunde? Hinzu kommt, daß durch das Zerlegen der Antwortzeiten oder Laufzeiten in die aktiven und inaktiven Komponenten die Problemursachen in vielen Fällen bereits offensichtlich werden.

In schwierigen Fällen bleibt jedoch die große Frage: Was hat sich geändert? Performance-Schwankungen sind oft die Folge von Systemveränderungen. Werden gleichzeitig zu den Performance-Schwankungen auch die jeweiligen Veränderungen im Bereich Hardware, Software, JES und Dateien angezeigt, ist die Fehleranalyse auch in schwierigen Fällen ein Kinderspiel.

Die Fähigkeit, automatisch Aktionen einzuleiten, macht aus einem passiven Monitor ein aktives Performance-Management-Tool. Hier schließt sich der Kreis. Die Phase Problemerkennung ermittelt nämlich wiederum, ob eine Aktion erfolgreich war oder gar neue Probleme erzeugt hat. Abhängig davon erfolgt erneut eine Performance-Analyse beziehungsweise Ursachenfindung. Eventuell ist eine weitere Aktion notwendig.

Die manuelle Bedienung eines Performance-Tools bleibt wichtig - jedoch hauptsächlich, um dafür Erklärungen, Empfehlungen und andere aussagefähige Informationen über das Systemverhalten zu erhalten. Aber nur durch automatisiertes Performance-Management ist das immer kleiner werdende Zeitfenster von der Problemerkennung bis hin zur Lösung in den Griff zu bekommen. Der nächste Schritt hin zum Expertensystem ist nicht mehr weit. Die notwendigen Voraussetzungen und Informationen sind vorhanden.