Auslastungs- und Leistungsüberwachung von Auskunftssystemen durch Hardware- und Softwaremonitoring

18.11.1977

Von Dr. H. Rüberg und Dipl.-Ing. F. J. Wesener*

EDV-Großsysteme erreichen nicht selten ein Jahresmietvolumen von mehreren Millionen Mark. Dagegen stehen im allgemeinen nur geringe Mittel für Auslastungs- und Leistungsüberwachung zur Verfügung.

Dies führt häufig dazu, daß aus Vorsicht and Unsicherheit über den Zustand des Systems, angefangen von der Zentraleinheit bis hin zu den Platten und Bändern, Überdimensionierungen vorgenommen werden, die nur deshalb die Billigung und Zustimmung der Entscheidungsgremien finden, weil aufgrund fehlender Planungsunterlagen Erweiterungsanliegen nicht widerlegbar sind. Um Überdimensionierungen oder auch momentanen Engpässen zu begegnen, ist es deshalb erforderlich, konkrete Unterlagen für Planungen zu erhalten, also die Auslastung und das Leistungsvermögen des Systems zu kennen and aufgrund kontinuierlicher Überwachung Tendenzen feststellen zu können.

Im folgenden soll beschrieben werden, wie für eine typische TP-Großinstallation (Informationssystem der Polizei (Nordrhein-Westfalen) solche Planungsunterlagen erarbeitet und verwertet werden.

Das Auskunftssystem der Polizei NW wird betrieben mit zwei Zentraleinheiten 2,8 MB schaltbarem Hauptspeicher, umfangreicher Nahperipherie, Rechnerkopplungen zu anderen Datenverarbeitungssystemen und einem DFÜ-Netz mit jetzt 130 Datensammelstationen bei den Kreispolizeibehörden und anderen Polizeieinrichtungen.

Ziel der Messungen und Auswertungen ist es, einen genauen Überblick über das Leistungsvermögen und die Auslastung des Systems zu bekommen. Die eingesetzten Mittel und Methoden sind: Hardware - Monitor, Software - Monitor, Betriebsstatistik und Reaktionszeitmessung.

Hardware - Monitoring

Als Hardware-Monitor wird im Fachrechenzentrum der Polizei (FRZP) das Modell Microsum 1010 D von Tesdata* eingesetzt. Aufgrund der wenigen Hersteller von Hardware-Monitoren ist die Auswahl auf dem deutschen Markt sehr gering. Das eingesetzte Modell kostet rund 40 000 Mark. Der Hardware-Monitor ist ein leicht zu bedienendes Gerät einfach anschließbar und annähernd wartungsfrei. Er besteht aus den vier Komponenten Meßfühler, Meßkonzentrater, Auswerte- und Anzeigeeinheit sowie Meßpunktliste.

Mit den Meßfühlern werden Informationen über den Zustand der Anlage ("CPU aktiv") abgegriffen. Die Meßfühler besitzen einen hochohmigen Differenzverstärkereingang, der eine vollständige Entkopplung der Meßgeräte von der zu messenden Anlage gewährleistet. Alle Besorgnisse bezüglich einer Rückwirkung auf die Anlagen haben sich als unbegründet erwiesen. Der Anschluß des Monitors ist viel einfacher als zunächst angenommen. Bild 1 zeigt einen typischen Anwendungsfall. Die einstellbaren Auswertezeiträume reichen in 12 Schritten von 2 Sekunden bis 72 Minuten. Der Auswerteeinheit ist ein Logiksteckbrett vorgeschaltet, das verschiedene logische Verknüpfungen ermöglicht und deshalb eine Darstellung komplexerer Verarbeitungszustände zuläßt.

Der Hardware-Monitor wird im Fachrechenzentrum der Polizei sowohl dazu verwendet die augenblicklichen Anlagewerte transparent zu machen, als auch dazu, Werte für Auslastungsstatistiken zu liefern. Der Hardware-Monitor ist dabei über ein Interface mit einem Standard-Bildschirm gekoppelt, der im direkten Blickfeld der Maschinenbediener liegt. Dargestellt werden folgende durchschnittliche Belastungen pro Sekunden-Meßintervall: Belastung der CPU, Belastung des Multiplexkanals, Belastung der Selektorkanäle, Belastung durch Problem Zustand und Belastung durch Betriebssystem.

Neben diesen Werten der Zentraleinheit werden noch die Auslastung der Nahperipherie (Bänder, Platten) stichprobenartig und die Auslastung der DFÜ-Leitungen gemessen.

Bei den Leitungsmessungen wird an den Puffern der Datenübertragungssteuerung die reine Textdauer pro Meßintervall gemessen. Unter der Voraussetzung, daß die Anfragenhäufigkeit verteilt ist, läßt sich mit Hilfe der Messungen der Verkehrswert der Leitungen ermitteln.

Für Planungen sind neben den kurzzeitigen Spitzenwerten der Belastung auch Werte der Dauerbelastung notwendig. Deshalb wird im FRZP eine monatliche, 24 Stunden dauernde Auslastungsüberwachung durchgeführt. Während dieser Messung werden stündlich Mittelwerte aufgezeichnet. Die Werte der Spitzenbelastung werden gegebenenfalls durch feinere Rasterung weiter aufgeschlüsselt. Bild 2 zeigt den typischen Auslastungsverlauf des Auskunftssystems über 24 Stunden. Das Bild zeigt, daß tagsüber eine durchschnittliche CPU-Belastung von 55 Prozent besteht. Dabei wird ein Spitzenwert von 60 Prozent erreicht. Die Aufschlüsselung einer Spitzenwertbelastung zeigt, daß Werte von 80 Prozent erreicht werden (Bild 3). Weiter wird der für Auskunftssysteme typische Systemhead von zirka 50 Prozent deutlich. Die Selektorkanäle zeigen eine Spitzenbelastung von 35 Prozent. Dieser Anzeige und der damit verbundenen hohen

Rückweisungsrate wird nachgegangen.

Software-Monitoring

Hardware-Monitor und Software-Monitore sind keine konkurrierenden Meßsysteme. Sie ergänzen sich. Der im Fachrechenzentrum angewandte Software-Monitor liefert ereignisorientierte Aussagen. Häufig eintretende Ereignisse sind somit nur begrenzt meßbar, etwa dann, wenn Zählaufwand und Ereignis in gleich hohem Maße CPU-Belastung verursachen und die CPU-Belastung gemessen werden soll.

Neben ereignisorientierten Monitoren gibt es auch SNAP-Monitore, die auch Aussagen über kurzfristig veränderliche Maschinenzustände machen können (usermode, privileged mode). Die Aussagen dieser SNAP-Monitoren sind allerdings schwierig zu interpretieren, weil die SNAP-Raten gemessen an dem Zustandswechsel-Raten wegen der dadurch verursachten Belastung manchmal nicht groß genug sind.

Der angewandte Monitor "SYSTUBER" führt in einem realen Betriebssystem ereignisorientierte Messungen durch und liefert folgende Aussagen pro Zeitintervall (1/300 sec):

- Zahl der Ein- und Ausgaben (einschließlich Offline seeks) auf wählbare Dateien, besonders Plattendateien

- Zahl der Ein- und Ausgaben auf die Kanäle mit Rückweisungsraten aufgeschlüsselt nach Kanal besetzt - Gerät besetzt.

- Nachladetätigkeit

- Zahl der pro Befehlszähler (Partition) aufgerufenen Supervisorcalls (SVC's)

- CPU-Zeit pro Befehlszähler (User-Problem)

- für User-Problem noch freie CPU-Zeit (damit ungefähr die Exec-Zeit)

Mit diesen Monitorwerten werden folgende wichtige Rückschlüsse möglich:

- Sind Probleme beim Reaktionsverhalten durch Engpässe in den Betriebsmitteln bedingt?

- Müssen Programme wegen unerwarteter "CPU-Gefräßigkeit" abgeändert werden?

- Sind die Vorstellungen über das Dateizugriffsvolumen (Daten-Pool, Verständigungsdatei, Puffer, sonstige Verwaltungsdateien) richtig?

- Sind Zugriffsminimierungen erforderlich?

- Verursacht das EXEC unerwarteten Overhead?

- Sind bestimmte SVC's ungewöhnlich häufig?

An Hand dieser Messungen können total falsche Vorstellungen vom Geschehen in der Maschine revidiert werden, daß nämlich

- durch Protokollierung Reaktionszeitverluste entstehen

- Reaktionsverluste in Maschinenengpässen gesucht werden

- harmlose Programme wahre "CPU-Vielfraße" sind

- Plattenpool- und Index-Datei-Zugriffe häufiger sind

angenommen.

Daneben können auch konkrete Fehler gefunden werden:

- Die Anordnung der Nachladephasen ist falsch, so daß lange Suchvorgänge nötig sind.

- Auf der Bibliotheksplatte liegt einer der am häufigsten frequentierten Verständigungsbereiche.

- Auf einer Steuerung mit Bibliotheksplatten und Verständigungsdateien werden Plattendups mit riesigen Kanalkettungen gefahren.

Zusammen mit den Hardwaremonitorwerten entsteht schließlich ein sehr konkretes Bild vom Software-Geschehen in der Maschine.

Bei einer Maschine im realen Mode wäre es darüber hinaus von großem Interesse, diese Monitorwerte zu ergänzen durch Aussagen über die Zugriffshäufigkeit auf bestimmte Bank des Hauptspeichers. Das ermöglichen aber nur sehr kostspielige Hardwaremonitore (200 000 bis 300 000 Mark).

Einen Grunddatensatz des Softwaremonitors liefert im übrigen jede gute Jobaccount-Routine. Und sei es nur die CPU- und Geräte-Belegt-Zeit.

Betriebsstatistik

Mit Hilfe der Betriebsstatistik wird auf der Ebene der Anwendungsprogramme das Transaktionsvolumen des Auskunftssystems bestimmt. Die Betriebsstatistik bietet nur begrenzte Möglichkeiten und läßt den Systemteil vollkommen außer acht. Das Transaktionsvolumen ist aufschlüsselbar auf einzelne Anwenderprogramme und Anwender und kann in wählbaren Intervallen aufsummiert werden.

Reaktionszeitmessungen

Die wohl kritischste, komplexeste und am schwierigsten zu ermittelnde Größe in einem Auskunftssystem (AS) sind die Reaktionszeiten des Systems auf Anfragen. Das Reaktionszeitverhalten ist das Leistungsdatum aus Anwendersicht und ist somit mitbestimmend, wenn nicht sogar ausschlaggebend für die Güte eines Auskunftssystems nach außen. Um diese Größe reproduzierbar und genau messen zu können, wird im FRZP ein programmierbares Terminal mit entsprechendem Softwarepaket, das folgenden Funktionsumfang hat, eingesetzt:

Es sind Anfragen in bis zu vier verschiedenen Anwenderprogrammen möglich. Nach Initialisierung und Laden des Testprogramms wird die Messung automatisch durchgeführt.

Die Reaktionszeiten des Auskunftssystems werden nach den vorgegebenen Kriterien: Nachrichtentyp, Häufigkeit, Durchschnitt, Reaktionszeitintervall und Uhrzeit aufgeteilt und ausgewertet.

Die Auswertung wird im Puffer des Terminals gesammelt und auf dem Bildschirm angezeigt. Nach Ende der Messung werden die Ergebnisse an den Zentralrechner übersandt. Eine weitere Auswertung kann auf dem Zentralrechner durchgeführt werden.

Das Meßterminal wird zu routinemäßigen Messungen im Datennetz eingesetzt oder nach wesentlichen Erweiterungen von Netzzweigen in diesen zur Überwachung eingesetzt. Es liefert genaue und umfassende Werte für den Anwender und zeigt Schwachstellen und neuralgische Punkte im Datennetz auf. Genaue Planung und ausgewogene Gestaltung des Datennetzes ist auf diese Weise möglich.

Integrierter Meßreport

Die beschriebenen technischen Möglichkeiten zur Überwachung des Systems werden genutzt, um sich ein umfassendes Bild über den Zustand und die Veränderungstendenzen des Auskunftssystems zu machen. In einem monatlichen, alle Komponenten umfassenden Meßreport wird eine ausführliche Analyse des Systems durchgeführt. Die Auswertung erfolgt in Form einer Liste und graphisch in Form eines Diagramms. Die Liste und die parallel dazu erstellte Graphik sind Ist-Zustand-Analyse und Planungsgrundlage für das Auskunftssystem.

Die im Verlauf der Messungen erzielten Ergebnisse hatten z. B. folgende Auswirkungen:

Die relativ konstante über Stunden gehende hohe CPU-Belastung von 60 - 70 Prozent, die Spitzenbelastungen von über 80 Prozent zur Folge hat, kann hingenommen werden, weil sie keine ansteigende Tendenz hat und darüber hinaus nicht dazu führt, daß unvertretbare Reaktionszeiten in Kauf genommen werden müssen.

Die Belastung der Kanäle konnte so weit aufgeteilt werden, daß eine erträgliche Rückweisungsrate ohne weitere Steuerungen und zusätzlich eine gleichmäßige Belastung der Dateien erzielt wurde.

Die Spitzenzeiten des AS wurden zeitlich eingegrenzt. So wurde es möglich, Reparaturzeiten außerhalb dieser Spitzenzeiten zu legen und zusätzliche Jobs in auslastungsmäßig schwache Zeiten zu legen.

Die Belastung der Datenleitungen, auch nach wesentlichen Erweiterungen, war aufgrund der genauen Meßergebnisse stets übersehbar. So konnte die Anmietung zusätzlicher Leitungen und die Vorhaltung entsprechender Haushaltmittel vermieden werden.

Der Ausbau der Hardware ergibt sich aus den genauen Unterlagen. Fehlinvestitionen werden vermieden.

Monitoring-Ergebnisse kosten einiges Geld. Sie befreien aber die Hardwareplanung von Einschätzungen über dem ganz "dicken Daumen". Sie legen auch Situationen offen, in denen bildlich gesprochen durch Flußbette karge Rinnsale laufen oder umgekehrt, das Wasser an der Deichobergrenze steht. Monitoring spielt so alsbald seinen Preis und noch viel mehr wieder ein.

* Mitarbeiter des Fachrechenzentrums der Polizei, Nordrhein-Westfalen