X-TERMINALS Ein neues Mass fuer die Leistung von X-Terminal

03.09.1993

X-Terminals kommen vor allem in lokalen Netzen zum Einsatz, wo die Applikationen mehr verlangen, als alphanumerische Bildschirme bewaeltigen koennen und PCs noch zu teuer sind. Was die Geraete der einzelnen Hersteller leisten, wird heute mit dem "Xbench"-Test in der Masseinheit "Xstones" angegeben. Diese Pruefung laesst sich aber nur zum Teil auf die Realitaet im LAN uebertragen, so dass die X- Fangemeinde nach neuen Vergleichskriterien suchte.

Von Mitarbeitern der The X-Business Group Inc.

Xbench und Xstones haben sich fuer die Beurteilung der Leistung eines X-Terminals relativ fest etabliert. Urspruenglich wurde dieses Instrument aber zur Evaluierung und Feinabstimmung der Server entwikkelt, doch haben Anbieter wie Benutzer darin ein Mass fuer die absolute Leistung von X-Terminals und X-Servern gesehen und werden dies auch weiter tun.

Die Verwendung von Xbench und Xstones zur Bewertung von X-Servern hat viele potentielle X-Terminal-Benutzer irregeleitet. Denn durch die praktizierte Berechnung und Interpretation von Xstones wird ihre Gueltigkeit und Verwendbarkeit in der Realitaet in Frage gestellt.

Bewertungskriterien

fuer X-Terminals

X-Terminals bilden die Schnittstelle zwischen den Eingaben des Benutzers und den Ausgaben des Servers. Viele Benutzer beurteilen deshalb die X-Terminalleistung anhand von zwei Faktoren:

- der Geschwindigkeit, mit der die Bildschirmanzeige neu aufgebaut wird, sowie

- der Zeitspanne, die zwischen einer Eingabe ueber Maus oder Tastatur und deren Umsetzung auf dem Bildschirm liegt.

Benutzer erwarten von X-Terminals ein ebenso gutes interaktives Antwortverhalten wie von Workstations oder PCs. Die Leistung von X-Terminals wird in einer echten Computerumgebung von mehreren Faktoren bestimmt. Zu diesen Schluesselelementen gehoeren:

- Kapazitaet des lokalen Net zes,

- X-Server-Anzeigeleistung so wie

- Antwortverhalten von Maus und Tastatur.

Xbench ist ein von der Siemens AG in Muenchen geschaffenes Bewertungs- und Entwicklungswerkzeug fuer die Feinabstimmung der Grafikleistung von X-Servern. Es laeuft auf dem Host-Rechner und schickt eine Reihe von X-Grafiktests zu einem X-Server oder X- Terminal. Bei diesen Tests handelt es sich um am Bildschirm auszugebende grafische Primitive. Das Augenmerk liegt auf der Faehigkeit des X-Servers, verschiedene Grafik- und Bit-Muster anzuzeigen und auf andere Positionen zu bewegen.

Nach Testabschluss wird anhand der mit Xbench gewonnenen Ausgangsleistungsdaten ein einzelner Leistungswert errechnet. Masseinheit ist Xstone.

Was Xbench

alles testet

Xbench sendet eine Reihe von zeitgesteuerten X-Grafikbefehlen an den X-Server. Folgende Funktionen unterliegen dem Test:

- durchgezogene und unterbrochene Linien in fuenf verschiedenen Strichbreiten,

- Rechtecke mit einer bestimmten Fuellfarbe, Kachelmuster oder Punktmuster,

- Bit-Blit-Operationen, darunter das Kopieren von Bildschirmbereichen, das Verschieben (Scrolling) von Bildbereichen und die Invertierung,

- Boegen sowie das Zeichnen und Ausfuellen von Boegen

- Text, Verwendung der Bildtextfunktion sowie

- komplexe Operationen einschliesslich Fenstererstellung, Zeichnen in einem Fenster, Loeschen von Fenstern.

Xbench wartet, bis der X-Server jede Gruppe von X-Grafikbefehlen ausgefuehrt hat, bestaetigt den Abschluss der Verwendung eines X- Primitivs und nimmt dann die Berechnung und Aufzeichnung der Leistungsdaten vor. Diese Ausgangsleistungsdaten gehen wiederum in die Berechnung des Xstone-Bemessungswertes ein.

Ungenauigkeiten

der Xbench-Methode

Der Xbench-Test wurde in der X-Anfangsphase konzipiert, in der Monochrom-Server mit integrierten Workstation-Bildschirmen die am haeufigsten anzutreffende X-Plattform darstellten. Folglich unterliegt er ausserhalb dieser Umgebung einer Reihe von Einschraenkungen.

Farbbildschirme sind beim Xbench-Test im Nachteil, da die meisten getesteten Funktionen durch die Pixel-Leistung eingeschraenkt werden. Weil Farb- und auch Graustufenmonitore mehrere Bits zur Farbdarstellung brauchen, muessen sie fuer die gleiche Zahl von Bildpunkten wesentlich mehr Daten uebertragen. Ein Farb-X-Terminal, das acht Bit-Farbebenen unterstuetzt, schneidet etwa achtmal schlechter ab als ein Monochrom-Modell.

Xbench misst nur die X-Server-Anzeigeleistung bei Ausgabe spezifischer grafischer Primitive am Bildschirm. Der Test ist mit anderen Worten ausschliesslich ausgabebezogen. Die X- Terminalmerkmale, die fuer den Benutzer am augenscheinlichsten sind, werden nicht getestet, naemlich die Reaktionsgeschwindigkeit bei Tastatur- und Mausbefehlen.

Doch selbst in ihrer Funktion als Messinstrument fuer die Ausgabeleistung weist die Xbench-Testreihe zahlreiche Maengel auf. Die in der Konzeption der Xbench-Tests begruendeten Probleme ermoeglichen Anbietern von X-Servern eine freie Auslegung der Regeln und auch eine Manipulation der Ergebnisse.

Ein Beispiel hierfuer ist die Tatsache, dass sich Xbench-Tests wiederholen. Bei allen Textausgaben wird eine einzelne, allgemein bekannte Zeichenfolge mehrfach zum Terminal uebertragen. Wenn ein X-Server auf die Erkennung dieser Zeichenfolge programmiert wurde, kann er die fuer die Textanzeige benoetigten Pixel intern zusammenstellen und sie anschliessend zur geforderten Bildschirmposition kopieren. Dadurch wird die Leistungsmessung verfaelscht.

Ferner besagt eine gaengige Auffassung, Host-Rechner und Netz haetten nur geringen oder gar keinen Einfluss auf die Xbench- Resultate. Diese Annahme mag fuer den Test eines Servers, der mit einem integrierten Bildschirm verwendet wird, richtig sein; in einer X-Terminalumgebung kann davon sicher nicht ausgegangen werden. Xbench kann also nur dann exakte, vergleichbare Messdaten fuer die Bewertung von X-Terminalleistungen liefern, wenn die Tests unter sorgfaeltig kontrollierten Bedingungen durchgefuehrt werden und alle X-Terminals und X-Server unter demselben Host-Rechner in einem speziell dafuer ausgelegten Netz betrieben werden.

Die Ergebnisse der Xbench-Leistungstests werden traditionell in Xstones ausgedrueckt. Xstones sind die aus den Xbench- Leistungsdaten gewonnenen harmonischen Mittelwerte. Sie werden dann in bezug gesetzt zum Xstone-Wert eines Sun 3/50-Rechners, der mit einem Prototyp des X11R3-Sample-Servers von MIT eingesetzt wird und den Xstone-Bemessungswert 10 000 hat.

Die Xstone-Berechnung umfasst zwei Elemente, die zu irrefuehrenden Ergebnissen fuehren koennen: das Gewichtungsschema und die Verwendung des harmonischen Mittels.

Die Xstone-Gewichtung spiegelt standardmaessig eine CASE- Anwendungsumgebung wider. Von ihr wird angenommen, dass sich Grafikanforderungen an den X-Server wie folgt zusammensetzen: 30 Prozent Text, 15 Prozent durchgezogene Linien und Rechtecke, zehn Prozent Scrolling, 17 Prozent mit Kachelmuster gefuellte Rechtecke, zehn Prozent Boegen und 18 Prozent Anforderungen anderer Art.

Ein Problem liegt darin, dass viele Benutzer keinen Wert auf mit Kachel- oder Punktmuster gefuellte Rechtecke legen, diese Funktionen jedoch im Rahmen der Xbench-Tests getestet und bewertet werden.

Die Entwickler der Xbench-Tests sind offensichtlich davon ausgegangen, dass Benutzer die Gewichtung jeweils entsprechend ihrer getesteten Anwendungsumgebung aendern. Die meisten Benutzer fuehren die Xbench-Tests allerdings in ihrer Standardform aus, obwohl die Ergebnisse ausserhalb von CASE-Anwendungsumgebungen keine Gueltigkeit haben.

Mit der Verwendung des harmonischen Mittels wird ein aussergewoehnliches Element in die Xstone-Berechnung aufgenommen. Es beruht auf einem logarithmusbasierten System, das zulaesst, dass niedrige Xbench-Testwerte eine unverhaeltnismaessig starke negative Auswirkung auf die Xstone-Gesamtbewertung haben. Nehmen wir beispielsweise an, ein X-Terminal schneidet mit nur einer Ausnahme in allen Tests um zehn Prozent besser ab als das Bezugsgeraet; nur ein Testergebnis liegt um zehn Prozent unter dem des Bezugsgeraetes. Je nach Gewichtung kann die Xstone-Gesamtbewertung fuer das betreffende X-Terminal deutlich schlechter ausfallen als fuer das Sun 3/50-System.

Aus praktischer Sicht ist dies unsinnig, da die meisten Benutzer ein Geraet vorziehen wuerden, das, abgesehen von einer oder mehreren selten verwendeten Funktionen, in jeder Hinsicht um zehn Prozent schneller arbeitet.

Das harmonische Mittel verstaerkt relativ geringe Leistungsunterschiede und schwaecht bedeutend groessere Abweichungen von den Leistungen des Bezugsgeraetes ab. So koennen X-Terminals, die hinsichtlich ihrer Funktionen und ihrer beobachteten Leistung vergleichbar sind, fundamental unterschiedliche Xstone-Bewertungen erhalten. Mit der Xstone-Berechnungsformel werden geringfuegige Leistungsunterschiede zwischen X-Terminals stark ueberbewertet.

Alternativen zu

Xbench und Xstones

Das von der National Computer Graphic Association ins Leben gerufene Graphic Performance Characterization Committee hat kuerzlich ad hoc die Gruppe X Performance Characterization (XPC) gegruendet. Sie sollte eine Methode zur Bestimmung der Leistung von X-Terminals entwickeln und als Standard einfuehren. Dieses Verfahren sollte Leistungsunterschiede zwischen verschiedenen X- Terminals und X-Servern exakter wiederspiegeln.

Die Anstrengungen der XPC-Gruppe werden durch zahlreiche fuehrende Akteure der X-Gemeinschaft unterstuetzt. Zu den Mitgliedern des Komitees zaehlen unter anderem ADDS/NCR, Age Logic, Digital, Evans & Sutherland, IBM, Hewlett-Packard, NCD, SCO, Silicon Graphics, Sun und Tektronix.

Nachdem die Arbeit 1992 aufgenommen wurde, entschied sich die XPC-Gruppe im Juni 1993 fuer einen neuen Standard zur Leistungsbewertung von X-Servern. Das neue, mit "Xmarks" bezeichnete Messinstrument basiert auf dem "X11perf"-Test.

Der X11perf-Test

der XPC-Gruppe

Das X-Konsortium war sich der beschraenkten Moeglichkeiten von Xbench und Xstones bewusst und entwickelte mit X11perf ein Vergleichswerkzeug fuer X-Server, wobei mit dem X11R4-Server begonnen wurde. X11perf aehnelt Xbench insofern, als verschiedene Tests ausgefuehrt und Ausgangsleistungsdaten gewonnen werden, ist aber weitaus umfangreicher. Die Ueberlegenheit von X11perf besteht im besonderen darin, dass folgende Elemente getestet werden:

- saemtliche moeglichen Grafikprimitive,

- saemtliche moeglichen Textprimitive,

- eine Vielzahl von Zeichenmodi wie XOR-Modus und Copy-Modus,

- mehr Fensterfunktionen wie Positions- und Groessenaenderung, Abbildung (Mapping) und Aufhebung dieses Vorgangs (Unmapping) sowie

- einige Funktionen fuer die Fensterverwaltung wie Getatom und Getproperties.

Der letzte Punkt verdient Beachtung. Wie Xbench war X11perf noch nicht in der Lage, die Schwierigkeiten direkt zu loesen, die mit dem Testen der Antwortfunktionen von Maus oder Tastatur verknuepft sind. X11perf kompensiert diesen Mangel durch die Untersuchung von Verwaltungsfunktionen. Auf diese Weise liefert der Test einen indirekten Hinweis auf die Schnelligkeit der Befehlsabarbeitung.

Der X11perf-Test geht einen gravierenden Xbench-Mangel gezielt an, indem er die Netzauslastung beruecksichtigt. Wie Xbench misst X11perf die Ausgangsleistung des X-Servers, indem Befehle abgesetzt werden und die fuer die Ausfuehrung benoetigte Zeit gemessen wird. X11perf arbeitet jedoch auch mit Anfragen, um die durch die Netzauslastung bedingte Verzoegerung zu messen und diesen Zeitfaktor bei den Leistungsergebnissen zu beruecksichtigen.

X11perf beseitigte einen weiteren wesentlichen Mangel von Xbench, naemlich die Moeglichkeit der Ergebnismanipulation durch Testanwendung auf spezielle Faelle. Waehrend Xbench zum Beispiel Zeichenfolgen wiederholt zu ein und derselben Bildschirmposition sendet, laesst X11perf die Zeichenfolge an vielen verschiedenen Positionen anzeigen. X11perf testet ausserdem unterschiedliche Textgroessen, um die Textleistung exakter bestimmen zu koennen.

Einheitlicher

Messwert Xmarks?

X11perf bietet ein wesentlich breiteres Testspektrum als Xbench. Leider wurde der Wert von X11perf anfaenglich gerade dadurch geschmaelert, da die Interpretation der Ergebnisse von ueber 200 individuellen Tests Schwierigkeiten bereitete. Aus diesem Grunde waehlte die XPC-Gruppe die X11perf-Testreihe aus und entwickelte ein Gewichtungssystem, mit dem ein Gesamtwert, der "Xmark", generiert wird. Die Berechnungsprozeduren fuer diesen Endwert wurden sorgfaeltig erarbeitet, um die Maengel der Xstones-Werte zu ueberwinden.

Zur Berechnung des Xmark-Messwertes waehlte die XPC-Gruppe die Verwendung des geometrischen Mittels. Diese Methode der statistischen Analyse wurde ausgesucht, da der daraus resultierende Wert nicht durch grosse Abweichungen oder einzelne niedrige Werte verfaelscht wird. Auf diese Weise wird ein grosser Nachteil des auf dem harmonischen Mittel basierenden Xstone-Tests ausgeschlossen.

Xmarks sind geometrische Mittelwerte der Ausgangsleistungsdaten des X11perf-Tests, wobei jedem Test eine Gewichtung zugeordnet wurde. Ihre Verwendung erfolgt wie bei den Xstones, um der Zusammensetzung der Operationen gerecht zu werden. Im Gegensatz zum Xbench-Test ist die Gewichtung aber nicht auf eine bestimmte Anwendung ausgerichtet.

Schliesslich hat das XPC-Komitee den technologischen Veraenderungen Rechnung getragen, indem es das Bezugsgeraet, gegen das Xmarks- Bewertungen abgeglichen werden, ausgetauscht hat. Fuer Xmarks fungiert eine Sun-Sparcstation 1 als Referenzsystem. Sie hat die Xmark-Wertung 1.

Xstones und Xmarks haben beide noch immer einen grossen Mangel. Beim Vergleich verschiedener X-Terminals und X-Server bleibt noch die Bit-Tiefe der Farbebenen zu beruecksichtigen. Im allgemeinen wird bei etwa gleicher Prozessor-, Datenuebertragungs- und Systemkonfiguration ein Monochrom-X-Terminal besser abschneiden als ein Farb-X-Terminal, da es eine geringere Bit-Tiefe der Farbebenen (Anzahl der Pixel-Bits) zu verwalten hat.

Letztendlich muessen jedoch noch weitere Aspekte beruecksichtigt werden, um die Gesamtleistung eines X-Terminals zu beurteilen. Weder Xstones noch Xmarks werden je das Testen der jeweiligen Anwendung auf einem X-Terminal ersetzen. Denn dies ist das beste Vergleichskriterium.