Unternehmen sollen Kriterien selbst entwickeln

Benchmark-Ergebnisse spielen beim Kauf keine Rolle

23.07.1999
MÜNCHEN (kk) - Testergebnisse vermitteln den Eindruck der objektiven Vergleichbarkeit der Produkte. Was bei Zahnpasta oder Windelhöschen vielleicht noch Sinn gibt, stößt bei Produkten der IT-Industrie schnell an Grenzen: Kein Betrieb gleicht dem anderen, jeder stellt andere Anforderungen an ein Produkt. Zudem sind die Testverfahren selbst umstritten.

Gute Resultate in Benchmark-Tests dienen vor allem den Marketing-Abteilungen der prämierten Hersteller, die damit auf Kundenfang gehen. Selbst Hinweise auf so angesehene Verfahren wie die des Transaction Processing Performance Council (TPC) werden von Analysten und sogar den Herstellern selbst als Werbemaßnahme eingestuft. Beispielsweise äußerte sich Peter Thawley, Direktor bei Sybase, Mitte 1998 zu den Testverfahren TPC-C und TPC-D, die Aufschluß über die Leistungsfähigkeit von Datenbanken geben sollen: "Für Marketing-Aussagen eignen sich die TPC-Benchmarks offensichtlich gut."

So ist es nicht verwunderlich, daß kein professioneller Anwender seine Kaufentscheidung vom guten Abschneiden eines Rechners in Leistungstests abhängig macht. Einerseits wegen der Testverfahren selbst, die ins Gerede gekommen sind, zum anderen deshalb, weil die standardisierten Meßverfahren nur selten die Realität in den Unternehmen widerspiegeln.

So gingen die Hardwarehersteller dazu über, ihre Maschinen auf die jeweiligen Testcharakteristiken hin auszurichten, was die Ergebnisse der objektiven Leistungsmessung verwässert. Das bestätigt Luis Praxmarer, Chef der deutschen Meta Group: "Die Testmaschinen sind teilweise extrem auf die Laborbedingungen zugeschnitten." Zudem gebe es Hersteller, die dies aggressiv betrieben, und andere, die dem Tuning weniger Bedeutung beimäßen.

Eine andere Möglichkeit, die tatsächliche Leistung von IT-Produkten zu verschleiern, sind die von einem Hersteller bezahlten Auftragsstudien. Scheinbar unabhängige Testlabors werden beauftragt, Produktvergleiche anzustellen. Dabei geben sie sich beim Tuning eines Produkts mehr Mühe als mit den Konkurrenzangeboten. Überflüssig zu erwähnen, daß der Testsieger von der Firma stammt, die die Studie bezahlt.

In diesem Jahr ruinierte das US-Test- labor Mindcraft Inc. seinen Ruf durch einen von Microsoft in Auftrag gegebenen Vergleichstest zwischen Linux und Windows NT (siehe CW 17/99, Seite 1: "NT versus Linux: Studie sorgt für Zündstoff"). Mindcraft bescheinigte dem Microsoft-Programm deutliche Geschwindigkeitsvorteile gegenüber der Linux-Konkurrenz. Wie sich später herausstellte, wurde beim Test allerdings mit zweierlei Maß gemessen: Die Linux-Rechner kämpften mit einer veralteten Betriebssystem-Version, ungünstig eingestellten Raid-Controllern und hatten keinerlei Swap-Bereich im Speicher zur Verfügung, während dem NT-System 1 GB RAM-Speicherplatz für Auslagerungsdateien eingeräumt wurde.

Eine andere Unzulänglichkeit der Benchmark-Tests liegt darin begründet, daß sie die reale Wirklichkeit der Anwender nicht abbilden. Dazu Beate Hohmann, Senior Research Analystin für Einkaufsstrategien und Lebenszyklen bei der Gartner Group: "Beim SD-Test für SAP-Anwendungen erreichen einige Maschinen phantastische Werte. Wenn man die Meßverfahren allerdings genauer betrachtet, zeigt sich, daß der Benchmark nur im Single-User-Modus gefahren wurde, und das hat dann mit der Realität nichts mehr zu tun." Hohmann will mit dieser Aussage weder die deutsche Softwareschmiede noch den Test kritisieren. Vielmehr legt sie Anwendern ans Herz, eigene Kriterien zu definieren und die Systeme danach zu beurteilen.

Manchmal haben die Anwender überhaupt keine andere Wahl, als sich selbst Gedanken über die Leistungsmessung von Neugeräten zu machen, denn nicht für alle Einsatzgebiete liegen rechtzeitig Benchmark-Testsuiten vor. Derzeit führt Helmut Tautscher, Verantwortlicher für dezentrale Systeme und Telekommunikation bei der Siemens Business Services GmbH & Co.OHG (SBS), ein Storage Area Network (SAN) ein. "Für SANs gibt es bisher keine Benchmark-Tests", berichtet Tautscher. Er wird sich selbst Testverfahren für die Leistungsmessung zusammenstellen.

Ähnlich erging es Georg Martin, Leiter IT-Standards Informationssysteme und Technologie bei der Alcatel SEL AG in Stuttgart, der vor zwei Jahren leistungsstarke File-Server für die Verwendung unter NT suchte. Zwar kamen für ihn nur Alpha-Maschinen in Frage, denn "die Intel-Prozessoren konnten bei der CPU-Leistung nicht mithalten, auch der I/O-Durchsatz war indiskutabel". Aber wie schnell würden die DEC-Geräte arbeiten? Martin wollte Gewißheit darüber, ob die zehn neuen Server ihre Aufgabe bewältigen würden. Zwar präsentierte Digital Equipment eine Reihe von Performance-Demonstrationen, brauchbare Testprogramme waren aber nicht aufzutreiben. Dazu der Alcatel-Manager: "Es gab keine Testsuiten, die speziell den für uns wichtigen I/O-Durchsatz gemessen hätten." Martin erinnert sich mit Wehmut an die alten VAX-Zeiten, als die Leistung der Midrange-Systeme mit der Maßeinheit "Vax Unit of Performance" gemessen wurde und man sofort die Stärke einer Maschine abschätzen konnte.

Martin entwickelte deshalb eine Teststrategie für die Neuanschaffung, die einfach darin bestand, Dateien in einem Netz zu verteilen und die Zeit zu messen. Zunächst wurden zwei kleinere, schon bestehende DEC-Systeme als Cluster zusammengeschaltet, mit rund 50 GB Plattenspeicher ausgestattet und für 400 Benutzer ausgelegt. Die Zeitspanne für den File-Transfer wurde gemessen und auf die Zielsysteme hochgerechnet. Im zweiten Schritt belud Martin die neuen Alpha-Maschinen mit Applikationen, ließ 2000 User zugreifen und maß erneut die Zeit für die File-Transfers.

Die Testmethode funktionierte offenbar. Der IT-Manager berichtet, daß seine Benutzer mit der Leistung der neuen Systeme zufrieden sind, zumindest diejenigen, die an das Primär-LAN angeschlossen sind. "Müssen die Files über einen Router geschleust werden, gab es bei großen Applikationen schon mal Zeitprobleme."

Dennoch wird bei Ausschreibungen nach Benchmark-Informationen gefragt. Dazu Praxmarer: "Die besten zwei oder drei Unternehmen werden eingeladen, ihre Systeme in der realen Umgebung arbeiten zu lassen." Dann kommt es darauf an, wie gut die Consulting-Teams der Hersteller funktionieren. Natürlich ist auch die Projektgröße ausschlaggebend für das Engagement der Anbieter. Hohmann berichtet, daß vielfach Versuchsgeräte gestellt werden, die dann beim Zuschlag für einen Auftrag gegengerechnet werden: "Für spezifische Projekte entwickeln die Hersteller zusammen mit den Kunden Performance-Kriterien und übernehmen das Testing." Insbesondere bei der Einrichtung neuer Applikationen oder der Einführung neuer Technologie werde oft so vorgegangen.

Profitieren große Unternehmen wegen der enormen Installationsbasis von der Unterstützung der Hersteller, so sind kleine und mittlere Firmen beim Testen oft auf sich alleine gestellt. Michael Erben, Marketing-Leiter bei CSC Ploentzke, hat deshalb eine Studie über Standardsoftware im Maschinen- und Anlagenbau mit einem dicken Kriterienkatalog herausgegeben: "Viele mittelständische Firmen nutzen die Studie für eine Voruntersuchung." Die starke Resonanz auf das 4000 Mark teure Papier bestätige das. Die konkrete Einführungsentscheidung verlaufe dann aber natürlich viel differenzierter.

Gute Geschäfte für unabhängige Testlabors

Wünschenswert wären unabhängige Testlabors, die es in den USA schon vereinzelt gibt, in Deutschland aber noch nicht anzutreffen sind. Dennoch verfügen einige Großunternehmen über hauseigene Teststationen. Praxmarer erwartet, daß demnächst einige dieser Abteilungen ausgegliedert und als selbständige Unternehmen am Markt agieren werden. Denn die Ausstattung der Labors mit Hard- und Software kostet viel Geld - zu teuer, um nur für das eigene Unternehmen genutzt zu werden.

Spec-Benchmarks

Spec95: Andere Bezeichnung für den CPU-95-Benchmark

Specjvm98: Mißt die Leistung der Java Virtual Machine.

Specrate: Maßzahl für den CPU-Durchsatz. Sie mißt nicht die Schnelligkeit einer CPU, sondern wieviel Arbeit ein Prozessor in einer festgelegten Zeit bewältigen kann. Wird für Ein- und Mehr-Prozessor-Systeme verwendet

Specratio: Mißt die Geschwindigkeit eines Systems im Vergleich zu einer Referenzmaschine.

Specweb96: Mißt die Leistung eines WWW-Servers. Er soll demnächst durch Specweb99 ersetzt werden.