Künftige Anwendungen erfordern Rechenleistung im Teraflop-Bereich:

Grenze des Machbaren ist derzeit noch nicht erreicht

31.03.1989

Supercomputer sind Symbole des technischen Fortschritts. In jeder Hinsicht an der Spitze gelegen, stehen sie im Rampenlicht der DV-interessierten Öffentlichkeit. Da ihnen Minisupercomputer und Superworkstations zunehmend den Platz streitig machen, sind ihre Hersteller gezwungen, ständig an vorderster Front der Technik zu operieren.

Der Bedarf an Rechenleistung für technisch-wissenschaftliche Anwendungen wird in den vor uns liegenden Jahren weiter wachsen, wahrscheinlich überproportional zum Gesamtleistungsbedarf. In den Entwicklungsabteilungen der Fahrzeug- und Flugzeughersteller, der Pharmazie und der Chemie werden schon jetzt Projekte in Angriff genommen, die ohne zusätzliche Number Cruncher nicht zu bewältigen sind. So plant die NASA die Entwicklung eines Flugzeuges, welches mit fast dreißigfacher Schallgeschwindigkeit fliegen wird. Da für solche Geschwindigkeiten keine Windkanäle zur Verfügung stehen, muß das Verhalten der gesamten Konstruktion von A bis Z im Rechner simuliert werden. Wie hoch die Anforderungen an die Rechenleistung bei einem solchen Projekt ausfallen werden, mag daran deutlich werden, daß heutige Supercomputer bereits mit der Simulation des Flugverhaltens einer Tragfläche weitgehend ausgelastet sind - geht es um das Gesamtverhalten des Flugzeuges, so potenziert sich die erforderliche Rechenarbeit. Ähnlich sieht es bei der Verarbeitung von Wetterdaten oder bei der Entwicklung von Impfstoffen gegen Retroviren aus.

Schon ausgelastet bei Tragflächen-Simulation

Dabei lösen längst nicht mehr nur wenige High-Tech-Exoten ihre Probleme mit Vektorrechnern, sondern zunehmend auch mittelständische Betriebe mit scheinbar alltäglichen Produkten. Die Nachfrage nach den Zahlenfressern wächst also auch in der Breite. Damit eröffnet sich seit einigen Jahren ein zweiter Markt für derartige rechenintensiven Anwendungen: der Markt der sogenannten Mini-Supercomputer, wie er beispielsweise von Anbietern wie Convex, Floating Point Systems, Alliant oder Multiflow bedient wird. Diese

Rechnerklasse bietet für einen vergleichsweise niedrigen Preis einen gewissen Bruchteil der Leistung eines "echten" Supercomputers, wobei das Preis-Leistungs-Verhältnis in der Regel drastisch besser ausfällt als bei den klassischen Anbietern. Der Vorsprung, den ein Supercomputer bietet, hat eben auch seinen Preis.

Neben den beiden genannten Sparten ist in jüngster Zeit vielfach die Rede von einem dritten zukunftsträchtigen Markt: dem der Einplatz-Vektorrechner. Diese "Personal Supercomputer" sind noch relativ neu auf dem Markt, doch glauben Experten an einen langfristigen Erfolg dieses Konzeptes, und neuere Prozessor-Entwicklungen wie Intels 860 weisen ja auch in diesen Weg.

Konkurrenz für klassische Größtrechner

Den Herstellern klassischer Supercomputer erwachsen so zwei neue Konkurrenten. Besonders die Gruppe der "Minisuper"-Anbieter tritt am Markt recht aggressiv auf. Sie haben es aber auch nötig: Seit geraumer Zeit ist die Rede von einer bevorstehenden Marktbereinigung. Der gefürchtete Shakeout kommt nach Meinung von Fachleuten spätestens dann, wenn Digital Equipment die Vektorrechnerszene betritt. Der Branchenzweite hält sich bisher aus diesem Geschäft heraus, doch verdichten sich in den letzten Wochen die Gerüchte um eine "VektorVAX". Einige Beobachter wollen gar wissen, daß DEC die Bühne noch in diesem Jahr mit einem solchen Projekt betreten wird. Auf jeden Fall hätte Ken Olsens Unternehmen, dessen Kundenkreis nach wie vor schwerpunktmäßig aus den Reihen der technisch-wissenschaftlichen Anwender kommt, gute Chancen auf einen ansehnlichen Teil des Vektorkuchens.

Der Gruppe der Minisupercomputer-Anbieter kommt allerdings im Wettbewerb mit den "Klassikern" ein gänzlich untechnischer Marktmechanismus zu Hilfe: Minisuper und "Personal Supercomputers" sind in der Regel preislich unterhalb der Schmerzgrenze von einer Million Dollar angesiedelt (Dollar deshalb, weil der US-Markt hier Standards setzt, auch in preislicher Hinsicht). Diese Maschinen sind aus betriebsorganisatorischen und beschaffungstechnischen Gründen nun einmal leichter einzukaufen - oberhalb der Million wird ein solcher Kauf zu einer Angelegenheit, die auf der obersten Ebene betrieblicher Hierarchie angesiedelt ist.

Der technische Vorsprung der Supercomputer schrumpft dem Augenschein nach zusammen, ähnlich wie es auf dem Markt der Allzweckrechner mit den Superminis und Supermikros bereits der Fall war. Viele Beobachter stellen sich bereits die Frage, wie sich die Anbieter klassischer Supercomputer in einem solchen Markt noch behaupten können. Es gibt jedoch Unterschiede zum Markt der General-Purpose-Computer. Im Bereich des Supercomputing gibt es einen wesentlichen Teil des Kundenkreises - nicht zuletzt Militär und Geheimdienste - die es sich etwas kosten lassen, immer den schnellsten Rechner zur Verfügung zu haben. Diesen Kunden ist keine Technologie zu teuer, keine Architektur zu aufwendig, wenn es darum geht, den strategischen Vorsprung vor einem vermeintlichen oder tatsächlichen Gegner oder Rivalen zu halten. Der Vorsprung der Supercomputer bleibt daher nach übereinstimmender Meinung von Fachleuten bestehen. Die letzten 50 Prozent an Rechenleistung, die aus einer solchen Maschine herauszuholen sind, kosten zwar unverhältnismäßig viel Geld (Fachleute sprechen von bis zu 90 Prozent des Kaufpreises), aber wenn dieser Vorsprung von strategischer Bedeutung für einen Anwender ist, wird er auch bereit sein, die Summe auf den Tisch zu legen. Das bedeutet, daß auch die relativ hohe Preisbarriere zum Supercomputer bestehen bleiben wird.

Hohe Preisbarriere zum Superrechner

Die Weiterentwicklung der Supercomputer-Technik geht zur Zeit noch ungebremst weiter. Auf drei Schienen fährt dieser Zug: Technologie, Architektur und Software.

In der Frage der verwendeten Technologie werden die Entwicklungsabteilungen der einzelnen Hersteller am stärksten differieren. Während zur Zeit noch ECL und CMOS vorherrschen, geht der Trend zu Galliumarsenid (GaAs), HEMT (High Electron Mobility Transistor) bis hin zu gegenwärtig noch recht exotisch anmutenden Technologien wie Josephson Junction oder Supraleittechniken. Das beherrschende Problem ist dabei der Trade-Off zwischen Schaltgeschwindigkeiten und Abmessungen der aktiven Elemente. Während nämlich beispielsweise Galliumarsenid-Schaltkreise enorm schnell schalten können, lassen sie sich nicht sehr hoch integrieren. Dadurch steigt die Anzahl der erforderlichen Einzelschaltkreise an und mit dieser die physikalischen Abmessungen der Platine(n).

Die Abmessungen spielen deshalb eine so große Rolle, weil mit zunehmender Schaltgeschwindigkeit der aktiven Bauelemente sich immer stärker Laufzeiteffekte bemerkbar machen, die dann bei gegebener räumlicher Größe eine absolute Grenze für die Rechnergeschwindigkeit darstellen. Mit CMOS-Schaltkreisen lassen sich nicht solche frappierend kurzen Schaltzeiten erzielen wie mit GaAs-Chips, aber der Integrationsgrad liegt um Größenordnungen höher, was den Nachteil mindestens zum Teil wieder ausgleicht. Aus diesem Grunde, sagen einige Experten, spiele die Technologie letztendlich doch nicht die Rolle, die ihr von den Hardwarespezialisten zugedacht wurde. Nichtsdestoweniger wird die Supercomputer-Gemeinde mit Neuerungen auf diesem Sektor zu rechnen haben.

Cray setzt auf Galliumarsenid

So setzt Cray voll und ganz auf Galliumarsenid; die in nicht allzu ferner Zukunft zu erwartende Cray-3 wird in dieser Technologie gehalten sein. Nach Einschätzung von Spezialisten steht Galliumarsenid heute da, wo Silizium vor 15 Jahren stand. Die Cray-Entwickler versprechen sich also den mittel- und langfristigen Wettbewerbsvorteil über das Entwicklungspotential des neuen Werkstoffes. Die kommende Generation aus diesem Hause wird jedenfalls bei Taktzeiten von einer Nanosekunde arbeiten und mit ihren 64 parallel arbeitenden Prozessoren, eine Rechenleistung von rund 128 Gigaflops erzielen.

Crays wichtigster Konkurrent in den USA, die Control Data Corporation dagegen, bevorzugt Bewährtes und bleibt fürs erste bei CMOS. Aufgrund des hohen CMOS-Integrationsgrades bringen die CDC-Entwicklungsteams denn auch Maschinen mit erstaunlich kleinen Abmessungen zustande. Lediglich die High-End-Modelle sind zur Erhöhung der Schaltgeschwindigkeit (nicht zur Abfuhr überschüssiger Wärme) mit Flüssigstickstoff auf minus 196 Grad Celsius abgekühlt. Der Effekt ist eine Zunahme der Schaltgeschwindigkeiten um etwa den Faktor 2. Ähnliches gilt dann allerdings auch für den lnstallations- und Kühlaufwand, und der Vorteil der kleinen Abmessungen ist ebenfalls dahin. Insider wollen auch wissen, daß CDC zumindest bei seinem schnellsten Modell, der ETA 10 G, große Probleme hat, die versprochene Taktzeit von 7 Nanosekunden einzuhalten.

ECL-Technik ist bald ausgereizt

Fujitsu als ein weiterer Anbieter von Superrechnern baut seine Maschinen zur Zeit noch in der schnellen, aber bald ausgereizten bipolaren ECL-Technik. Aus dem Hause Siemens - welches neben dem PCM-Anbieter Amdahl die Fujitsu-Vektorprozessoren hierzulande vermarktet - ist zu vernehmen, daß die nächste Generation mit Schaltkreisen auf HEMT-Basis bestückt sein wird. Diese Technologie erlaubt eine Verkürzung der Schaltzeiten auf ein Zehntel heutiger Werte ebenso wie sehr hohe Integrationsdichten, steckt aber zur Zeit noch völlig in den Kinderschuhen. Während Cray seine nächste Generation in zwei, spätestens drei Jahren auf den Markt bringen wird, ist bei den Japanern daher erst um die Mitte des Kommenden Jahrzehnts mit einer Wachablösung zu rechnen.

Japanische Unternehmen wie NEC, Hitachi und Fujitsu haben auch die Forschungen um die Josephson-Technologie nie aufgegeben. Auch IBM hat im vergangenen Jahr diese eigentlich schon totgesagte Technik wieder unter die Lupe genommen. Praktische Ergebnisse sind jedoch in absehbarer Zeit kaum zu erwarten, ebensowenig wie solche mit supraleitenden Halbleitern, wie es ja insgesamt um die Supraleitung wieder et was stiller geworden ist.

Aber die Halbleitertechnologie ist nicht der einzige Weg, einen Rechner schneller zu machen. Auch architektonische Maßnahmen helfen da weiter, und alle Supercomputer-Hersteller arbeiten an mehr oder weniger ausgeprägten Parallelrechner-Architekturen. Selbst so eingefleischte Verfechter des Monoprozessor-Konzepts wie Fujitsu - das Unternehmen baut den schnellsten Monoprozessor der Welt - haben Entwürfe mit einer gewissen Parallelität in der Schublade. So entwikkelt Fujitsu derzeit eine Maschine mit zwei Skalareinheiten, die sich eine Vektoreinheit teilen. Diesem Ansatz liegt die Erkenntnis zugrunde, daß .,kein Rechenzentrum weltweit einen durchschnittlichen Auslastungsgrad von mehr als 50 Prozent erreicht", wie sich ein Experte von Siemens ausdrückte.

Andere Hersteller gehen da weiter: Bei Cray sind Maschinen mit 64 parallel arbeitenden Prozessoren in Arbeit; Control Data entwickelt ebenfalls Mehrprozessormaschinen. Aus Insiderkreisen verlautete, derzeit arbeite das Unternehmen an einer 64-Prozessor-Version, irgendwann sei auch mit 1024 Prozessoren zu rechnen, aber an eine massive Parallelverarbeitung denke man bei CDC wegen der damit verbundenen Softwareprobleme nicht. Bei gleicher Anzahl der Prozessoren ist denn auch die Software-Granularität bei Cray feiner als bei Control Data. Die Parallelität findet teilweise in der Hardware statt (CDC: vier Pipelines nebeneinander).

Schlüsselrolle für Speicherkonzept

Ein weiterer wichtiger Punkt ist die Abstimmung des Speicherkonzeptes auf die Architektur und die Arbeitsgeschwindigkeit des Rechners. Nach Ansicht von Supercomputer-Experten kommt dem Speicherkonzept innerhalb der Gesamtarchitektur eine Schlüsselrolle zu. Bei praktisch allen Herstellern hat sich eine hierarchische Speicherorganisation aus einem schnellen lokalen und einem mehr oder weniger schnellen globalen Speicher als Standard etabliert, wenn auch mit gewissen Differenzen in der Philosophie. So greifen bei den Y-MP-Modellen von Cray alle acht Prozessoren auf einen sehr schnellen gemeinsamen Arbeitsspeicher zu. Ein Hintergrundspeicher, bei Cray als Solid State Storage Device (SSD) bezeichnet, dient als eine Art "elektronischer Festplatte", und natürlich gibt es außerdem noch die konventionellen elektromagnetischen Festplatten. Die Cray 2 hingegen verfügt nicht über eine derartige Hierarchie, sondern über einen nach Ansicht von Insidern ,.relativ langsamen', sehr großen Hauptspeicher. Die Arbeitsgeschwindigkeit wird duch zwischengeschaltete Caches auf Supercomputer-Tempo gehalten. Über eine virtuelle Speicherverwaltung verfügen die Crays nicht, möglicherweise ist das eines der Zukunftsprojekte aus diesem Hause.

Control Data setzt auf kleine, schnelle lokale Speicher für jeden Prozessor und einen großen, mit konventionellen dynamischen Bausteinen (DRAMs) bestückten Globalspeicher. Dieser ist nicht als elektronische Festplatte konzipiert, sondern eher als ein "extended memory" wie bei den Mainframes von IBM. Dieses Konzept stellt besonders hohe Anforderungen an den Bus, mit dem Daten zwischen Global- und Lokalspeicher ausgetauscht werden. CDC hat demzufolge einen Bus mit einer Transferrate von I Gigabyte je Sekunde implementiert. Als nach eigener Darstellung einziger Hersteller in diesem Sektor bietet das Unternehmen ein logisches Einspeicherkonzept an, das heißt, für den Benutzer ist transparent, ob sich die Daten im lokalen oder globalen Speicher oder auf der Festplatte befinden.

Obwohl weitgehend mit schnellen statischen Speicherbausteinen (SRAMs) bestückt, sind die Arbeitsspeicher immer noch wesentlich langsamer als die Prozessoren. Daher teilt man den Speicher in sogenannte Bänke auf, die hardwaremäßig soweit voneinander entkoppelt sind, daß auf die Bänke in kürzerer Folge zugegriffen werden kann, als es eigentlich der Latenzzeit des Speichers entspricht. Ein Problem stellen die Zugriffskonflikte dar, wenn mehrere Prozessoren auf den selben Speicherbereich zugreifen wollen. Am elegantesten hat dieses Problem wohl Fujitsu (wie auch die anderen Japaner) mit seinem Einprozessorkonzept gelöst: Ein Prozessor greift immer nur auf eine Speicheradresse zu .

Die dritte Möglichkeit zur Leistungssteigerung besteht in der Weiterentwicklung der Software. Dabei nennen Branchenkenner in erster Linie die Parallelverarbeitung beziehungsweise die Weiterentwicklung dessen, was der heutige Stand dieser Technik hergibt. Daher arbeiten alle Hersteller an Software zur Parallelisierung ihrer Anwenderprogramme. Fortran, im technisch-wissenschaftlichen Sektor die wichtigste Programmiersprache, ist allerdings nach übereinstimmender Meinung von Experten für eine Parallelisierung wenig geeignet, und ein automatisch parallelisierender Compiler ist nicht in Aussicht. Die einzige existierende Sprache mit "eingebauter Parallelverarbeitung" ist zur Zeit Occam, eine speziell für die Rechnerarchitektur Transputer des britischen Herstellers Inmos entwickelte Sprache. Mit diesem Transputer lassen sich zwar auch große Parallelrechner bauen, doch hat der Mangel an Anwendersoftware bisher einen Durchbruch verhindert.

Software-Mangel verhindert Durchbruch

Gegenwärtig wartet die Szene auf die Fortran-Version 8X. Diese Sprache soll einige Elemente zur Parallelisierung sowie die von Pascal bekannten anwenderdefinierbaren Datentypen enthalten. Damit werde für Pascal der einzige verbleibende Vorteil wegfallen, meinte ein Branchenkenner: "Wenn das neue Fortran kommt, ist Pascal tot".

Bei den Betriebssystemen hat sich Unix in seinen diversen Spielarten durchgesetzt; eine Ausnahme bilden hier zur Zeit noch die Japaner, die auf Proprietary-Betriebssysteme setzen. Auch Multitasking ist mittlerweile zum Standard geworden. Die wesentlichen Impulse werden softwareseitig nach Experteneinschätzung aus dem Bereich der Anwendungen kommen. Sie werden zur erwarteten Gesamtleistungssteigerung im Supercomputerbereich mindestens zur Hälfte beteiligt sein.