Supercomputer entwickeln sich zunehmend in Richtung Parallelrechner

Superschnelle Rechner in einem steilen Aufwärtstrend

22.02.1991

Was immer das sein mag, ein "Supercomputer" mit Sicherheit ist er schnell. Und bis vor kurzem war er ebenso sicher ein Vektorrechner für technisch-wissenschaftliche Anwendungen. Mittlerweile sind die Verhältnisse längst nicht mehr so klar. Parallelrechner drängen sich immer stärker in den Vordergrund und zunehmend bekommen auch kommerzielle Anwender Lust auf die Superleistung.

Nein, für die Lohnbuchhaltung sind sie kaum die richtigen; und auch das Verwalten von Versicherungspolicen überträgt man ihnen besser nicht. Doch wenn jemand das Wetter von morgen errechnen möchte oder die Strömung rund um einen Airbus-Flügel, wenn ein Autokonzern teure Aufprallversuche einsparen und statt dessen lieber simulieren möchte, wie sein neues GL-TI-GT-Coupe sich beim Aufprall auf eine Betonwand verhält - dann sind sie voll in ihrem Element, jene Rechner, die gemeinhin als Supercomputer bezeichnet werden. Einer sehr alten und sehr simplen Definition zufolge sind das ganz einfach die jeweils schnellsten Maschinen ihrer Zeit.

Pro Takt mehrere Befehle gleichzeitig bearbeiten

Supercomputer, deren Rechenleistung für gewöhnlich in Gleitkomma-Operationen (Floating Point Operations) pro Sekunde (Flops) gemessen wird, haben ihre Anfinge in den 60er Jahren. In jener Zeit teuerster Transistoren erkannten die ersten Computer-Architekten, daß für die typischen Vektorberechnungen, wie sie etwa in Physik und Technik gang und gäbe sind, Spezialrechner einer besonderen Konzeption fürs gleiche Geld weit mehr an Leistung bringen können als herkömmliche Universalcomputer. Deshalb konzipierten Firmen wie Control Data (mit der CDC 6600) und in den 70ern dann auch Cray Systeme, die nicht nur mit extrem schnellen Schaltungen ausgestattet waren, sondern deren ganze Architektur von Haus aus so beschaffen war, daß sie gewaltige Mengen numerischer Werte sehr rasch miteinander verknüpfen konnten.

Herkömmliche Vektorrechner erzielen ihr großes Tempo nicht allein durch die Nutzung extrem schnell schaltender, teurer und kostspielige Kühltechniken erfordernder Chips, sondern auch durch ihre architektonischen Besonderheiten: Sie sind so gebaut, daß sie die einzelnen Operationen fließbandartig in einzelnen Phasen ausführen. Dadurch werden pro Takt der Maschine immer gleich mehrere Befehle bearbeitet, so wie etwa bei einem Auto-Montageband stets mehrere Gefährte gleichzeitig im Taktverfahren zusammengeschraubt werden. Bei jedem Takt des Systems rollt ein neuer Wagen von Band beziehungsweise - beim Rechner - wird je ein Befehl ausgeführt.

Allerdings hat dieses "Pipelining" zugleich den Nachteil, daß er nur bei großen Datenfeldern mit streng regelmäßiger Struktur zu wirklich hohem Tempo führt. Denn immer, wenn zwischen verschiedenen Berechnungsprozessen umgeschaltet wird, muß das Rechen-Fließband ja erst einmal "geleert" und dann mit neuen Operanden-sequenzen neu "gefüllt" werden. Das bedeutet Leerlauf und kostet natürlich Zeit.

Diese klassischen Supercomputer, zu denen sich später auch Maschinen japanischer Hersteller wie etwa Fujitsu gesellten, können heute mit einer großen Zahl hochspezialisierter Programme arbeiten, die spezifisch auf die Vektortechnik zugeschnitten sind.

Doch obwohl diese breite Programmbasis bis heute ein wichtiges Kaufargument ist, gerieten die herkömmlichen Vektormaschinen in den letzten Jahren immer stärker unter Druck. Minisupercomputer, wie etwa von Convex, machen ihnen zunehmend Konkurrenz, versprechen sie doch, dank neuartiger Technik rund zehnmal so viele Flops pro Mark zu bieten wie ihre weitaus größeren und schnelleren Konkurrenten.

Handelt es sich bei diesen Minisuper-Maschinen im Grunde nur um kleinere, den herkömmlichen Spitzenmodellen architektonisch ähnliche Varianten - wodurch sie in weiten Bereichen auch die alten Programme übernehmen können - , so erzwingt eine zweite Linie von Angreifern inzwischen ein Umdenken auf breiter Front. Denn in den letzten Jahren weiteiferten die traditionellen Supermaschinen mehr und mehr mit neuartigen Parallelarchitekturen, die vor allem zwei Punkte für sich ins Feld führen können: Erstens werden sie auf der Basis von Standard-Chips gebaut und können mithin sehr billig geliefert werden, zweitens kennen sie theoretisch keine Leistungsgrenze. Bei den hochgradig spezialisierten Recheneinheiten der herkömmlichen Vektorrechner hingegen sind die Grenzen einer weiteren Leistungssteigerung bereits absehbar.

Zwar ist es für Informatiker nach wie vor ein Alptraum, bewährte Fortran-Programme für Vektorrechner auf parallele Architekturen zu übertragen (auch wenn die zusehends besser werdenden Compiler ihnen einiges an Arbeit abnehmen), doch letzten Endes haben sie kaum mehr eine Wahl.

Die Zukunft gehört den parallelen Systemen

Mehr und mehr hat sich die Überzeugung durchgesetzt, daß den kostengünstigen und theoretisch unbegrenzt ausbaubaren parallelen Systemen wohl die Zukunft gehört. Man wird sich also durch den zähen Brei des Parallelisierens bewährter Vektoralgorithmen "durchlöffeln" müssen, will man je das dahinter verborgene Schlaraffenland der parallelen Architekturen erreichen.

Bei den parallelen Maschinen von heute und morgen kann man eine Reihe architektonischer Unterschiede ausmachen. Vor allem geht es dabei um die Frage der internen Koppelung der Prozessoren, um Bus-, Baum-, Gitter- oder sogenannte Hyperkubus Strukturen. Doch ist hier auch nach dem Umfang der jeweils einem Prozessor zugeordneten lokalen Speichereinheiten sowie nach dem Volumen des globalen Speichers - und der relativen Größe der beiden - zu fragen. Eine wesentliche Rolle spielt zudem die Art der Prozessoren: Während manche Parallelrechner, insbesondere die Intel-IPSC-Maschinen oder auch die Aachener Parsytec-Rechner, auf Standard-Mikroprozessoren des freien Marktes (i860 beziehungsweise Transputer) basieren, arbeiten in anderen Systemen - etwa in den Modellen aus dem Hause Thinking Machines - ganz spezielle Prozessoren.

Auch Traditionalisten orientieren sich um

Wie zielstrebig die Fachwelt sich derzeit in Richtung massiv paralleler Architekturen mit Hunderten oder gar Tausenden von Prozessoren orientiert zeigt wohl nichts besser als die Beobachtung, daß selbst ein traditionsverhafteter Vektorrechner-Hersteller wie Cray - der bislang allenfalls acht Prozessoren parallel betrieben hat - beginnt, sich in dieser Richtung zu engagieren. Unlängst verhieß auf einer Fachkonferenz ein führender Vertreter des Parallel-Lagers nur noch "seinen" Konzepten eine hoffnungsfrohe Zukunft und prophezeite, schon in wenigen Jahren werde es mit herkömmlichen Supercomputern der Gattung "hochgezüchteter Spezialprozessor" aus und vorbei sein. Keiner der rund 1000 anwesenden Experten widersprach.

Die grundlegende Neuorientierung hin zu parallelen Rechnern hat ihre Ursache nicht zuletzt in den raschen Fortschritten beim Parallelisieren der verschiedenen Aufgabenstellungen. Kürzlich beispielsweise gelang US-Ingenieuren auf einem massiv parallelen Rechner eine Simulation, von der man angenommen hatte, daß weder ein konventioneller Vektorrechner noch irgend ein Parallelrechner sie bewältigen könne. Durch neuartige Parallelisierungs-Techniken kamen die Wissenschaftler dennoch zum Ziel - und die parallelen Architekturen verbuchten einen weiteren Punkt.

Technik und Wissenschaft nicht die einzige Domäne

Bei dieser höchst spekulativen Simulation wurden Gleichungssysteme mit 54 000 Variablen bearbeitet, die, zu Papier gebracht, dem Umfang von 40 Enzyklopädien entsprächen. Und die 1015 mathematischen Basis-Operationen, die es hier auszuführen galt, beanspruchten die Anlage immerhin eine Woche lang Tag und Nacht.

Auch wenn die meisten bei Supercomputern noch immer an die Bereiche Wissenschaft und Technik denken - Experten wissen längst, daß damit nur ein Teil der Anwendungsfelder beschrieben ist. So kann man massiv parallele Rechner sehr gut zum schnellen Auffinden von Informationen in umfangreichen Text-Datenbanken benutzen: Dabei suchen dann gewissermaßen Tausende einzelner Bibliothekare gleichzeitig in jeweils nur einem kleinen Teil der gesamten Textmenge, wodurch jeder einzelne mit seiner Teilaufgabe sehr schnell fertig ist.

Beachtlicher Boom im Geschäft mit den Riesen

Auch beim Herausfinden subtiler Zusammenhänge zwischen großen Mengen atomarer Datenelemente, wie sie etwa bei Kreditkarten-Organisationen anfallen, sollen sich massiv parallele Rechner mehr und mehr bewähren. Hier dienen sie beispielsweise dazu, klare Merkmalsprofile des Kaufverhaltens der einzelnen Kartenbesitzer herauszuarbeiten - und so eine Art von "gläsernem Menschen" zu erzeugen, den Banken und Handel fortan noch gezielter umwerben - und manipulieren? - können als bisher.

Unter kommerziellem Aspekt sind Supercomputer derzeit ein ausgesprochen interessanter Markt: 1991 rechnet man mit einem weltweiten Umsatz von 41 Milliarden Dollar bei technischwissenschaftlichen Rechnern - knapp das Doppelte der 21 Milliarden von 1987. Im Sektor Supercomputer ist dabei seit längerem ein beachtlicher Boom zu verzeichnen: Betrug das einschlägige Marktvolumen 1980 erst 89 Millionen Dollar, so erreichte es 1990 mit 1,1 Milliarden bereits rund das Zwölffache. Jedoch profitierten davon nicht alle Anbieter in gleichem Maße: Während vor allem die Japaner stark zulegten, sackte Crays Marktanteil von 90 auf angeblich 52 Prozent.

Kannte man in der Frühzeit der Datentechnik im Grunde nur isolierte, architektonisch stark unterschiedliche Computer wie etwa die frühen Univac-, IBM-, oder Burroughs-Maschinen, so konnte man bereits in den 60ern die Ausbildung einer Spezialisierung beobachten: Einerseits etablierte sich der dominierende Typus der Universalrechner, andererseits gaben spezielle Vektor- und erste Parallelmaschinen (Feldrechner) ihr Debut.

Universalrechner sind und bleiben optimal geeignet, wenn es gilt, allgemeine Aufgaben der elektronischen Datenverarbeitung wahrzunehmen, also etwa ein typisches Buchhaltungs-System zu betreiben. Vektormaschinen dagegen brillieren aufgrund ihrer architektonischen Besonderheiten bei anspruchsvollen technisch-wissenschaftlichen Aufgaben.

Heute indes verwischt sich diese Abgrenzung zwischen kaufmännischen und technischen Systemen vor allem bei den kleineren Rechnertypen mehr und mehr: Bessere PCs und Arbeitsstationen verfügen längst schon über spezielle Zusatzprozessoren für Gleitkomma-Operationen. Damit wird aus ihnen zwar noch lange kein Vektorrechner, doch immerhin macht ein solcher Koprozessor aus ihnen, trotz konventioneller Architektur, im Handumdrehen ein auch Techniker und Forscher ansprechendes Gerät, das die herkömmlichen Abgrenzungen überwindet. Und die typische Kombination von Standardprozessor plus Gleitkomma-Beschleuniger, die derartige Kleinrechner heute kennzeichnet, stellt zugleich auch das Herz der Rechnerknoten moderner Parallelmaschinen mit ihren Hunderten bis Tausenden derartiger Prozessoren dar.

Parallel ist nicht gleich parallel

Auch die hochmoderne Gilde der Parallelrechner ist vom Rest der Computerwelt bei weitem nicht so scharf abgegrenzt, wie dies manchmal suggeriert wird. Denn die herkömmlichen IBM-, Amdahl- und sonstigen Universalrechner werden in ihren schnelleren Versionen heute bereits als eine Art einfach strukturierter Parallelmaschinen geliefert, die zwei, vier, sechs oder acht Recheneinheiten umfassen. Gleiches gilt auch für herkömmliche Vektorrechner, wie sie etwa Cray baut, bei denen man am oberen Ende der Leistungsskala auch schon Parallelkonfigurationen mit bis zu acht Prozessoren bewundern kann.

Zwar zeigen sich bei näherer Betrachtung durchaus gewichtige Unterschiede zwischen einerseits grobkörnig-parallelisierten Anlagen, wie etwa den genannten Achter-Gruppierungen, und andererseits feinkörnig parallelisierten Installationen, beispielsweise einer "Connection Machine" mit ihren bis zu 65000 Prozessoren.

Doch ändert dies nichts am Prinzip, daß die Zukunft offenbar Einheiten gehört, die die gegebene Arbeitslast auf möglichst viele gleichzeitig aktive Bearbeitungselemente aufteilen.

Mit Fließband rechnet der Computer schneller

Gerade dieser Trick des Aufteilens einer gegebenen Rechenlast auf mehrere, parallel arbeitende Schaltungseinheiten war im Grunde bereits das Erfolgsgeheimnis der allerersten Feld und Vektorrechner. Denn der "Fließbandbetrieb" im Innern einer solchen Maschine hat letztlich denselben Effekt, der bei der Montage eines Autos durch viele Arbeiter, die gleichzeitig und taktgesteuert phasenverschoben agieren, erzielt wird: Es geht wesentlich schneller, als wenn nur ein Prozessor rechnete beziehungsweise wenn Herr Daimler seinen Wagen ganz allein zusammenschraubte.

Ein zentraler Streitpunkt beim Vergleichen der Performance von Supercomputern ist stets die Meßlatte, die man anlegt. Allzu sehr nämlich hängen die Testergebnisse von der jeweiligen Bauart des Rechners sowie von den Besonderheiten der benutzten Benchmark-Programme ab. Mit den bekannten Whetstone-, Dhrystone-, Linpack- oder neuerdings auch Specmark-Testprozeduren allein kommt man jedenfalls nicht allzuweit.

Fachleute diskutieren Supercomputer-Leistung gern auf der Basis sogenannter CUP-Werte, wobei CUP für "Cray-Unit of Performance" steht: Ein Rechner mit einer Leistung von 1 CUP bearbeitet ein einzelnes, rechenintensives Problem genauso schnell wie eine frühe Cray-1S, eine der Vorläuferinnen der modernen Höchstleistungs-Vektorrechner.

Konkret errechnet sich der jeweilige CUP-Wert nach heutiger Definition aus einer gewichteten Kombination der verbreiteten und allgemein anerkannten Benchmarkprogramme Dhrystone, Whetstone und Linpack (mit 100-x-100- und 1000-x-1000-Matrizen).

Dabei testet Dhrystone die Geschwindigkeit von Ganzzahl-Operationen, wie sie etwa beim Kompilieren von Programmen, beim Ablauf von Betriebssystem-Dienstprogrammen, bei Prüfungen auf die Einhaltung von Entwurfsregeln oder auch bei Logik-Simulationen vorkommen.

Mit den Whetstone-Tests, die aus dem nationalen Physik-Labor im englischen Whetstone stammen, wird die Rechenleistung bei skalaren (also nicht auf Vektoren beziehungsweise Matrizen arbeitenden) Gleitkomma-Operationen sowie bei kleineren Programmen ohne inhärenten Parallelismus ermittelt.

Anders wiederum die Linpack-Prüfungen, mit denen man feststellt, wie gut ein Rechner mit linearen Gleichungssystemen - der Spezialität klassischer Supercomputer des Vektorrechner-Typs - zurechtkommt. Diese Testprogramme erlauben eine mäßige bis - im Falle des 1000-x-1000-Linpack - hochgradige Parallelität.

Zur Bewertung eines Supercomputers gehen die Resultate eines Supercomputers gehen die Resultate dieser vier Benchmarks mit folgender Gewichtung in das Gesamtergebnis ein: Dhrystone mit fünf Prozent des Endwerts, Whetstone mit 15 Prozent, Linpack 1000 x 1000 mit 30 und Linpack 100 x 100 mit 50 Prozent.

In der Praxis sieht es doch wieder anders aus

Eine zweite Methode zur Überprüfung schneller Supercomputer stellen die "Perfect-Tests" dar, die das Zentrum für Supercomputer-Forschung und -Entwicklung an der Universität Illinois entwickelt hat. Sie bestehen aus 13 einzelnen Programmen mit zusammen 50 000 Zeilen Fortran-Code, die praktische Anwendungsprogramme aus den Bereichen Strömungsmechanik, Signalverarbeitung, Modellierung chemischer und physikalischer Systeme sowie Entwickeln und Konstruieren repräsentieren.

Die Resultate des Perfect-Tests sowie der CUP-Prüfungen ergeben, wie man einem kleinen Vergleich entnehmen kann annähernd das gleiche - und damit das wohl endlich realistische - Bild. Denn ihnen zufolge kommt ein - vergleichsweise billiger - Parallelprozessor-Minisupercomputer des Typs Alliant FX/8 auf 1,75 Perfect-Mflops beziehungsweise auf 0,3 CUPs, während die entsprechenden Werte für eine IBM 3090-600S VF (mit Vektor-Zusatzeinheit) auf 11,3 und 2,4 sowie für eine Cray-X-MP/416 auf 24,4 und 4,3 lauten.

Diese nach Unterlagen von Alliant zusammengestellten Zahlen besagen also, daß die IBM- und die Cray-Maschine nach Perfect-Bewertung 6,5- beziehungsweise 13,9mal so schnell arbeiten wie der Alliant-Rechner. Nach der CUP-Bewertung sind sie 7,7- beziehungsweise 13,8mal so schnell. Beide Prüfprozeduren liefern also annähernd das gleiche Resultat. Dennoch gilt auch für sie, was generell für alle Benchmark-Ergebnisse gilt: Sie können nur grobe Anhaltspunkte bieten, denn im konkreten Einzelfall sehen die Dinge doch wieder ganz anders aus.