Eine Plattform für die Zukunft

Europas Parallelrechner trotzen dem Gebot des "Buy American"

16.10.1992

Das Rennen um das "Blaue Band" des Hochleistungs-Parallelrechnens geht über viele Etappen: Vom Start weg waren viele dabei, Seiten- und Quereinsteiger kamen dazu, einige mußten auch aufgeben. In dieser für die kommenden Jahrzehnte entscheidenden Technik des Höchstleistungs-Rechnens - von manchen als strategische Waffen auf dem Schlachtfeld der Zukunftstechnologien bezeichnet - liegen die Europäer im vorderen Spitzenfeld.

In den USA hat man diese Zeichen erkannt und versucht, mit erheblichen Anstrengungen wie öffentlichen Förderungsprogrammen den technologischen Vorsprung Europas aufzuholen. Das mangelnde Selbstvertrauen Europas in die eigene Spitzentechnologie sorgt bei dieser Aufholjagd für eine - unerwartete oder eingeplante - Hilfestellung.

Anscheinend haben wir Europäer uns daran gewöhnt, in der zweiten oder dritten Reihe zu stehen anstatt wie noch vor wenigen Jahrzehnten Weltmaßstäbe im Rechnerbau zu setzen. Dabei sind gewichtige Pluspunkte zu verzeichnen: Europäer haben - vielleicht auch durch die volkswirtschaftliche Bedeutung des Maschinenbaues - immer in Systemen gedacht und gehandelt.

Elektromaschinenbau, Packaging- oder Kühlungstechniken sind Dinge, die wir sehr gut beherrschen und die beim Supercomputing der nächsten Generationen neben der Software für große Prozessorzahlen entscheidend sind.

Vorsprung bei modularen parallelen Systemen

Europa braucht keine Ressourcen zu verschwenden - es hat sich sehr früh auf Parallelverarbeitung konzentriert, ohne die Trägheitsmomente einer beherrschenden Vektor-Supercomputerindustrie überwinden zu müssen.

Ebenso früh konnte man sich auf den europäischen kommunikationsorientierten Prozessor konzentrieren, der heute den Mainstream der Transputer-Klasse anführt. Aus diesen und anderen Faktoren resultiert die "europäische Linie", der europäische Vorsprung: vollmodulare, supermassiv-parallele Systeme wie der Parsytec GC mit sehr vielen relativ einfachen Prozessoren - statt weniger Super-Chips - und mit integrierter Kommunikation als Bestandteil der Einzelprozessoren ermöglichen uns den Bau sehr großer, einfach zu erweiternder und hochleistungsfähiger Rechner.

Modularität durch Skalierbarkeit bestimmt die Konstruktion eines supermassiv-parallelen Rechners bis ins Detail, sie ist die Basis für Entry-Level-Modelle.

Ein derartiges supermassivparalleles System ist genaugenommen nur in einer Richtung skalierbar - von oben nach unten, vom größtmöglichen zum kleinen System hin. Wenn eine Anwendung auf 1000 Prozessoren funktioniert, dann läuft sie auch auf 32 - nur so kann der Benutzer sicher sein, daß seine Software zukunftskompatibel bleibt.

Paralleles Hochleistungsrechnen profitiert - wie alle anderen Technologien auch - von der kontinuierlichen Steigerung der Prozessor-Rechenleistung. Einzelprozessoren werden immer schneller und leistungsfähiger, ein gewissermaßen automatischer Zuwachs, in dem sich der allgemeine technische Fortschritt spiegelt.

Parallelverarbeitungssysteme nutzen zusätzlich einen weiteren für sie wesentlich wichtigeren Trend: die extreme Zunahme der Prozessoranzahl, die man zu beherrschen lernt.

Dieser zweite - und im Endeffekt entscheidende - Vorteil setzt jedoch voraus, daß man diese zusätzliche Leistung auch "auf die Straße bekommt", das heißt, in konkreten Anwendungen nutzen kann. Gerade bei großen Prozessorzahlen trennt sich hier die Spreu vom Weizen. Mängel im Kommunikationsverhalten, hervorgerufen durch eine "kurzsichtige" Makrostruktur eines Parallelrechners oder durch die Anziehungskraft der reinen Peak-Prozessorleistung, die einen leicht vergessen läßt, daß man damit eine 20fach schlechtere Kommunikationsaufsetzzeit in Kauf nehmen muß, führen zu einem Ausnutzungsgrad von zirka 15 Prozent der Leistung großer Parallelrechner.

Darüber hinaus ergibt sich ein noch höherer Leistungsverlust dadurch, daß viele Parallelrechner schlicht und einfach nicht stabil laufen, wie ein objektiver Blick über verschiedene Installationsstandorte sofort erkennen läßt.

Waren Parallelverarbeitungssysteme vor drei Jahren noch durch einige Dutzend Prozessoren gekennzeichnet, so befinden wir uns heute - in der dritten Generation der Parallelrechner - in Bereichen, wo Maschinen mit Tausenden und Zehntausenden einzelner Hochleistungsprozessoren nicht nur denkbar, sondern marktreif sind. MIMD (Multiple instructions, multiple data), also verteilter Speicher und größte Prozessorzahlen, stößt in neue Dimensionen der absoluten Systemleistung vor - und zu einem neuen Preis-Leistungs-Verhältnis.

Skalierbarkeit auch Frage der Software

Heute schon nähert man sich mit Parallelrechnern wie dem Parsytec GCel bis auf wenige Prozentpunkte dem Preis-Leistungs-Verhältnis von 500 Mark pro (peak)Mflops oder 65 Mark pro (peak)MIPS der nächsten Rechner-Generation. Einziger praktischer Unterschied ist zunächst noch die Skalierbarkeit - die Ausbaufähigkeit und die maximale Absolutleistung, die bei der heutigen Technologie bis etwa 20 Gflops, bei der kommenden Rechner-Generation jedoch bis an die Tflops-Marke reicht.

Die Skalierbarkeit eines supermassiv-parallelen Rechners ist allerdings nicht allein die Frage der Maschinenarchitektur, sondern auch der Software. Wer in diese Zukunftstechnologie einsteigen will - oder muß -, ist nicht gezwungen, aus Sorge um seine Software auf den nächsten Leistungsschub zu warten: der frühe Einsatz generationsübergreifender Betriebssoftware wie "Parix" (Parallel Extension to Unix) sichert auf diese Weise langfristig die heutige Investition in Hard- und Software bis in die Tflops-Technologie hinein.

Betriebssystem für größte Prozessorzahlen

Parix als verteilte Betriebsumgebung für große Parallelrechner unterliegt - ebenso wie die GC-Hardware - den Designanforderungen nach Skalierbarkeit, Höchstleistung, Offenheit und Zuverlässigkeit.

Auf dieser Basis - verbunden mit dem Wunsch, wo immer möglich vorhandene Standards zu nutzen - wurde Parix entwickelt: Grundidee ist die Nutzung vieler Rechenknoten für "leichtgewichtige", Anwendungsprozesse und weniger Unix-Knoten für die Betriebssystem-Umgebung.

Diese für ein paralleles System typische Aufgabenverteilung führt zu einer linearen Betriebsumgebung, die ohne nennenswerte Leistungseinbußen auch für größte Prozessorzahlen tauglich ist. Mit Blick auf hohe Prozessorzahlen führt der Weg einer nicht-linearen Betriebsumgebung zwangsläufig in eine Sackgasse. Zeit- und Kosten-Limitierungen bilden die Barrieren bei der Nutzung von Supercomputern. Die Simulation von Ökosystem , etwa der Klimas, der Ozeane oder des Wetters, sind Einsatzbereiche, wo Parallelrechner ihre Stärken ausspielen können.

Für die Automobilindustrie beispielsweise existieren Standardprogramme für den "Silicon-Windkanal" oder für die Simulation von Verbrennungsprozessen. All diesen Anwendungen liegt die Strömungsdynamik zugrunde: Die Navier-Stokes-Gleichungen lassen sich vorzüglich parallelisieren, speziell im turbulenten Fall, bei hohen Reynold-Zahlen oder bei Berücksichtigung chemischer Reaktionen, etwa bei Verbrennungsprozessoren. Dies belegen mittlerweile Standardprodukte, etwa "Phoenix" oder "Fastest", ebenso wie die Resultate des Sonderforschungsbereichs Strömungsdynamik, die an dem renommierten Institut für Aerodynamik der RWTH Aachen unter Professor Krause und an 14 weiteren Universitäten erzielt wurden.

Im Mittelpunkt steht hier ein Super-Cluster, ein 256-Prozessorsystem, das mittlerweile rund um die Uhr und sieben Tage die Woche komplett ausgelastet ist.

Weitere Anwendungen in der Automobilindustrie betreffen Strukturanalysen, also Finite-Elemente-Programme, die beispielsweise die Simulation eines Crash-Tests ermöglichen. Gut strukturierte Programme wie "Pamcrash" oder "Permas" sind inzwischen parallelisiert und erzielen eine außergewöhnliche Leistung.

Zeitlimitierungen bilden auch in der Grundlagenforschung Einschränkungen. Alle Computerexperimente in nicht-linearen Situationen erfordern Rechenleistungen, die in Gflops, also 1000 Millionen Operationen pro Sekunde, zählen. In anderen Anwendungen, beispielsweise in der Moleküldynamik, im Maschinenbau oder bei betriebs- und volkswirtschaftliche Zusammenhängen, ist es wegen der hohen Rechenkosten oft noch nicht wirtschaftlich vertretbar, Simulationen und Optimierungen per Computer zu betreiben: Auch hier sind Parallelrechner eine Alternative mit deutlich günstigerem Preis-Leistungs-Verhältnis. Andere Anwendungen betreffen die Computeranimation, speziell beim Rendering, oder Cyber-Space-Produkte, die schon längst aus der Wehrtechnik in andere Bereiche, beispielsweise Design, (Innen-)Architektur oder Ausbildung vorgedrungen sind.

Anwendungsbereiche, die für Parallelrechner zur Zeit erschlossen werden, sind Medizintechnik (Tomographie), Verschlüsselungsalgorithmen (Kryptographie) oder kommerzielle Anwendungen (Datenbanken etwa, Oracle wird beispielsweise auf Transputersysteme portiert.)

Die Produkte von Parsytec basieren auf dem "T805", einem transputerartigen Prozessor. Als "transputerartig" werden Prozessoren bezeichnet, die neben einer hohen Rechenleistung auch eine hohe Kommunikationsleistung besitzen, die über Links direkt von Prozessor zu Prozessor funktioniert.

Weitere Vertreter der sich ständig vergrößernden Transputerfamilie sind neben dem "T800" und dem zur Zeit in Produktion befindlichen "T9000" von SGS Thomson der "Warp" von Intel, der "C40" von Texas Instruments und - kurz vor der offiziellen Ankündigung - ein neuer Prozessor von Motorola. All diese Prozessoren stellen Elementarbausteine von Parallelrechnern dar.

Ihre Rolle für die Leistungsfähigkeit dieser Parallelrechner wird heute oft überschätzt. Die Architektur von Parallelrechnern, die Balance zwischen Rechen- und Kommunikationsleistung, das effiziente synchrone oder asynchrone Routen von Prozessor zu Prozessor entscheiden über die Leistungfähigkeit des Komplettsystems mehr als die nackte Leistung eines einzelnen Prozessors.

Erforderlich ist eine optimierte Systemumgebung

Erst eine optimierte und an Standards orientierte Systemumgebung erschließt hohe Prozessorzahlen, also massiv-parallele Rechner. "Schlanke", aber viele Knoten bieten die Chance, Parallelverarbeitung vollständig zu verstehen und zu nutzen. Beherrscht man erst mit einer Anwendung hohe Prozessorzahlen, so profitiert man automatisch vom Leistungszuwachs der nächsten Prozessorgeneration.

Bezüglich der Architektur von Parallelrechnern ist längst die erste Phase vorbei, in der lediglich Technologien evaluiert wurden. Standardisierungen auf vielen Ebenen halten jetzt Einzug, über die Grundarchitekturen besteht Einigkeit. So hat erst vor kurzem der größte amerikanische Anbieter in der Parallelverarbeitung erkannt, daß die Architektur des SIMD (Single instruction, multiple data) die Möglichkeiten echter Parallelverarbeitung nicht ausschöpft und ist auf das europäische Konzept, auf die MIMD-Technologie (Multiple instruction, multiple data), eingeschwenkt.

Nicht nur solche Gesinnungswechsel sind Zeichen dafür, daß in der Parallelverarbeitung zur Zeit ein hartes Kopf-an-Kopf-Rennen zwischen amerikanischer und europäischer Technologie ausgetragen wird. Alle Supercomputer-Hersteller haben inzwischen eingesehen, daß in der Parallelverarbeitung die Zukunft liegt. So bemüht man sich allerorten, noch rasch auf den fahrenden Zug zu springen, ohne jedoch das Know-how der Europäer einzuholen, die ja von Beginn an auf MIMD-Parallelverarbeitung gesetzt haben.

Dieser Umstand bietet für Europa - vielleicht zum letzten Mal - die Chance, in die Schlüsseltechnologie Supercomputing einzusteigen. Voraussetzung dafür ist eine schnell wachsende "Community", die aktiv vorwärtstreibt und die sich vom jahrzehntelang befolgten Imperativ "Buy American" verabschiedet.

* Manfred Heinze ist Pressesprecher bei der Aachener Parsytec Computer GmbH.