Supercomputing '91 in Albuquerque (Teil 1)

Highlights und Hintergründe von der Supercomputing '91

27.12.1991

Unter den Messen und Konferenzen zum Thema Supercomputer und Parallelrechner hat sich mittlerweile die seit 1988 jährlich stattfindende und gemeinsam von ACM und IEEE durchgeführte Supercomputing-Veranstaltung als wichtigste und größte Veranstaltung auf diesem Gebiet etabliert. Diesem Ruf wurde die diesjährige Supercomputing '91 in Albuquerque (New Mexico) in besonderem Maße gerecht.

Ihre Bedeutung dokumentierte sich nicht nur in der großen Zahl von Teilnehmern (über 4000) oder im vorweihnachtlichen Ankündigungsreigen der Hersteller: Die gleichzeitige Bewilligung der Mittel für die HPCC-Initiative durch US-Präsident George Bush zur Bewältigung der Grand Challenges und zur Stärkung der US-Wirtschaft in diesen Bereichen war sicher kein Zufall.

Bereits in der Eröffnungssitzung stand die HPCC-Initiative im Mittelpunkt des Geschehens. In seiner Einführungsansprache erläuterte Allan Bromley, ein früherer Henry-Ford-II-Professor der Physik der Yale University und jetzt zuständig bei Bush für Science and Technology, das HPCC-Programm: Danach wurde das Programm im Februar dieses Jahres aufgelegt, um die Führungsrolle der USA auf dem Gebiet des High Performance Computing and Communication zu festigen. Über die nächsten fünf Jahre hinweg werden unter anderem die individuellen Programme der vier öffentlichen Einrichtungen (Federal Agencies) NSF, NASA, DARPA und DOE (Department of Energy) auf ein gemeinsames Ziel ausgerichtet:

1. Einführung einer neuen Generation skalierbarer Parallelrechner (HPCS: High Performance Computing Systems) mit

2. entsprechender Softwaretechnologie und Algorithmen (ASTA: Advanced Software Technology and Algorithm), um echte 1-Tflop-Leistungen pro Sekunde (Faktor 1000 gegenüber heute) zu erreichen; diese Computer sollen zunächst zur Lösung der Grand Challenges auf dem Gebiet der wissenschaftlichen und technischen Anwendungen eingesetzt werden, die heute wegen fehlender Computerressourcen (noch) nicht angegangen werden können.

3. Entwicklung eines NREN (National Research and Education Network) zur Verbindung Tausender Universitäten, High Schools, Research Labs und Firmen mit einer Übertragungsgeschwindigkeit bis zu 1 Gbit/s.

4. Entwicklung eines Ausbildungsprogramms (BRHR: Basic Research and Human Resources), beginnend in den High Schools, um die benötigten Spezialisten zur Beherrschung der unter 1 und 2 aufgeführten Technologien zu rekrutieren.

In diesem Zusammenhang lobte Bromley besonders den Staat New Mexico, da hier nicht nur die Teilnahme einer ganzen Reihe von High-School-Studenten an dieser Supercomputer Conference ermöglicht wurde, sondern auch diverse Programme aufgelegt wurden, um den Schülern den Zugang zu Supercomputerzentren zu ermöglichen. Die Regierung läßt sich dieses ehrgeizige Ziel etwas kosten: So wurden bereits dieses Jahr 638 Millionen Dollar bereitgestellt, die jährlichen Steigerungsraten betragen 30 Prozent, so daß man sehr bald über eine Milliarde Dollar pro Jahr für HPCC aufbringen wird.

Interessant ist die Aufteilung dieser Gelder auf die vier Teilbereiche HPCS (25 Prozent), ASTA (41 Prozent), NREN (14 Prozent) und BRHR (20 Prozent). Was nun die baldige Realisierung eines Tflop-Supercomputers betrifft, sagte Bromley wörtlich: "Es ist unser Ziel, Hardware zu entwickeln, deren Leistung im Tflop-Bereich angesiedelt ist. Wir gehen davon aus, daß wir dieses Ziel bis Ende 1993 erreicht haben werden."

Hier scheint aber eher der Wunsch Vater des Gedankens zu sein beziehungsweise der Einfluß der Hersteller wie Thinking Machines (TMC) und Intel durchzudringen, die einen Tflop-Rechner schon 1992/93 für möglich halten. Die Gordon Bell Award Presentations während der Konferenz rückte dann auch wieder die harte Realität stärker in den Mittelpunkt. So wurde eine Anwendung aus dem Gebiet "Seismic Modelling" mit der höchsten erzielten Leistung im Jahre 1990 mit 14 Gflop/s auf einer CM2 ausgezeichnet.

Der Preis für das beste Preis-Leistungs-Verhältnis ging nach Oak Ridge für eine Anwendung aus dem Gebiet "MateriaI Science" und erzielte 0,8 Gflop/s pro eine Million Dollar auf einem Intel iPSC/860. Eine Hochrechnung für dieses "beste" Preis-Leistungs-Ergebnis würde für 1 Tflop immerhin 1,25 Milliarden Dollar ergeben, und auch die theoretisch denkbaren 16 000 Knoten einer CM-5 (siehe CW Nr. 46 vom 15. November 1991, S. 27: "Durchgängige Anwendungen...") würden ihre Spitzenleistung von 2 Tflop/s (was eher 200 Gflop/s tatsächliche Leistung erwarten läßt) für 320 Millionen Dollar erbringen.

"Wir können heute Rechner bauen, die niemand bezahlen kann", bemerkte hierzu treffend Burton Smith. Mit dem Tflop-Rechner wird man sich also noch einige Jahre gedulden müssen, neben einem um den Faktor 10 zu verbessernden Preis-Leistungs-Verhältnis müssen noch viele Softwareprobleme gelöst werden.

Von Cray erwartet man 1993 massiv-parallelen Rechner

Dem allgegenwärtigen Trend zu massiv-parallelen Systemen scheint auch der Marktführer Cray Research verstärkt Rechnung zu tragen. Trotz der durchaus geglückten Einführung der C90 mit maximal 16 CPUs (siehe CW Nr. 47 vom 22. November 1991, Seite 27: "Cray Research steigt..."), die lieferbar und bereits siebenmal verkauft wurde - unter anderem in Europa an das ECMWF (European Center for Medium Weather Forecast) -, erwartet die Branche das erste massiv-parallele Produkt der Firma mittlerweile eher für 1993 als für Mitte des Jahrzehnts.

Daß die C90 selbst alles andere als ein Papiertiger ist, bewies Jack Dongarra in Albuquerque: Der Test dieser Maschine mit Hilfe seines 100x100- und 1000x1000-Linpack-Benchmarks ergab folgende Leistungen in Mflop/s (Vergleiche hierzu auch CW Nr. 50 vom 13. Dezember 1991, Seite 28: "Der Anwender hätte sich..."):

Für eine Problemgröße 10 000 x 10 000 erzielte er als beste Leistung auf 16 Prozessoren 13,7 Gflop/s und damit fast 90 Prozent der Spitzenleistung des vermessenen Prototyps.

Gewachsenes Selbstbewußtsein von TCM und Intel

Cray Research verstärkt andererseits die Aktivitäten im unteren Marktsegment, um auch dort besser mit den billigen Einstiegsmodellen der Hersteller massiv-paralleler Rechner konkurrieren zu können. Neben der Übernahme von FPS (Floating Point Systems) laufen nach wie vor Verhandlungen mit DEC über einen Vertrieb der Cray-Einstiegsmodelle YMP-EL durch DEC.

Cray würde bei einer Übereinkunft für diesen bisher fremden Markt einen erfahrenen Vertriebspartner gewinnen. Man fragt sich allerdings, wie DEC noch mit seiner diffusen Supercomputer-Politik klarkommen will. Da gibt es die eigenen Vektorzusätze für die VAX 9000VP und 6000VP, als direktes Konkurrenzprodukt eventuell die Cray YMP-EL und auch das massiv-parallele System MPP1200.

Hierzulande ist dieser Parallelrechner als Maspar-1 bekannt, das Produkt des DEC-Spinoffs Maspar Computer Corp.. Potentielle DEC-Kunden könnten ob dieser Vielfalt zumindest leicht verwirrt werden.

Seymour Cray, der Vater der Cray 1 und Cray 2, treibt mit großer Ausdauer die Entwicklung seiner Cray 3 voran. Bisheriges Resultat dieses bereits mehrere Jahre verzögerten Projekts ist eine in Livermore installierte 4-Prozessor-Maschine. Technische Daten wie 2 Nanosekunden Zykluszeit und die extrem hohe Integrationsdichte der gesamten Maschine (etwa ein Kubikmeter "umbauter Raum" verglichen mit den Turnhallenmaßen einer NEC SX/3) zeigen, daß die verwendete Technik zum besten gehört, was heute möglich ist.

Das allein ist aber kein Garant für einen kommerziellen Erfolg. Wegen der großen Verzögerung der Einführung und der starken Konkurrenz durch eine C90 mit ähnlichen Leistungsdaten ist dieser mittlerweile sehr zweifelhaft. Thinking Machines und Intel belegten neben Cray Research die größten Stände auf der Ausstellung, was das gewachsene Selbstbewußtsein dieser Firmen und ihren Anspruch untermauert, mit ihren CM-5 und Paragon die Führung im Supercomputing zu übernehmen.

Vorsicht ist geboten bei Vorschußlorbeeren

TMC hatte die CM-5 sehr geschickt bereits im Vorfeld der Konferenz angekündigt. Dabei wurde für die ab Mitte 1992 verfügbare Maschine nicht mit Vorschußlorbeeren gegeizt. Daß diese ohne jede Reflexion auch in der deutschen Presse (zum Beispiel Spiegel 46/91, Seite 328) wiedergegeben wurden, obwohl der Number-Crunching-Teil des Rechners noch gar nicht vollendet wurde, ist symptomatisch dafür, wie eng bei technischen Themen Phantasie und Wirklichkeit auch in seriösen Zeitschriften beieinander liegen können. Aussagen wie, "da die CM5 Programme vom IBM-Großrechner verarbeiten könnte", entbehren heute noch jeder Grundlage.

Betrachtet man Kosten und Größe, so umfaßt eine realistische Ausbaugröße der CM5 bis zu 1024 Knoten, integriert in insgesamt vier würfelförmigen Schränken. Jeder Knoten enthält dabei einen Sparc-Prozessor als Kontroll- und Serviceprozessor, zu dem bei Bedarf vier Vektor-Koprozessoren mit je 32 Mflop/s Rechenleistung für Number-Crunching hinzugefügt werden können.

Die bisher installierten Prototypen beinhalten nur die Sparc-Prozessoren, die proprietären Vektorprozessoren existieren noch nicht. Als Eckdaten für eine solche Konfiguration mit 1024 Knoten, die laut TMC bereits bestellt wurde, ergeben sich 128 Gflop/s Spitzenleistung und 32 GB Hauptspeicher zu einem Preis in der Größenordnung von 30 Millionen Dollar.

Lücke zwischen theoretischer und praktischer Leistung

Die durch die Presse geisternde theoretisch mögliche Maximalkonfiguration von 16 384 Knoten in 64 Schränken mit 2 Tflop/s Spitzenleistung und einem Preis von 0,3 Milliarden Dollar dürfte sich beim heutigen Stand der Softwaretechnik nur schwer benutzen und noch weniger bezahlen lassen. Zudem darf man wegen der sicher nicht einfach zu beherrschenden Knoten (ein Masterprozessor und vier Ko-Vektorprozessoren mit verteiltem Speicher) auf die tatsächlich erzielbare Leistung dieser Architektur gespannt sein.

Mindestens genauso interessant wie die CM-5-Ankündigung war die der Paragon-Maschine von Intel. Dieser Parallelrechner soll ebenfalls Ende 1992 verfügbar sein. Er ist eine Weiterentwicklung der Architektur des im Mai dieses Jahres installierten Delta-Systems. In einem zweidimensionalen gitterförmigen Netzwerk mit der sehr großen Kommunikationsleistung von bis zu 200 MB/s in jeder Richtung sitzen als Knotenprozessoren die neuen Intel 860XP-CPUs, die mit 50 Megahertz getaktet sind.

Bei einer Zahl von 64 bis zu 4000 Knoten ergeben sich damit Spitzenleistungen von 5 bis zu 300 Gflop/s. Der geschätzte Preis für einen Vollausbau dieses Rechners liegt aber ebenfalls im Bereich von 100 Millionen Dollar, so daß auch hier maximal 1000 Knoten bezahlbar sein dürften.

Wegen der Schwierigkeit, gute Compiler für die 860-Architektur zu entwickeln, muß man aber auch bei diesem Rechner für viele Anwendungen mit einer großen Lücke zwischen theoretischer und praktischer Leistung rechnen. Gespannt darf man sein, was Intel hinter der Ankündigung eines Shared virtuell memory (wohlgemerkt kein virtuell shared memory) verbirgt.

Es zeigt einmal mehr, daß etliche Firmen an der Verwirklichung solcher Speicherkonzepte arbeiten. Im Rahmen einer Intel-Pressekonferenz in Albuquerque wurde bekanntgegeben, daß das Forschungszentrum Jülich Ende 1992 innerhalb des Intel External Partnership Programs die erste Paragon-Installation außerhalb der USA mit 68 Prozessoren und 5 Gflop/s Spitzenleistung erhalten wird. Für eine Übergangsphase wird Anfang 1992 ein Intel-Rechner iPSC/860 mit 32 Prozessorknoten in Jülich installiert.

Wie der Sprecher der Kernforschungsanlage (KFA) Jülich, Jürgen Hake, in Albuquerque betonte, wollen die Jülicher ihre führende Position als eines der weltweit leistungsstärksten Vektorrechnerzentren auf das Gebiet der Parallelrechner ausdehnen. Die Entscheidung des Forschungszentrums Jülich, jetzt die Weichen für die massiv-parallele Zukunft zu stellen, ist sicherlich zu begrüßen.

Keine Chance für deutsche Produkte?

Es stellt sich uns allerdings die Frage, wieso die unmittelbare Nachbarschaft zum einzigen deutschen Parallelrechner-Hersteller Parsytec in Aachen nicht eine Kooperation auf der Basis der GC-Serie ermöglicht hat. Während Thinking Maschines (TMC) auf die Softwarekompatibilität zu seinen bisherigen Rechnern festgelegt ist, gibt es mittlerweile bei den anderen Herstellern von Rechnern mit verteiltem Speicher Initiativen, nicht nur das Message Passing, sondern auch Mechanismen zur Datenaufteilung und -ausrichtung direkt in Fortran rechnerunabhängig zu implementieren.

Intel und Ncube haben bisher Interesse an einem solchen Fortran-D bekundet, mit dem ein wichtiger Schritt hin zu echt portabler und effizienter Software für Message-Passing-Architekturen getan würde.

Von Ncube, einem der verbliebenen Konkurrenten von TMC und Intel, der in Deutschland zuletzt bei BMW und IPP in München das Rennen gemacht hat, wurde dieses Jahr noch nichts über das Nachfolgemodell zu ihrem zwei Jahre alten Ncube2 bekanntgegeben. Zumindest die Ankündigung eines Konkurrenzsystems zu CM-5 und Paragon ist aber spätestens bis zur nächsten Supercomputing '92 in Minneapolis zu erwarten.

Auch ohne offizielle Ankündigung betrat dieses Jahr die Firma Kendall Square Research (KSR) die Bühne im massiv-parallelen Markt. Sie war offiziell nicht auf der Messe, lud jedoch zu einem exklusiven Abendessen in eine Bibliothek in Albuquerque ein. Viel war dort nicht zu erfahren, allerdings wurde bekannt, daß bereits ein System mit 32 Prozessoren und virtuell shared memory in Manchester in England installiert ist.

IBM tanzt auf allen Hochzeiten

Bekanntlich haben die Engländer eine Vorliebe für ungewöhnliche, exotische Dinge - beispielsweise ist ja auch ein Suprenum-Rechner in Liverpool installiert. So sagte Jim Almond, Leiter des Center for High Performance Computing in Austin, Texas, der zur Zeit etwa 5 Millionen Dollar für einen Parallelrechner zur Verfügung hat und deshalb mit allen Anbietern intensiv im Gespräch ist: "Entweder es wird ein Supererfolg mit KSR oder ein Superflop. In einem Jahr wissen wir mehr."

Burton Smith, der Anfang der 80er Jahre Vater des Denelcor-Hep war, entwickelt jetzt für Tera Computers einen Parallelrechner mit gemeinsamen Speicher für Spitzenleistungen. Wir sprachen Burton auf die gängige Meinung an, daß Shared memory nicht für massiv-parallele Rechner geeignet ist: "Ob Sie es glauben oder nicht - man kann sie auf jede beliebige Größenordnung aufblasen", war seine Antwort. Er will Ende 1993 mit einem Prototypen herauskommen. Für Juli 1993 hat er einen Vortrag über sein Konzept auf dem Supercomputer-'93-Seminar in Mannheim fest zugesagt.

IBM tanzt zur Zeit konsequent, auf allen Hochzeiten. Nachdem Floating Point Systems (FPS) mit einem heterogenen Rechner, bestehend aus Skalar-, Vektor- und Array-Prozessoren, gerade pleite ging, kündigte Big Blue mit Inpac (Integrated Parallel Accelerater) den noch fehlenden Array-Koprozessor für seine ES/9000-Mainframe-Linie an. Dieser beruht auf maximal 60 RS/6000-Prozessoren mit einer theoretischen Spitzenleistung von 4,8 Gflop/s, und wird - wie auch ein jetzt möglicher Cluster von bis zu vier ES/9000-Systemen - durch "Enhaced Clustered Fortran" (ECF) kontrolliert.

Neben der Unterstützung von SSI - der Firma von Steve Chen, der einen Rechner im Leistungsbereich von mehr als 100 Gflop/s entwickelt - hat IBM ja auch eine Softwarekooperation mit TMC gestartet. Man scheint sich bei IBM derzeit alle Türen offenhalten zu wollen, ohne konsequent und energisch eine Richtung voranzutreiben.

Minisupercomputer kontra Superworkstations

Der Markt der Minisupercomputer gerät verstärkt in das Spannungsfeld von Superworkstations mit ihren hervorragenden Preis-Leistungs-Verhältnissen und den Einstiegsmodellen der Spitzenklasse, die Wachstumspfade zu größeren Leistungen aufzeigen. Diesem letzten Zweck dient auch die für Mitte 1992 angekündigte Campus/800-Architektur von Alliant (siehe CW Nr. 48 vom 29. November 1991, Seite 23: "Alliant kommt einfach..."), die auf der bisherigen FX/2800 als Baustein beruht.

Beim Übergang von einer einzelnen FX/2800 mit gemeinsamem Memory zu einem Campus-Cluster wird der Benutzer aber zusätzlich mit einem verteilten Speicher und Message-Passing zwischen den einzelnen FX/2800-Rechnern konfrontiert. Ob dieser Weg zu höherer Leistung attraktiv genug ist, um Alliant sicher aus der Krise zu führen, ist zumindest zweifelhaft. Hoffentlich erlebt Alliant noch einen ersten Kunden für das Campus-System.

Von den Aktivitäten im Umfeld der Konferenz möchten wir abschließend zwei besonders erwähnen. Der Banquet-Vortrag, traditionell einer der Höhepunkte der Konferenz, stand dieses Jahr unter dem Titel "A Supercomputer Weathers Desert Storm" und wurde von William R. Swart, dem technischen Direktor des Joint Electronic Warfare Center in San Antonia, Texas, gehalten.

Geboten wurde aber leider eine mit Hochglanzdias von Kriegsgeräten und Videoausschnitten von Flugzeugangriffen unterlegte Werbeveranstaltung für die US-Armee. Selbst der Sprecher hatte Mühe, einen Bezug zu Supercomputern herzustellen. Bei uns entstand der Eindruck, daß eher zufällig eine Convex für die Modellierung der irakischen Radaraufklärung verwendet wurde und als Aufhänger für den insgesamt peinlichen Vortrag herhalten mußte. Convex und die nächste Supercomputing-Konferenz haben Besseres verdient.

Erfreulich und ausgesprochen interessant hingegen bot sich uns die 22. Internationale ACM Computerschachmeisterschaft dar. Es war das bisher beste Turnier dieser Art mit zwölf teilnehmenden Schachcomputern, davon mindestens vier mit der Spielstärke eines menschlichen Großmeisters.

Es siegte der hohe Favorit, der Weltmeister 'Deep Thought II' mit 5 Punkten (aus 5 Partien) vor M Chess (4 : 1), Cray Blitz und Mephisto, dem Schachcomputer aus München, mit jeweils (3: 2).

Deep Thought läuft auf einem RS/6000-Modell-550-Host, allerdings "angereichert" mit 24 Spezialschachprozessoren. Das Team des IBM T. J. Watson Research Centers schafft nunmehr beachtliche fünf Millionen Stellungsbeurteilungen pro Sekunde und stellt beispielsweise den Cray Blitz mit einer YMP-8 und "nur" 500 000 Stellungsbeurteilungen pro Sekunde weit in den Schatten. Ein Team von TMC, das mit einem Programm auf einer CM-5 antreten wollte, mußte leider seine Anmeldung kurzfristig zurückziehen, so daß der CM-5 ein erster Härtetest in puncto Ausfallsicherheit erspart blieb.

Insgesamt bot die Konferenz neben den vielen Neuankündigungen einen sehr guten Überblick über das aktuelle Geschehen auf politischer, technischer und wissenschaftlicher Ebene und ein ideales Umfeld für Gespräche und Kontakte auf internationaler Ebene. Daher können wir bereits heute allen Interessenten die Supercomputing '92 in Minneapolis vom 16. bis 20. November 1992 nur wärmstens empfehlen.