Parallelisierende Vektorprozessoren für "Zahlenfresser"

Dinosauriersterben bedroht die Welt der Superrechner

05.01.1990

Dr. Harald Meier-Fritsch ist Marketing-Manager bei der Convex Computer

GmbH in Frankfurt/Main.

Ein nicht zu übersehender "Shake-Out" kennzeichnete die Supercomputerszene im vergangenen Jahr: So beendete Control Data ihr Supercomputer-Engagement; der letzte spektakuläre Fall war der Rückzug von Evans & Surtherland aus diesem Marktsegment. Im folgenden Beitrag wird erläurtert, mit welchen technischen Strategien sich Supercompurterhersteller vor dem "Dinosauriersterben"

retten können.

Die Erfindung des Mikroprozessors hat in der DV eine Entwicklung ausgelöst, die am Anfang wohl von niemandem vorhergesehen werden konnte. Zunächst bewirkte diese Erfindung den Zugang einer sehr viel breiteren Benutzerschicht zum Rechner, als dies bis dahin der Fall gewesen war. Die bislang in den Zentralen verwalteten Rechnerkapazitäten waren plötzlich nicht mehr nur einer relativ kleinen Gruppe privilegierter Mitarbeiter zugänglich, sondern in Form des Personal Computers nun jedem einzelnen verfügbar.

Zwei Millionen PCs in der Bundesrepublik

Diese Entwicklung muß von der vorher erfolgten Welle der Dezentralisierung getrennt betrachtet werden, die besonders im Bereich der technisch-wissenschaftlichen Anwendungen durch sogenannte Mini- und Superminicomputer Erfolge gezeigt hatte. Während nämlich bei den Minis und Superminis der typische wissenschaftliche Anwender zunmindest über grundlegende DV-Erfahrung und Wissen verfügte, gelang es erst durch den Einsatz von PCs, auch bisher völlig DV-unerfahrene Benutzergruppen anzusprechen.

Die enorme Verbreitung dieser Rechner auch in der Bundesrepublik belegen unter anderem die Statistiken des Diebold-Reports, die rund zwei Millionen derartiger Systeme in Deutschland zählen. Der Gesamtwert dieser Anlagen ist ebenso groß wie der Wert aller kleinen und mittleren Systeme, die hierzulande installiert sind. Mehrere der in diesem Marktsegment tätigen Firmen haben bereits die 1-Milliarde-Dollar-Umsatzmarke pro Jahr überschritten.

Die dramatisch gestiegene Rechenleistung dieser Prozessoren hat - neben anderen Gründen hauptsächlich aus dem Softwarebereich - wesentlich dazu geführt, daß fast alle Anbieter aus dem bis dahin erfolgreichen Bereich der Superminis und Mainframes nun erhebliche Umsatzeinbußen und sogar Verluste melden müssen.

Diese Entwicklung weiter extrapolierend führt nun bei einigen Marktbeobachtern zur These: Die Dinosaurier sterben aus.

Wir wollen die Parallelen hier nicht zu weit treiben und nur untersuchen, warum der Bereich der technisch-wissenschaftlichen Aufgabenstellungen im Gegensatz zu den kommerziellen Problemen im High-end-Segment nicht auf Supercomputer verzichten kann und wo die Grenzen der auf Mikroprozessoren basierenden Architekturen liegen.

Eine ganz entscheidende Tatsache bei technisch-wissenschaftlichen Berechnungen liegt in der Beziehung zwischen einer charakteristischen Problemgröße N und dem damit verbundenen Aufwand der Berechnung. Die Größe N steht dabei zum Beispiel für die Anzahl der Atome bei Berechnungen der Molekulardynamik, die Anzahl der Freiheitsgrade bei einer Finite-Elemente-Berechnung oder für die Anzahl der Gitterpunkte, in denen die Meteorologen unser Wetter vorherzuberechnen versuchen. Charakteristisch ist nun, daß dieser Aufwand meist in der Größenordnung von N3, ja sogar N5 liegt. Dies bedeutet praktisch, daß bei der Verwendung von zehnmal sovielen charakteristischen Größen (was leider keinesfalls bedeutet, daß das Ergebnis zehnmal besser wird!!) der Rechenaufwand 1000- oder sogar 100 000mal so groß wird.

Nur effiziente Produkte werden überleben können

Dieser Faktor im Gesamtrechenaufwand bezieht sich meist auf alle Komponenten der Berechnung und damit auch auf den Rechner selbst: Tausendmal mehr Hauptspeicher, 1 000mal längere Rechendauer, 1000mal größeren Plattenplatz, 1000mal mehr I/O-Operationen etc., etc.

Es nützt nichts, darüber zu debattieren, warum die Welt so kompliziert geworden ist; dies ändert nichts an der Tatsache, daß in unserer technologisch orientierten Weltwirtschaft nur die effizientesten Produkte langfristig Erfolg haben. Diese zu entwickeln und zu produzieren, erfordert immer sorgfältigere Analysen und das heißt eben auch rechnerisch aufwendigere Simulationen dazu.

Die Rechenleistung ist dabei zunächst der wichtigste Parameter, der für derartige Aufgabenstellungen erfüllt sein muß. Wenn auch die Beschränkung aller Benchmark-Aussagen bekannt ist, so erlauben sie dennoch eine erste grobe Orientierung.

Eine heute von fast allen Beteiligten anerkannte Mindestdefinition eines Supercomputers ist die von Jack Dongarra genannte Definition von mehr als 100 Millionen Fließpunktoperationen pro Sekunde (MFLOPS) bei der Lösung eines Gleichungssystems von 1000 Unbekannten. Supercomputer wie eine Convex C240 oder Cray Y/ MP liegen deutlich über dieser Marke, während eine typische Workstation im Bereich von nur 1 MFLOP liegt. Auch Superworkstations bieten nur eine Größenordnung mehr und verharren somit immer noch um eine Zehnerpotenz unter dieser kritischen Größe.

Vektorielle Lösungen für komplexe Probleme

Der Einwand, diese Leistung sei nur bei einer hohen Vektorisierung zu erzielen, das heißt nur dann, wenn ein großer Teil der Rechenzeit für die immer gleiche Abarbeitung langer Zahlenreihen benötigt wird, trifft nur bedingt. Je größer die Problemstellung, um so höher wird automatisch der rechenintensive Anteil und um so kleiner der verbleibende "organisatorische" Rechenzeitanteil. Die numerische Behandlung der meisten naturwissenschaftlichen Problemstellungen führt zwangsläufig aufgrund der zugrunde liegenden Physik meist zu vektoriellen Lösungen. Man sollte nicht vergessen, daß diese Art von Rechnern eben wegen dieser Eigenschaft entwickelt worden ist, und nicht die Physik oder Mathematik geändert wurde, um einen neuen Rechnertyp beschäftigen zu können.

Selbstverständlich gibt es auch Probleme, die nur geringer vektorisierbar sind. Der Skalarprozessor eines Vektor-Supercomputers ist allerdings ebenfalls dem klassischen Mainframe meist deutlich überlegen.

Die Datenkanäle sind der Flaschenhals

Gerade weil Supercomputer mit Taktraten von zirka zehn Nanosekunden soviele Daten (je nach Typ zwischen 32 und 128) jeweils auf einmal verarbeiten, müssen diese Daten im Hauptspeicher vorhanden sein und dürften nicht erst von der Platte geholt werden. Die Plattenzugriffszeiten liegen mit etwas mehr als zehn Millisekunden um den Faktor eine Million höher als die Prozessor-Zykluszeit.

Mainframes hatten hier ihren größten Nachteil, da ihr Speicher typischerweise nur bis zirka 128 Megabyte ausbaubar war, ein Wert, der heute von Superworkstations erreicht wird. Supercomputer haben dagegen oft einen Hauptspeicherausbau der bei 256 Megabyte erst beginnt und bis zu mehreren Gigabyte Ausbau führt. Neben diesem extrem großen Hauptspeicher ist seine innere Struktur wie der oder die Prozessoren auf die darin enthaltenen Daten zugreifen können, für Supercormputing von entscheidender Bedeutung. Die Datenkanäle zwischen dem Speicher und den Prozessoren erweisen sich oft als Flaschenhälse bei vielen Systemen. In dieser Konzeption und ihrer Implementierung liegen auch die eigentlichen Kosten des Speichersubsystems.

Nach Beendigung der Berechnung sowie typischerweise auch zu bestimmten Intervallen während der Berechnung selbst, werden Daten auf Platten ausgelagert. Wie bereits ausgeführt, ist dieser Teil oft ein Flaschenhals. Datenkapazitäten von weit mehr als 100 Gigabyte sind im Supercomputing heute längst möglich und somit ein weiteres Merkmal, wo die Leistungsgrenze auch der größten Superworkstations um deutlich mehr als eine Zehnerpotenz überschritten wird. Ein wichtiges Design-Kriterium, dem oft zu spät Beachtung gezollt wird, ist die Datentransferrate. Es gilt ja, die enormen Datenmengen auch von der Platte in den Hauptspeicher des Rechners zu übertragen. Um dies zu optimieren, wird meist auf mehrere Platten gleichzeitig geschrieben und gelesen. Datentransferraten von 20-50 Megabyte pro Sekunde sind hier heute möglich.

Multiprozessor-Technik kann die Leistung steigern

Die einfachste Form der Leistungssteigerung scheint durch Hinzufügen weiterer Prozessoren zu gelingen. Zwischen der klassischen kommerziellen DV und der technisch/wissenschaftlichen Anwendung sind auch hierbei deutliche Unterschiede . Während im kommerziellen Bereich das Hauptaugenmerk auf einer Gesamtlastverteilung liegt - zwei oder vier Prozessoren bedienen dann gleichzeitig einige hundert Benutzer - ist die Fragestellung im wissenschaftlichen Bereich durch die Parallelisierung einer einzelnen Aufgabe gegeben. Statt bisher in 10 Stunden kann bei vier Prozessoren die Aufgabe dann schon in 2,5 Stunden berechnet sein. Der Gedanke, nun statt vier lieber 100 Prozessoren, zu nehmen und die obige Aufgabe dann in bereits sechs Minuten fertig zu haben, ist zwar naheliegend, aber leider in der Realität aus mehreren Gründen nur extrem selten möglich.

Noch erheblich komplexer als eine automatische Vektorisierung erweist sich die automatische Parallelisierung. Nur sehr wenige Aufgabenstellungem lassen sich in eine große Anzahl unabhängiger paralleler Prozesse zerlegen. Als sehr viel erfolgreicher erweist es sich, nach dem Motto "weniger ist mehr" zu handeln. Aber auch hierbei muß der Compiler sehr sorgfältig versteckte Datenabhängigkeiten beider parallelen Abarbeitung einer Aufgabe erkennen und entsprechend behandeln. Es ist auch hier kein Zufall, sondern eine Folge der zugrunde liegenden Problematik daß die erfolgreichsten Anbiter im Markt hier mit einer sehr bescheidenen Parallelisierung von vier und acht Prozessoren arbeiten.

Das jüngste Beispiel für die Schwierigkeiten in diesem Markt ist die Firma Evans & Sutherland, die ihr System ES- I unit bis zu 128 Prozessoren wegen erheblicher Hard- und Software-Probleme wieder aus dem Markt nehmen mußte. Generell läßt sich feststellen, daß es bis heute kein einziges massives Parallelrechner-System gibt, das erfolgreich in der Industrie eingesetzt wird. Keines der heute angebotenen Systeme verfügt über industrielle Softwarepakete. Die wenigen vorhandenen Installationen stehen in Forschungsabteilungen, die selber ihre Software schreiben können oder sind im militärischen Bereich eingesetzt, der von anderen Gesetzmäßigkeiten beherrscht wird.

Hochleistungsnetzen gehört die Zukunft

Die Verbindung von Computern untereinander ist heute eine Selbstverständlichkeit. Der Zugriff auf Daten und Programme, die auf anderen Rechnern liegen, wird immer mehr zum Standard; selbst für die Mitbenutzung freier Rechnerkapazitäten auch im Bereich des Prozessors sind Standardisierungen vorgeschlagen. Große Unterschiede sind lediglich im Leistungsbereich der Netzwerke zu sehen. Ethernet ist als Grundlage für kommerzielle Bürotätigkeiten gerade noch ausreichend, bereits bei Workstations und der Übertragung von farbigen Bildern treten die Leistungsgrenzen nur zu deutlich hervor. FDDI als nächste Stufe wird hier eine Verbesserung bringen, Bewegtbildübertragung farbiger Ergebnisse sind allerdings auch hiermit nicht zu erzielen. Nur Supercomputer sind hier geeignet, um mittels einer 1 Gigabit/sec schnellen Verbindung, zum Beispiel von der Firma Ultranet Technologies, tatsächlich 5-50 Megabyte/sec zu übertragen. Um alle diese Netzwerke unter Umständen sogar mehrfach - gleichzeitig zu unterstützen, müssen die I/O-Parameter des Systems entsprechend leistungsstark ausgelegt sein. Deshalb findet man im Supercomputing zunehmend diese Rechner noch fast nebenbei als zentrale Netzwerk-Server.

Eng verbunden mit dem Netzwerkproblem ist die Fähigkeit, Grafik effektiv darstellen zu können. X-Window Terminals in Verbindung mit Supercomputern, auf denen die X-Window Software läuft, werden zunehmend neben den Workstations zu finden sein, da sie dem Anwender eine erhebliche Kostenersparnis bieten.

Sehr starke High-end-Grafik-Systeme sind zwar im Einzelfalle interessant, der wirtschaftlich erzwungene Zusammenschluß der Firmen Ardent und Stellar zeigt aber deutlich, daß die Industrie nicht bereit ist, für viele geschweige denn für alle Benutzer einen Arbeitsplatz zur Verfügung zu stellen, der mehrere Hunderttausend Mark kostet. +