Konzepte und Beispiele paralleler Rechnerarchitekturen (X):

Auch die IBM steigt zögernd in den Ring

20.12.1985

Wenn der Branchengigant IBM etwas entwickelt, sehen viele darin gleich einen sensationellen neuen Kursindikator, auch wenn sich dies später als Versuchsballon herausstellen sollte. Man denke nur an die "Josephson-Junction "-Euphorie. Jetzt hat sich Big Blue auch mit dem "Parallel Processing" befaßt.

IBM läßt derzeit im firmeneigenen Forschungszentrum in Yorktown Heights nahe New York an einem Projekt arbeiten, das als mittelfristiges Ziel einen Computer mit 512 Prozessoren anvisiert und das den schönen Namen "Research Parallel Processor Project RP 3" trägt. Dabei streicht IBM vor allem heraus, daß bei diesen Arbeiten in Kooperation mit zwei Wissenschaftlern der Universität New York - Prof. Malvin Kalos und Prof. Allan Gottlieb - erreicht werden soll, daß "erheblich mehr Prozessoren parallel an komplexen Vorgängen arbeiten", als "das bisher möglich war".

Daß sich die IBM zusammen mit den Wissenschaftlern vom Courant-Institut für mathematische Wissenschaften der New Yorker Uni da einiges vorgenommen hat, unterstreicht auch Ralph E. Gomory, der Chef der IBM-Forschungsaktivitäten in Yorktown Heights; er steht immerhin im Range eines "Senior Vice President".

Der RP3 soll in einer ersten Version über 64 Prozessoren verfügen und später durch Kopplung von acht derartigen Gruppen auf die erwähnte 512-CPU-Maschine ausgebaut werden. Sie alle sollen "parallel" miteinander verbunden sein und einen gemeinsamen Speicher von 2 GB Kapazität nutzen können.

Gomory und seine beiden Freunde von der Uni erwarten sich von diesem "Jumbo", daß er eine Leistung von einer Milliarde Instruktionen pro Sekunde (BIPS) erreicht. Zwingt man ihn zu mühsamen Gleitkommarechnungen, so soll er selbst dann noch 800 Millionen Operationen pro Sekunde bringen.

Vergleicht man dieses Vorhaben mit anderen Forschungskonzepten, so ist es mit den genannten Leistungsdaten zwar nicht als weltbewegend ehrgeizig zu bezeichnen, aber doch ein beachtlicher weiterer Schritt auf einem Weg, den IBM eigenen Angaben zufolge schon 1979 mit ersten Forschungen über parallele Systeme eingeschlagen hat. In dessen Verlauf entstanden unter anderem intern recht interessante Maschinen, wie zum Beispiel die, mit deren Hilfe gewöhnliche Großrechner vor der Markteinführung simuliert und erprobt wurden. Weiter nutzte IBM intern die Parallel-Prozessoren für die Grundlagenforschung und die computerunterstützte Konstruktion.

Mit dem System RP3 aber wollen die IBM-Forscher und ihre Kollegen aus der Wissenschaft nun einen Schritt weiter gehen und Konzepte von "Systemen miteinander verknüpfter Prozessoren" prüfen "sowie die Fähigkeit zur Durchführung komplexer Vorgänge testen". Damit ist gemeint, daß die neu entstehende Maschinerie später auch zur computerunterstützten Konstruktion, zur Simulation anderer

Parallel-Rechner, zur Erforschung der immens zahlreichen und komplizierten Probleme der Parallel-Programmierung und auch für Projekte im Bereich der "Künstlichen Intelligenz" (KI) eingesetzt werden soll.

Bei der Realisierung wird jeder Prozessor beziehungsweise Knoten des RP3 intern über einen neuartigen 32-Bit-Mikroprozessor-Chip verfügen; er soll eine spezielle Eigenentwicklung in CMOS-Technik sein, wie IBM-Forscher Stephen Harvey, der für Systemprototypen zuständige Manager im IBM-Forschungszentrum, erläutert. Dieser Mikro, so Harvey weiter, werde ein "Reduced Instruction Set Computer" (RISC) sein.

Neben seiner Zentraleinheit soll jeder RP3-Knoten außerdem über zwei bis vier MB Speicher verfügen, woraus sich in der Summe von 512 Knoten die erwähnten zwei GB Speichervolumen errechnen. Natürlich gehören auch eine Speicherverwaltung, ein schneller Zwischenspeicher und Schnittstellen zum Netz zur Fundamentalausstattung der einzelnen Knoten. Ebenso spezielle Gleitkomma-Hardware, die jeden einzelnen Knoten befähigen soll, mehr als eine MFLOPS zu vollführen.

Sind die ersten beiden 64-Knoten-Prototypen des neuen Forschungsrechners - in voraussichtlich rund zwei Jahren - erst einmal fertig, so wird man dann ein IBM-System bewundern können, das in seiner Verknüpfungsstruktur auf einer uralten Entwicklung der "Bell Laboratories" des IBM-Konkurrenten AT&T basiert: nämlich auf dem "Omega-Network", wie Prof. Gottlieb es nennt.

Es handelt sich dabei laut Gottlieb um ein paketvermittelndes Netz mit einer Übertragungskapazität von fast 13 Milliarden Zeichen pro Sekunde, was also rund 100 GBit pro Sekunde entsprechen dürfte.

Ein so schnelles Netz ist, wie man immer wieder bei parallelen Systemen lernt, fast schon das A und O eines erfolgversprechenden Konzepts. IBM griff Gottlieb zufolge vor allem deshalb zum Omega-Netz, weil es erlaubt, von jedem beliebigen Prozessor aus zu jedem beliebigen Speichermodul jeweils einen ganz bestimmten Datenpfad aufzubauen. Das bedeutet auch, daß man öfter mit einer Situation zu tun hat, in der zwei Prozessoren im gleichen Moment auf das gleiche Speicherelement zugreifen wollen; hierfür müssen also schaltungstechnische Vorkehrungen getroffen werden.

Das RP3-Netz, das übrigens aus Tempogründen in schneller "bipolarer" Logik aufgebaut wird, wird gegenüber dem Basiskonzept aus den 50er Jahren noch um eine von Kalos und Gottlieb entwickelte Verbesserung erweitert, die, grob skizziert, dafür sorgt, daß "Fetch-and-add"-Befehle sowie diverse andere immer dann, wenn dabei auf identische Speicherstellen zugegriffen werden soll, erst einmal koordiniert und miteinander kombiniert werden. Im Ergebnis wird dann nur noch ein einziger physischer Speicherzugriff erforderlich. Ähnliches geht auch vor sich, wollen mehrere Knoten das gleiche Wort lesen: Auch dann führt das Netz die eigentliche, physische Leseoperation autonom und nur ein einziges Mal aus, während das Wort anschließend - ebenfalls vom Netz - individuell dem anfragenden Knoten übermittelt wird.

Das alles soll unterm Strich zu einer erheblichen Beschleunigung der RP3-Ultracomputer-Rechnerei führen, denn auf diese Weise, so meinen Kalos und Gottlieb, würden endlich einige der Engpässe vermieden, die den Entwicklern paralleler Systeme sonst schlaflose Nächte bereiten.

Die IBM-Forscher haben zum Gesamtkonzept vor allem einen technischen Hauptbeitrag geleistet: Sie haben ein Verfahren entwickelt, nach dem die einzelnen Knoten des Rechners den Speicher entweder als streng "lokal" oder auch als ganz und gar "global" ansehen können. Und mehr noch: Diese logische Zuordnung der Speichermodule zu den Prozessoren kann laut IBM "während der Ausführung der Arbeit" beliebig und nahezu stufenlos geändert werden, wobei das Ziel solcher

Runtime-Umkonfigurationen natürlich in der Maximierung des Rechnerwirkungsgrads liegt.

Diese große Freiheit in der Aufteilung des Speichers erzielen die IBM-Wissenschaftler dadurch, daß jeder Knoten des Systems von Anfang an mit gleichviel Speicherzellen wie alle anderen ausgestattet wird und erst dann, während des Betriebs, festgelegt beziehungsweise eingestellt wird, welcher Prozentsatz der in den Knoten untergebrachten Speicherplätze für den örtlichen Prozessor reserviert werden und welcher global für alle zugänglich sein soll.

Gerade dies ist übrigens einer der Hauptpunkte, in denen das geplante IBM-System sich vom "alten" Ultracomputer unterscheidet, denn der letztere kannte ausschließlich den globalen Zugriff. Und Gottlieb präzisiert, ein globaler Speicher müsse für "verschränkten" Zugriff organisiert werden, soll er schnell sein, während man den lokalen Speicher sequentiell organisieren könne.

Variabel aufteilbarer Speicher für viele Aufgaben

Das mögen nun zwar interessante Details sein, doch wichtiger ist sicherlich, daß man dank des variabel aufteilbaren Speichers nun, wie IBM hervorhebt, gleich "eine Vielfalt anspruchsvoller Aufgaben" bearbeiten kann, Wobei man eine Konfiguration unabhängig voneinander rechnender Prozessoren, die untereinander einfach per Nachrichtenaustausch kommunizieren, beispielweise dann wählen wird, wenn man Computersimulationen durchführen oder auf bestimmten Teilgebieten der Künstlichen Intelligenz arbeiten will. Denn so ein System ist ja, von der Problemherstellung her" überwiegend "lokal" aufgebaut, erinnert das

IBM-Forscherteam.

Ganz anders sieht die Sache aber aus, will man zum Beispiel Studien im Bereich der Kristallographie treiben: Hier geht es praktisch nicht ohne eine koordinierte, "zentrale Verarbeitung der Daten" und auch nicht ohne "globalen Speicherzugriff". Hier müssen die Prozessoren nun alle auf einen großen, gemeinsamen Speicher zugreifen können.

Nur noch am Rande sei schließlich erwähnt, daß die geplante Maschinerie mit 192 MB pro Sekunde Ein-/ Ausgabe-Tempo arbeiten soll, wofür übrigens ein eigener Rechner der 370-Serie zur Verfügung steht; jener erfaßt Daten, verwaltet für den RP3 die Programme und gibt Resultate an andere Rechner weiter.

Intern soll der RP3 über vielfältige Funktionen zur Systemüberwachung verfügen - schließlich ist es ja auch eine Forschungsmaschine. Dabei soll insbesondere der Frage nachgespürt werden, wie sich die einzelnen Programme intern im RP3 verhalten, wenn man sie erst einmal eingegeben hat. Bei komplizierten Systemen weiß man ja nie.