16384 Prozessoren bringen 400 Gflops

Transputer-Superrechner von Parsytec als neuer Weltmeister

26.07.1991

*Dr. Gernot Schärmeli ist Berater und freier Journalist in München.

Mit der Ankündigung der neuen Generation GC meldet die Aachener Parsytec den Anspruch an, auf Transputer-Basis den Weltmeister unter den Super-Computern zu stellen. 400 Gflops Spitzenleistung auf 512 GB RAM, erbracht von 16384 Rechner-Knoten, sollen die "Grand Challenges" (GC) nun richtig angehbar machen.

Welches Konzept, welche Ressourcen und welche Chancen hat das ehrgeizige 130-Mann-Unternehmen, um den Rekordanspruch umzusetzen? Vorbestellt sind erst einmal Maschinen mit 1024 CPUs (25 Gflops) - wohingegen Wettbewerber Intel bereits im vierten Quartal 1991 seine "Touchstone-Sigma"-Maschine mit 2048 Knoten (150 Gflops) installieren will. Wie stehen die Chancen für den Kleinen im Kampf gegen den Großen, insbesondere beim Gang vom Campus-Lab hinein in die industriell-produktive F&E-Welt?

Um es vorweg zu sagen: Weltmeisterliches hat die Parsytec nicht nur in Sachen Maximalleistung angekündigt. Rekordorientiert ist auch der Betrag, zu dem ein Gflops zu haben sein wird: Für diese Performance-Einheit (1 Milliarde Floating-Point-Operationen pro Sekunde) soll der Kunde künftig nicht mehr als 500 000 Mark auf den Tisch blättern müssen - eine Summe, die mit wachsender Gflops-Zahl natürlich "deutlich" degressiv kalkuliert wird, denn 200 Millionen für eine Maximalkonfiguration wären gewiß illusorisch. Daß Parsytec diese Tiefstmarke für den Gflops-Preis realisieren kann, ist kaum zu bezweifeln.

Fragen kommen auf, wenn es um den Maximalanspruch geht. Der aber steht im Mittelpunkt der Ankündigung. Immerhin betont Parsytec-Chef Falko Kübler: "Unser Systemkonzept sieht nicht etwa eine Skalierung vor, bei der die Knotenzahl, bei wenigen anfangend, nach oben hin hochgezogen wird. Wir skalieren von oben nach unten." Sprich: Die neue Rechnerlinie GC wird präsentiert als bis ins Detail ausgelegt für die Zahl von 16 384 Transputer-Knoten wer weniger Knoten brauche, könne weniger bekommen.

Als "super-massiv parallel" tituliert der Hersteller seine neue Produktlinie. Ganz davon abgesehen, welchen Sinn diese weitere Addition eines Verbal-Superlativs macht (sind 64000 CPUs dann hyper-super-massiv?) - das dargelegte Hardwarekonzept eines Rechners für massenhaft viele MIMD-Knoten sieht tatsächlich vielversprechend aus. Denn es baut beileibe nicht nur auf den neuen, leistungsfähigeren Transputer-Chip T9000 - den es dann lediglich in größerer Anzahl als bislang parallel zu "schalten" gälte.

Die Herausforderung bei der Entwicklung eines massiv-parallelen Rechners liegt im Kommunikationssystem. Es faßt die Vielzahl der Knoten im Inter-Node-Networking zusammen und läßt sie miteinander "sprechen" - und zwar schnellstmöglich. Jeder der MIMD-Knoten muß mit individuellem Code und individuellen Daten versorgbar sein, und jeder muß mit jedem beliebigen anderen in Verbindung gebracht werden können, damit der im Rahmen der Arbeitsteilung nötige Transfer etwa von Zwischenergebnissen zu realisieren. Die Hardware muß die nötigen Links ermöglichen und auch die Plattform für höchst intelligente Routing-Algorithmen abgeben, die letztlich die für die verschiedensten Problemtopologien (Baum-, Ring-, Hypercube-Struktur, 2D-, 3D-, 4D-Gitter-Struktur etc) nötigen Kommunikationskanäle blitzschnell durchschalten. Kurzum: Der Kommunikations-Overhead ist möglichst klein, das Verhältnis von Rechen- zu Kommunikationsleistung ausgewogen zu gestalten.

Dem hat der Aachener Anbieter beim Gang in die 16000er-Dimension ebenso Rechnung getragen wie der Kompaktierung. Passen bei Parsytecs bisherigen "Supercluster"-Rechnern nur vier Transputer-Knoten (T800) auf ein Board, finden nunmehr auf einer Platine acht T9000 Platz, wobei jeweils zwei Boards in Sandwich-Manier zu einem Cluster zusammengefaßt sind und in Sachen Kommunikation einen "Building-Block" darstellen. Wird im bisherigen Rechner noch mit der Crossbar-Technologie NCU gearbeitet, die die Punkt-zu-Punkt-Verbindungen innerhalb eines größeren Netzwerks noch über mehrere Hierarchiestufen hinweg herstellen muß (weil jede NCU nur vier Transputer bedienen kann), so sollen nunmehr Inmos' neue, programmierbare Hochleistungs-Router-Chips C104 im Zusammenspiel mit den neuen Kommunikations-Features des T9000-Chips dafür sorgen, daß sich die größeren Massen von Knoten effizient, weil intelligenter, direkter und in schlankerer Organisation- in die Inter-Node-Kommunikation einbinden lassen.

Vier solcher auf einem Cluster sitzende Router-Chips sorgen jedenfalls zum einen für die "lokalen" Links nach innen (wobei jeder C104 mit allen 16 Transputer-Chips physikalisch verlinkt ist), zum anderen trägt jeder Router-Chip mit je zwei Leitungen nach außen hin zu einer hierarchieeinheitlichen 3D-Kommunikations-Schnittstelle bei: Wie in einem 3D-Gitter Gitterpunkte sechs Verbindungen zu den nächsten Nachbarn brauchen, führt Parsytec in der neuen Architektur also aus jedem Cluster sechs Kommunikationsstränge (< vier x zwei Leitungen) nach außen.

Genau genommen finden sich hier noch weitere Links, die jedes Cluster auch mit Komponenten des I/O-Subsystems verbinden. Neben dem Daten- und I/O-Netz haben die Entwickler ein unabhängiges Kontrollnetz vorgesehen, das - ebenfalls in 3D-Struktur mit einem T9000-Chip pro Cluster - den systemgerechten Betrieb überwacht. Der Vorteil der 3D-Kommunikationstopologie aber ist klar: Mit vergleichsweise geringem Aufwand kann der Aachener Anbieter eine maximalkonfiguration in dichter Würfel-Packung aufbauen. Eine "zentrale Kontrollinstanz" gibt es nicht, die die Skalierung nach oben hin einschränkte. Mit der hardware-mäßig verankerten Kommunikationshierarchierung kann ein solches System auch jenen besagten Algorithmen besser Spielraum verschaffen, die die so wichtige Mapping-Arbeit leisten: der flexibel-dynamische Verbindungsaufbau zu einer "virtuellen" Problem-Topologie.

Weil sich die Struktur im Laufe einer Applikation nämlich ändern kann - angefangen von der adäquaten Topologie beim Verteilen von Code und Daten bis zu wechselnd optimalen Topologien je nach Art des aktuellen Problem-Parts - , steckt insbesondere in der "Dynamik" eine beachtliche Herausforderung. Ihr konnte sich Parsytec stellen, indem man auf den Transputer-Chip zurückgriff: Wie schon beim Vorläufer T800 sind auch beim T9000 die vier physikalischen Links onchip integriert. Hinzugekommen ist aber eine "Virtual Channel Prozessor"-Einheit, so daß sich nun beliebig viele logische Kanäle auf die vier Links multiplexen lassen. Kurz: Ganz ähnlich wie beim Übergang zu Datex-P sorgen auch hier intelligente Switch- und Multiplex-Technologie dafür, daß über relativ wenig "Drähte" eine extrem flexible Vielzahl von logischen Verbindungen realisiert wird.

Parsytec hat also mit der GC-Serie die gesamte Kommunikationsinfrastruktur auf ein neues Niveau gehoben und sich dabei sehr wohl a priori an einer Maximalskalierung orientiert. Darüber hinaus versteht es sich, daß eine neue Rechnergeneration auch mit einer wesentlich verbesserten Kommunikationsbandbreite aufwarten muß. Dazu trägt die gegenüber dem T800-Chip erhöhte Transferrate bei, mit der die Daten über die Links transportiert werden: Zwischen zwei beliebigen Knoten lassen sich nun maximal 80 MB/s erreichen .

Was bedeutet die Auslegung auf die 16000er-Dimension weiterhin? Der Vorteil, in allen drei Raumrichtungen packen zu können, bringt zugleich das Problem einer erhöhten Wärme-Produktions-Dichte mit sich. Denn der maximal konfigurierte Supercomputer gibt seine trotz verbesserter CMOS-Technologie emittierte Leistung auf engem Raum ab. Konnten die Parsytec-Installateure bisher schlicht einen luftgekühlten Supercluster-Schrank neben den anderen stellen, läßt sich die Hitzeentwicklung nun nicht mehr ignorieren: Ab einer Zusammenballung von 4096 Knoten aufwärts (besser schon ab 1024) sieht der Anbieter deshalb Wasserkühlung vor. Aber auch hier haben sich die GC-Entwickler auf die große Dimension eingestimmt. Mit wenigen Handgriffen soll sich ein luftgekühltes, kleineres System in ein größeres, wassergekühltes aufrüsten lassen.