Multiprozessorsysteme auf Basis preiswerter Chips gewinnen an Boden:

Billige Parallelsysteme leisten Gigaflops

03.06.1988

Eine fast magische Zahl scheint in der Welt der Computer einmal mehr die "1024" zu werden. Immer wieder tauchen jetzt interessante neue Parallel-Systeme auf, die exakt 1024 Einzelprozessoren besitzen, mit denen ihre Konstrukteure herkömmliche, hochgezüchtete Einprozessor-Supercomputer sowohl dem Preis als auch der Leistung nach schlagen wollen.

1024 Prozessoren arbeiten beispielsweise in einem System, mit dem Forscher der amerikanischen Sandia-Laboratorien unlängst einen bis dahin für fast unmöglich gehaltenen Rekord aufgestellt hatten (siehe CW Nr. 22 vom 27. Mai, Seite 40): Sie schafften es, mit diesen 1024 Prozessoren bestimmte Aufgaben 1020mal so schnell abzuwickeln, wie mit einem einzelnen.

Auf die magische Zahl 2(10) ist aber auch ein gemeinsames Rechnerprojekt französischer und britischer Wissenschaftler, Ingenieure und Industrieller ausgelegt, das unter dem Namen "Supernode" bekannt wurde. Diese Entwicklung läuft im Rahmen des europäischen Informatik-Förderungsprogramms "Esprit" - und an seinem Ende soll in ein bis zwei Jahren ein kommerziell verfügbares Produkt stehen: eine Parallelmaschine, die rund ein Hundertstel dessen kosten soll, was herkömmliche Supercomputer vergleichbarer Leistung erfordern.

Grundlage ist der Transputer-Chip

Ähnlich der amerikanischen Rekordmaschine der Sandia-Laboratorien in New Mexico basiert auch der europäische Rechner auf Mikroprozessoreinheiten, erläutert John Elmore, einer der führenden Esprit-Manager. Als Grundlage dient der Transputer-Chip, den britische Ingenieure speziell mit Blick auf Rechner entwickelt haben, die intern parallel beziehungsweise nebenläufig arbeiten sollen. Diesen Transputer produziert und verkauft die britische Firma Inmos.

Zum Einbau dieser Chips in einen effizient arbeitenden Parallelrechner haben britische und französische Informatiker das Basis-Transputerkonzept allerdings noch erweitert, indem sie pro Transputer jeweils noch einen schnellen Spezialprozessor für Gleitkomma-Rechnungen und außerdem noch lokalen Speicherplatz vorsahen - alles zusammen nun aber auf jeweils bloß einem Chip integriert. Und Dave Watson vom Supernode-Entwicklungsteam bemerkt in diesem Zusammenhang, das neue Einchip-Supernode-Paar von Transputer und Gleitkommaeinheit operiere um einiges schneller, als herkömmliche Doppelsysteme vergleichbarer Machart auf der Basis von zwei oder mehr Chips.

Nimmt man den inneren Aufbau der Supernode-Rechner unter die Lupe, so sieht man eine klare Gliederung in mehrere sogenannte "Knoten", die jeweils 18 einzelne Transputer umfassen. Von diesen 18 dienen 16 als Rechenknechte, während ein siebzehnter festlegt, wie die anderen 16 momentan gerade miteinander verschaltet sind. Und der achtzehnte Transputer schließlich verwaltet nicht nur den 16 MB großen Speicher des Knotens, er weist auch den einzelnen Rechenknechten ihre jeweiligen Daten und Befehle zu.

Folgt man Watsons Bemerkungen während einer Präsentation des ersten Supernode-Prototyps, so kann man erwarten, daß Systeme aus mehreren Knoten leicht in den Bereich von 400 MFLOPS (Millionen Gleitkomma-Operationen pro Sekunde) vorstoßen könnten. Solche Systeme, die dann aus maximal 64 Knoten zusammengesetzt werden könnten, sollen in wenigen Jahren verfügbar sein und weniger als eine Million Mark kosten.

Aus technischem Blickwinkel ist an den 18 Prozessoren jedes Knotens interessant, daß jeder einzelne Transputer über vier schnelle Kommunikationskanäle nach draußen verfügt. Die gehen im Falle des Systems Supernode aber nicht einfach zu irgendwelchen anderen, ein- für allemal fest angekoppelten Transputern, sondern sie alle münden in einer komplizierten Schalteinheit. Die wiederum wird von Transputer Nr. 17 gesteuert, der mithin die interne Konfiguration des Knotens variieren kann; er kann also beispielsweise Programme aus dem Bereich der Signalverarbeitung mit einer passenden, optimalen Rechnerstruktur bedienen, und für andere Kalkulationen das Zusammenspiel der Rechenknechte sinnfällig modifizieren. Dabei läßt die interne Konfiguration der einzelnen Knoten sich nicht allein von Fall zu Fall auf ganz bestimmte Fachgebiete einstellen, sondern während des Fortschritts, den die gesamte Rechenarbeit macht, auch noch dynamisch immer neu variieren. Die neue Maschinerie kann also im Durchschnitt besser ausgelastet arbeiten, als eine herkömmliche mit starr festliegenden internen Verschaltungen.

Eine weitere Stärke des vorliegenden Parallelrechnersystems hat ebenfalls noch direkt mit der dynamischen Rekonfigurierbarkeit zu tun. Denn aus jener geht ja automatisch hervor, daß man den Rechner auf Wunsch auch in getrennte, separat operierende Teile zerlegen kann; in Partitionen die dann von mehreren Leuten gleichzeitig, jedoch voneinander unabhängig, benutzt werden können. Und sollte einer der Rechenknechte mal einen Kollaps erleiden, so kann das Transputer-gesteuerte Transputer-Schaltwerk ihn aus der weiteren Handlung einfach aus blenden: die Arbeit soll dennoch ungestört weitergehen.

Sollen in einem System mehr als nur eine 18er-Gruppe von Transputern arbeiten, so werden besondere Schaltungstechniken angewandt; sie "verlängern" sozusagen jeden einzelnen der 16mal vier Kommunikationskanäle hinaus in die Umwelt, wobei natürlich gleichfalls wieder Tansputer Nr. 17 das Kommando hat.

Beim Kollaps wird ein Prozessor ausgeblendet

Je nach seiner eigenen Programmierung kann dieser innerhalb eines Supernode-Systems mithin nahezu beliebig komplizierte Netzkonfigurationen aufbauen; wobei ihn natürlich die anderen "17er" der anderen Knoten unterstützen.

Nicht auf - mehr oder weniger modifizierten - Standard-Rechenchips vom freien Markt, sondern auf speziellen, dem Transputer ähnelnden, jedoch selbst konzipierten und nach Maß gefertigten Prozessoren basiert der 1024-Knoten-Hyperkubus der amerikanischen Firma Ncube aus Beaverton, Oregon. Diese Sonder-Chips bieten den Vorteil, daß nun pro Rechnerplatine nicht bloß ein Knoten beziehungsweise Prozessor samt Zubehör Platz findet, sondern gleich deren sieben; man kommt also zu einem besonders kompakten Gesamtsystem. Doch soll diese Architektur, die pro Knoten übrigens auch noch je einen Kommunikations-Chip umfaßt, andererseits in puncto Speicher gewissen Beschränkungen unterliegen; denn am Ort des einzelnen Knotens finden einfach nicht mehr als 512 KB Hauptspeicher Platz.

Weitere Beschränkungen, die sich bei Hyperkubus-Architekturen in den letzten Jahren immer deutlicher herauskristallisierten, haben mit der grundlegenden Topologie dieser Rechner zu tun. Denn diese Schöpfungen des California Institute of Technology und insbesondere des dort tätigen Prof. Charles Seitz kommunizierten zumindest in ihrer Ur-Gestalt intern nur dadurch, daß zwischen jeweils zwei direkt benachbarten Knoten Nachrichten ausgetauscht wurden. Was übrigens zugleich auch bedeutet, bei den Kuben handele es sich einfach um lose gekoppelte Mehrrechnersysteme ohne gemeinsamen Speicher oder gar gemeinsamen Arbeitstakt.

Simple Kommunikation reicht nicht aus

Im Zuge der praktischen Erprobung der frühen Hyperkuben - wie etwa der entsprechenden Typen des Hyperkubus-Vorreiters Intel - hat sich rasch gezeigt, daß die skizzierte, simple Kommunikation von Nachbar zu Nachbar oft nicht ausreicht. Und so kann man jetzt, wie erst unlängst auf einer Tagung über Hyperkuben in Pasadena deutlich wurde, neue Entwicklungen im Bereich der Prozessor-Prozessor-Kommunikation reifen sehen; nämlich Versuche, die einzelnen Knoten quasi zugänglicher zu machen.

So haben etwa die Firmen Intel sowie Ametek, ein weiterer Hyperkubusproduzent, aus dem kalifornischen Monrovia, Techniken zur gezielten Punkt-zu-Punkt-Kommunikation entwickelt, die die grundlegende Topologie des Kubus sozusagen umgehen. Sie stützen sich auf eigene Knoten-Kommunikations-Steuerungen, die im Bedarfsfall von Prozessor zu Prozessor direkte Leitungen schalten - und damit nicht nur die Kommunikation selbst gehörig beschleunigen, sondern natürlich gleich auch die Knotenprozessoren entlasten.

Interessant ist im Zusammenhang mit diesen neuen Techniken des schnellen Datentransports, daß sie eigentlich sehr jener französischbritischen Lösung des Supernode ähneln, die weiter oben beschrieben wurde. Was zwar nicht gleich bedeuten soll, die europäische Technik wäre etwa den Konzepten von jenseits des Atlantiks hier um Jahre voraus, was aber doch einmal mehr bestätigt: im schrittweisen Vorantasten Richtung optimale Rechnerarchitekturen entwickeln die einzelnen Lösungen sich doch ziemlich konvergent.

Weitere Neuheiten, speziell im Bereich der Hyperkuben, sind von den Firmen Ncube, und nochmals, Ametek zu melden. Denn die Ingenieure dieser Häuser haben inzwischen auch Techniken entwickelt, mit denen einzelne Knoten beziehungsweise ganze Gruppen von Knoten schnell und direkt auf externe Plattenlaufwerke zugreifen können, ohne dabei den langen Umweg über andere Knoten und die zentrale Steuereinheit des Kubus gehen zu müssen.

Bei Ncube ist diese Technik beispielsweise ein paralleles Ein-/ Ausgabe-System mit 16 seriellen Kanälen, die jeweils von einem Chip gleicher Machart wie jene gesteuert werden, die auch als Knotenprozessoren eingesetzt werden. Und jeder dieser Kanäle ist gut für 4 MB pro Sekunde Übertragungsrate.

Sogar 5 MB pro Sekunde kann das serielle Direktkommunikationssystem bewegen, das jedem Knoten der verbesserten Intel-Hyperkuben zugeordnet ist. Bei diesen Rechnern, die erst seit kurzem ausgeliefert werden, handelt es sich nunmehr um Kombinationen von 386er-Prozessoren mit 387er-Gleitkomma-Coprozessor-Chips.

Ergänzung durch einen Vektorprozessor

Diese 32-Bit-Einheiten jedes Knotens werden ergänzt von maximal 16 MB Speicher pro Knoten sowie, wahlweise, auch noch von einem zusätzlichen Vektorprozessor. Die volle Ausstattung inklusive der Vektor-zusätze soll einen Intel-Kubus mit 128 Knoten auf 1280 beziehungsweise 427 MFLOPS bringen; je nachdem, ob einfache oder doppelte Genauigkeit gewünscht wird.

Obwohl man in letzter Zeit wenig von ihm hörte, ist auch das Team von Floating Point Systems (FPS) nach wie vor aktiv. Ähnlich wie der europäische Supernode, basiert auch die bekannte Hyperkubus-T-Serie dieses Unternehmens aus Beaverton in Oregon auf dem britischen Transputer. Wobei neuerdings aber der hochaktuelle Transputertyp T 800 samt angeschlossenem Weitek-Vektorprozessor eingesetzt wird.

Die neue Linie der FPS-T-Serie kann sowohl mit 1024 als auch mit maximal 4096 Prozessorknoten bestückt werden; doch selbst ein System mit nur 128 Knoten soll schon Beachtliches leisten: Nämlich maximal 2 GFLOPS an Rechenleistung, also 2 Milliarden Gleitkommaoperationen pro Sekunde.

Sollte inzwischen der Eindruck entstanden sein, nur ausländische Unternehmen befaßten sich mit der Technik hochgradig paralleler Maschinen, und speziell der Transputer sei heute das Lieblingskind aller, die auf die Suche nach ggeigneten Prozessoren gehen - so muß dem nun dringend entgegengewirkt werden. Denn neben diversen weiteren Projekten und Entwicklungen aus fernen Ländern, die hier aus Platzgründen längst nicht alle besprochen werden können, blieben auch entsprechende einheimische Aktivitäten bisher unerwähnt. Wobei das Interessanteste an ihnen wohl die Tatsache ist, daß hierzulande nicht weniger als vier Mehrprozessorsysteme gleichzeitig vorangetrieben werden.

Besondere Eignung für Mehrgitter-Algorithmen

Da wäre an erster Stelle das bekannte Multiprozessorprojekt Suprenum zu nennen, hinter- dem maßgeblich die Gesellschaft für Mathematik und Datenverarbeitung steckt und das eine besondere Eignung für sogenannte Mehrgitter-Algorithmen aufweisen soll. Diese Maschine wird auf amerikanischen Motorola-Prozessoren basieren, die in einer Struktur mit mehreren Bussen zusammengefaßt werden.

Gleichfalls mit Mikrochips der Firma Motorola haben sich die Ingenieure des Münchener Unternehmens P1 angefreundet. Sie haben eine Mehrprozessorstruktur namens Parwell entwickelt, die 1024 Prozessoren und mehr umfassen kann und deren interne Kommunikationsstruktur sich, ähnlich wie beim Supernode-Projekt, programmgesteuert umkonfigurieren läßt. Dabei läuft alle Kommunikation über einen Speicher - und mithin besonders schnell.

Auf Chips der Firma Intel setzt hingegen das Karlsruher Unternehmen IP, das seinen TX3 mit bis zu 4096 Knoten ausstatten möchte und dann eine rechnerische Maximalleistung von 16 GFLOPS erwartet. Ähnlich wie beim Parwell aus München werden die Knoten des Systems auch hier in Gestalt einer Baum- oder eigentlich Wurzelstruktur angeordnet; also nicht etwa als Hyperkubus wie beim eigenen Parallelsystem des Chip-Lieferanten Intel.

Die TX-Maschine aus Karlsruhe soll weniger anspruchsvolle Programme im Sinne eines Multitasking-Betriebs gleichzeitig bearbeiten können und außerdem auch in der Betriebsart "fehlertolerant" einsetzbar sein. Hierbei kann man durch Verzicht auf einen kleinen Prozentsatz der Maximalleistung erreichen, daß partielle Ausfälle des Rechners keinen Schaden anrichten, heißt es.

Aufsehen über die Grenzen Deutschlands hinaus hat inzwischen bereits ein Aachener Unternehmen erzielt; nämlich die Firma Parsytec, über die international verbreitete Fachblätter schon ausführlich berichtet haben. Ihre Maschinen laufen unter der Bezeichnung Megaframe; sie basieren einmal mehr auf dem Transputer und weisen eine gewisse Ähnlichkeit zu Transputersystemen des britischen Hauses Meiko aus Bristol auf.

Ein Parsytec-System mit immerhin schon 256 Prozessorknoten soll es auf knapp 400 MFLOPS theoretischer Maximalleistung bringen; und von einem späteren Modell, mit der neuesten Version des Transputers, wird bereits erwartet, die Leistung werde um nochmals rund die Hälfte steigen. Wobei aber die Parsytec-Maschinen - ähnlich wie auch die anderen Systeme aus deutschen Landen und mit amerikanischem beziehungsweise britischer Innenleben - nur rund ein Zehntel dessen kosten sollen, was für vergleichbar leistungsstarke Rechner herkömmlicher Bauart heute auf den Ladentisch zu blättern wäre.

Parallelsysteme wetteifern mit Supercomputern

Auch wenn die ausführliche Diskussion der Gemeinsamkeiten wie Unterschiede zwischen den wichtigsten deutschen und ausländischen Parallelsystemen einer anderen Gelegenheit vorbehalten bleiben muß - eines zeigt der kurze Rundblick wohl doch in aller Klarheit. Neben Supercomputern herkömmlicher Art mit ihren aufwendigen, teuren Einprozessorstrukturen, sowie außerdem neben abgemagerten Maschinen ähnlicher Bauart, wie sie heute ja gern als "Minisuper" verkauft werden, finden mehr und mehr auch hochgradig parallele Strukturen Interesse. Rechner also mit weit mehr als den höchstens acht bis 16 parallel arbeitenden Prozessoren herkömmlicher CPU-Gruppen.

Und da man sichtlich immer besser lernt, die hohe interne Parallelität moderner 1024-Prozessor- und ähnlicher Systeme auch wirklich zu nutzen, steht in der Welt der Computer ein interessanter Wettstreit bevor: nämlich das Rennen zwischen herkömmlichen und den innovativen Rechnerarchitekturen.

Leistung ist ein vager Begriff

Läßt man die verschiedenen Konzepte und Entwicklungen auf dem Gebiet der Parallelsysteme rasch nacheinander Revue passieren, so fallen unweigerlich stark divergierende Leistungsdaten für scheinbar gleichbestückte Konfigurationen auf. - Wie kann man sich dies erklären?

Ein wichtiger Punkt beim Vergleich anvisierter Leistungen, die ja gern als MFLOPS oder auch GFLOPS ausgedrückt werden, ist zunächst die Tatsache, daß es sich hier meist um Projektionen handelt: also um Vermutungen, was ein entsprechendes Irgendwann realisiertes System wohl konkret leisten werde.

Zweitens steckt hinter divergierenden Leistungs-Meßzahlen die oft sehr unterschiedliche Ausstattung der einzelnen Rechnerknoten mit Koprozessoren, Beschleunigereinheiten, Kommunikationsschaltungen und lokalem Speicher. Und last but not least sei als dritter Punkt nur noch erwähnt, daß auch die abzuarbeitenden Programme ihre Struktur und die Art ihrer Übersetzung in Maschinencode wesentlichen Einfluß auf die erzielbare Leistung haben.