Multiprozessorsysteme/Ganz ohne Software geht die Chose nicht

Symmetrisch, massiv-parallel oder doch lieber Cluster?

03.03.2000
Anwendungen mit Tausenden von aktiven Usern an einem System und Terabytes an erzeugten Daten sind heute vielerorts alltäglich. Schnelle Datenverarbeitung, möglichst in Echtzeit, fordern erfolgreiche Anbieter im Internet. Dem versucht die Computerindustrie - diesen Anforderungen immer hinterher hinkend - gerecht zu werden. Außer der nach dem Moore?schen Gesetz steigenden Performance von Prozessoren entwickelte sie ausgeklügelte Hardwarekonzepte zur Kopplung von CPU-Chips wie ganzen Rechnern, um genügend Power zum Benutzer zu bringen. Allerdings: Ohne zusätzliche Softwareintelligenz wäre dieses meist recht teure "Eisen" nicht so wirkungsvoll.Von Karl-Ferdinand Daemisch*

Die erste Nachricht: Die Computer kehren in ihre aus Eniac-Zeiten (Electronical Numerial Integrator and Computer) angestammten turnhallengroßen Räume zurück. Zumindest legt dies das Bild einer Rechnerinstallation am amerikanischen Lawrence Livermore National Laboratory (LLNL), einer staatlichen Einrichtung des Department of Energy, nahe, die von der Universität von Kalifornien betrieben wird.

Die zweite Nachricht: So stimmt die erste nicht ganz. Führte der röhrenbestückte Eniac gerade noch einige tausend Rechenoperationen pro Sekunde aus, liefert der beim LLNL installierte Cluster aus vernetzten Alpha-Server-SC-Maschinen auf einer vergleichbaren Fläche heute 683 Gigaflops (Milliarden Floating Point Operations per Second).

Der Cluster, basierend auf der Disa-Architektur (Distributed Internet Server Array) von Compaq erreichte Ende vergangenen Jahres seinen Endausbau auf 512 mit 667 Megahertz getakteten Alpha-Prozessoren. Dabei sind je vier Chips mit Shared Memory, also eine typische SMP-(Symmetric-Multiprocessing-)Konfiguration, in einem der 128 Knoten über einen so genannten Fat-Tree-Switch mit hoher Leistung so verschaltet, dass sich das System ähnlich wie ein massiv-paralleler Rechner verhält.

Entwickelt wurde diese Technologie von Quadrics Supercomputer World Ltd. Das Unternehmen, seit 1997 in einer noch mit Digital Equipment (DEC) geschlossenen Technologiepartnerschaft, nutzt dafür die in den 80er Jahren von Meiko erfundenen Techniken zur Skalierung. Diese Hybridform aus SMP- und Cluster-System macht deutlich, wie sehr sich die Grenzen der diversen Hardwarearchitekturen inzwischen verwischen.

Schnelle Rechensysteme sind die Voraussetzung für die Bewältigung gestiegener Leistungsanforderungen, aber die Software - Betriebssystem und Anwendungsprogramm - muss ebenfalls dafür konzipiert sein. Mittlerweile bestimmt oft die zentrale Anwendung in einem Unternehmen die Wahl der Rechnerarchitektur: Symmetrisches Multiprocessing (SMP), Massively Parallel Processing (MPP) oder Cluster-System.

So kann die Größe einer Datenbank etwa in einer Decision-Support-Anwendung die Art des Rechners festlegen: "Ab einem Volumen von 200 bis 500 GB Daten ist nur bei einer MPP-Implementierung noch mit vernünftigen Antwortzeiten zu rechnen", beteuert jedenfalls Paul Temme vom IBM-Produkt-Marketing für RS/6000-Systeme.

Allerdings setzt die Software hier ihrerseits Schranken. Nicht jede Datenbank ist dafür geeignet, auf einem MPP-System sinnvoll gefahren zu werden. Der Grund liegt darin, dass - bei gegenseitiger Abhängigkeit der Ergebnisse - je nach DB-Struktur oder Aufgabe - die Prozesse gar nicht so weit zu parallelisieren sind, um ein massiv-paralleles System voll auszunutzen.

Anders sieht es bei mathematischen Problemen aus, wie sie am LLNL gefahren werden: "Wir führen anspruchsvolle nichtklassifizierte 3D-Kalkulationen durch. Sie wurden in den letzten Jahren für vielfältige wissenschaftliche Bereiche, etwa die Materialforschung, Laser- und Plasmaphysik, Elektromagnetik und Energieerzeugung, Chemie und Umwelttechnik entwickelt", begründet Mike McCoy, Deputy Associate Director der Scientific-Computing-and-Communications-Abteilung am LLNL die Wahl des Hybridrechners.

Unter dem "Skalierbarkeits-Schock"Vom technischen Computing abgesehen, mit dessen High-Performance-Anforderungen zwar Staat, aber kaum großer Umsatz zu machen ist, legen kommerzielle Anwendungen die Latte inzwischen hoch. Sie werden unter dem Sammelbegriff "Business Intelligence" zusammengefasst und enthalten unter anderem den Betrieb von Systemen für Data Warehouses oder Decision Support ebenso wie Customer-Relationship-Modelle. Gerade aus dem derzeit hoch gehandelten Sektor E-Business resultieren weitere Leistungsansprüche, die über jene herkömmlich genutzter Rechner deutlich hinausreichen. Hier, im kommerziellen Bereich, müssen darauf nun die Antworten mit ganz neuen Computing-Infrastrukturen gefunden werden.

Datenbanken, Server und Lösungen, die früher intern einigen hundert Anwendern genügten, müssen nun zusätzlich dem Leistungsbedarf von Lieferanten, Kunden und Partnern entsprechen. Aus Hunderten wurden Tausende, ja zum Teil Hunderttausende Benutzer. "Reichen 18 massiv-parallele 256-Wege-Systeme dafür aus? Oder schaffen dies 600 Highend-SMP-Systeme", fragte das Marktforschungsinstitut International Technology Group (ITG) bereits 1997 die Leser einer Strategiestudie. Die Antwort - wenig befriedigend - war, dass diese Zahlen hypothetisch sind und keinerlei Hinweis enthalten, ob der anfallende Workload mit diesen Plattformen auch wirklich zu handhaben ist. Es gibt zu viele Unbekannte in der Rechnung und zu wenig praktische Erfahrung. Das nannten die Analysten den "Skalierbarkeits-Schock".

Welchen Größenordnungen sich ein Unternehmen ausgesetzt sieht, zeigte die Studie an einem Beispiel: Ein Hersteller von Verpackungsgütern im Verbrauchermarkt rechnete in der ersten Phase eines entsprechenden Projekts mit dem Anstieg von 400 auf mehr als 5000 Online-Benutzer seines Systems. Nun, nachdem er sein Marketing-Programm zur Marktdurchdringung abgeschlossen hat, sind es bereits 25000. Um dieses Volumen zu beherrschen, so die Analysten, müsste diese Firma entweder ein IBM-S/390-Parallel-Sysplex-System, drei 256-Wege-MPP-Systeme im Cluster oder 600 ebenfalls geclusterte SMP-Systeme bereitstellen.

Wie wichtig auch die Software wurde, belegen Berichte über TPC-C-Benchmarks für einen - allerdings erst Mitte des Jahres lieferbaren - Cluster aus Intel-Servern mit acht Xeon-CPUs von Unisys im Verbund mit einer Oracle-Datenbank: Mehr als 41000 Transaktionen pro Minute zu einem Preis von 37,19 Dollar pro Transaktion. Die Rechner laufen unter SCO Unixware mit eingebauter Clustering-Software für Hochverfügbarkeit, dessen Grenze beim Systemausbau derzeit bei zwölf Knoten liegt.

Auch wenn hier zweifelsohne große Fortschritte erzielt wurden, moderne Großrechner sind nicht mehr so signifikant teuer wie früher. Ein Enterprise-Server S80 aus der R/S-6000-Familie von IBM mit 24 Prozessoren schaffte im Herbst vergangenen Jahres eine Leistung von 126 671 tpmC. Die Kosten pro Transaktion der AIX-Lösung: etwas über 58 Dollar.

Ein Software-Aspekt gilt nämlich in allen Fällen: Es sind Unix-Betriebssysteme, deren Struktur - etwa mit Multi-Threading - diese Leistung ermöglicht.

Analysten der International Technology Group (ITG) erwarten hier auch von NT auf Intel-Systemen keine besonderen Vorteile. Selbst wenn diese die derzeit gängigen Zwei- bis Vierwege-Konfigurationen überwinden, lieferten sie keine bessere Performance als Unix-Rechner. Im Gegenteil: Es sei davon auszugehen, dass die Microsoft-Systeme weniger skalierbar als ihre Unix-Äquivalente blieben und zudem eine größere Anzahl von Server für die gleichen Aufgaben benötigt werde.

Selbst Linux spielt hier inzwischen eine tragendere Rolle. Das Institut für Angewandte Informatik der Bergischen Universität Gesamthochschule Wuppertal installiert unter Linux einen parallelen Hochleistungs-Cluster mit 128 CPUs, insgesamt 16 GB Haupt- und über 1 TB Plattenspeicher. Die Verbindung wird über das Gigabit-Hochleistungsnetz "Myrinet" hergestellt. Als Spitze werden 170 Gflops Rechenleistung erwartet. Als Alice (Alpha Linux Cluster Engine) werkeln an der Uni die ersten 64 "DS10"-Server mit den mit 667 Megahertz getakteten Alpha-Chips bereits seit November 1999 in der Theoretischen Physik, der Elektrotechnik sowie der Mathematik und Informatik. Allerdings gilt auch hier: Speziell für dieses Projekt entwickelte Compaq eine Reihe von Linux-Tools, um die Steuerung des Clusters von einer Konsole aus zu ermöglichen.

IBM bindet sein Unix-Betriebssystem AIX gleich in das hauseigene Hybridkonzept ein. AIX bildet eine durchgängige Basis, auf der sich "normale" RS/6000-SMP-Rechner wie die MPP-Systeme der Sysplex-SP-Klasse bewegen. Lediglich unterschiedliche Wege im Compiler sorgen dafür, dass eine Anwendung "ihrer" jeweiligen Maschine entspricht. Bei den auf SMP ausgelegten Rechnern wird hier zudem ein Trick genutzt: Auf dem (langsamen) System-Bus werden nur Adressinformationen verschickt. Über den 1,8 GB/s schnellen Crossbar, eine Art Kreuzverteiler, dagegen erfolgt der Datenaustausch, den die Prozessoren paarweise vornehmen können. So kommen Vergleichsergebnisse zustande, die 24 Prozessoren eines Systems ebensoviel leisten lassen wie ein Cluster von vier jeweils mit 24 CPUs bestückten Servern.

MPP-Rechner für hohe OLTP-BelastungBis vor kurzem erreichten die meisten MPP-basierten OLTP-Systeme (Online Transaction Processing) kaum 32 Prozessoren. Größere Konfigurationen fanden sich im Data-Warehouse- oder Decision-Support-Bereich. Dabei ist zu berücksichtigen, dass die Art der Belastung durch beide Anwendungsarten recht unterschiedlich ausfällt und kaum vergleichbar ist. SMP-Server wurden bislang mit vier bis acht Prozessoren in kleineren Konfigurationen für maximal 300 Benutzer etwa im ERP-Bereich eingesetzt. Größere Installationen für bis zu 5000 Anwender bauen darauf, dass eine große Anzahl von Servern nur jeweils mit kleineren Jobs belegt wird. Im Hintergrund besorgt dann ein großer Server die Konsolidierung der Daten wie auch das System- und Netz-Management für die Konfiguration als Ganzes.

Ob MPP, SMP oder Cluster - eines scheint sicher: Die Anforderungen an künftige Anwendungen im E-Business sind extrem hoch - und extrem kritisch. Den ITG-Analysten fallen als Antwort darauf nur wieder die Mainframe-Systeme der S/390-Klasse von IBM ein. Sie begründen dies auch: Computing mit hoher OLTP-Belastung sei schon immer das Feld gewesen, auf dem sie sich bewährt hätten. Server Re-Integration und Netzwerk-Computing scheinen in die gleiche Richtung zu gehen - auch und gerade kostenseitig. Gestützt wird die Überlegung aber durch Aspekte wie Sicherheit und Ordnungsmäßigkeit der Verarbeitung. Getrieben sei dieser Trend vom Bedarf an einem die gesamte globale Organisation eines Unternehmens einschließenden gemeinsamen IT-Prozess.

* Karl-Ferdinand Daemisch ist freier Autor in Lörrach.

Die Kunst, Knoten zu knüpfenDer Multiprozessor-Hochleistungsreigen umfasste an sich drei technisch unterschiedliche Hardwarearchitekturen: Massiv-parallele Prozessorsysteme wurden früher fast ausschließlich bei rechenintensiven Aufgaben eingesetzt, zum Beispiel der Simulation des Wetters und chemischer Prozesse.

Dagegen fanden SMP-Systeme ihr Aufgabengebiet überwiegend in transaktionsorientierten, kommerziellen (Datenbank-)Anwendungen. Cluster schließlich, in dem einzelne Rechner zu einem Verbund über ein schnelles Netz zusammengeschaltet wurden, sind in sich bereits eine Hybridausführung. Sie koppeln die oft als SMP-Systeme ausgelegten Rechner in einer massiv-parallelen Form "lose" etwa über 100-Mbit-Ethernet und Glasfasern.

Eine Änderung ist jedoch unübersehbar: Selbst auf Systemen, auf denen früher ausschließlich der Adel wissenschaftlich-technischer Anwendungen herrschte, haben heute anspruchsvolle kommerzielle Applikationen wie Data Warehouse, Decision Support und OLTP wie ERP (Enterprise Resource Planning) ihren Platz.

Erkennbar ist inzwischen eine weitere Entwicklung: Früher bestimmten schnelle Zahlenfresser à la Cray oder NEC die "Supercomputer Top 500". Die Liste wird jährlich neu von der Universität Mannheim und der University of Tennessee erstellt und führt die leistungsstärksten Rechner der Welt nach Größe der Installation auf. Vermehrt erscheinen nun unter den ersten 100 Supercomputern auch Cluster-Systeme. Diese basieren in aller Regel auf kostengünstigen Standardsystem- wie Netzwerkkomponenten.

Multiprocessing intern und externSchon jede bessere Workstation zumindest des technischen Anwendungssektors ist es: ein echtes Multiprozessorsystem. Meist skalieren diese zwischen zwei und vier Prozessoren - es können aber auch schon mal acht bis zwölf CPUs sein. Und sie werden genutzt: kommerziell häufig im Finanzsektor für Aktienanalysen, im technischen Bereich für aufwändige 3D-CAD-Konstruktion und -Visualisierung. In der Regel jedoch werden sie für Server-Dienste im mittleren und unteren Leistungssegment (bezogen auf die bedienbare Zahl von Anwendern) eingesetzt.

Das Highend entstammt den einst als Mainframes oder Supercomputer, heute verschämt ebenfalls als Server bezeichneten Linien. Manche trumpften hier gleich mit mehreren tausend CPUs auf. Bei den Workstations ist dagegen ein Aufwärtstrend insofern zu beobachten, als Techniken der hochleistungsfähigen Multichip-Verknüpfungen wie Crossbars oder Hochgeschwindigkeitsnetze (etwa das Servernet von Tandem/Compaq oder, aus der Convex-Entwicklung abgeleitet, ein Crossbar von HP) hier zunehmend zum Einsatz kommen. Sie lösen oft Bus-orientierte Systeme ab. Gerade die Architektur der internen Prozessorverschaltung ermöglicht erst die Höchstleistung. Entsprechend optimiert sorgt sie dafür, dass die CPUs schnell genug mit der nötigen Menge Daten versorgt werden.

Das zunächst gigantomanisch anmutende Klotzen hat jedoch System: Es beginnt eigentlich schon beim Uni-Prozessor, dessen heute aktuelles 64-Bit-Design selbst schon multiprozessfähig - als skalar oder gar superskalar bezeichnet - ausgelegt ist. Das heißt, der Chip kann (theoretisch bis zu vier, praktisch kaum mehr als drei) interne Abläufe quasi-parallel verarbeiten. Noch höher parallelisieren soll der Epic-Prozessor "Itanium" von Intel, bei dem jedoch bereits die entscheidende Rolle in der Software - hier noch im Compiler und Betriebssystem - liegt. Dem versucht IBM mit dem "Power4"- Prozessor, wenn auch in einem anderen Chipmodell als Intel, vor allem mit Memory-Bandbreite zu begegnen. Er besteht aus zwei CPUs in SMP-Architektur auf einem Chip (siehe Grafik). Vier dieser Prozessoren werden zu einem SMP-Knoten auf einer Platine zusammengefasst, während mehrere dieser Knoten in MPP-Verschaltung etwa eine RS/6000-SP bilden. Große Caches und kurze Verbindungswege sollen hier für schnellen Datendurchsatz sorgen.

Abb.: IBMs Doppelchip "Power 4", der in sich wie ein SMP-System arbeitet. Vier der Prozessoren auf einer Platine bilden einen SMP-Knoten. Quelle: IBM