14 Hosts fuer Data-Warehouse-Konzepte untersucht (Teil 2)

Bloor Research Group nimmt SMP/MPP-Server unter die Lupe

26.01.1996

Nicht so bekannt im kommerziellen Umfeld, weil in der Vergangenheit vor allem auf den technisch-wissenschaftlichen Bereich konzentriert, ist die Convex Computer Corp. Bei deren frueheren "C1"-, "C2"- und "C3"-Rechnern handelte es sich um Vektor-Supercomputer mit einem proprietaeren Prozessordesign. Der letzte Rechner aus dieser Linie, das Modell "C4", basierte auf der Gallium-Arsenid-Technologie (GaAs).

Die Zukunft heisst Virtual Shared Memory

Aus dieser technologischen Einbahnstrasse zweigte Convex ab, als es 1992 eine Technologieallianz mit Hewlett-Packard (HP) formte. Das erste Ergebnis dieser Zusammenarbeit waren die "Meta-Series"- Rechner, die mit HPs PA-RISC-CPUs arbeiten. Im Juni 1994 dann stellte Convex, ebenfalls auf Basis der PA-RISC-Prozessoren, das MPP-System "Exemplar" vor. Die GaAs-Technologie nutzt Convex in diesen Maschinen fuer die Verbindungsstruktur.

HP ergaenzt mit diesem MPP-Server (beide Unternehmen vermarkten sowohl die Meta-Series- als auch die Exemplar-Maschinen) das Angebot seiner SMP-T500-Rechner der HP-9000-Linie.

Die Bloor-Analysten zeigten sich von der Technologie der Exemplar- Systeme ueber die Massen ueberzeugt. Von allen 14 Probanden verfuege sie ueber das ausgekluegeltste Technologiekonzept. Nur die Exemplar- Rechner boeten MPP-Skalierbarkeit, gleichzeitig aber auch das Konzept des gemeinsam adressierbaren Speicherplatzes analog SMP- Systemen. Diese Virtual-Shared-Memory-Rechner wuerden sich, so die Analysten, in den naechsten fuenf Jahren zumindest bei Top-end- Datenbank-Servern als dominantes Technologiekonzept durchsetzen.

Die Exemplar-Linie ist ein MPP-System, das aus bis zu 16 einzelnen Knoten besteht. Ein Knoten besitzt bis zu acht "7100"- oder "7200"-PA-RISC-Prozessoren. Jede der CPUs verfuegt ueber einen lokalen Cache-Speicher, teilt sich aber mit den anderen Prozessoren einen Cache-kohaerenten Speicher.

Die 16 Rechnerknoten stehen ueber die als Ring ausgelegte Convex Toroidal Interconnect (CTI) in Verbindung. CTI basiert auf dem Scalable Coherent Interface (SCI), das vom IEEE-Gremium definiert wurde. SCI ist zwar darauf ausgelegt, mehrere Ringkonstrukte miteinander zu verbinden. Das Convex-Konzept unterstuetzt allerdings nur einen Ring aus 16 Knoten, so dass maximal 128 CPUs in einem Verbund arbeiten koennen.

Das Merkmal, mit dem sich das Exemplar-System von Convex und allen anderen von Bloor Research verglichenen SMP/MPP-Servern unterscheidet, ist der globale Adressraum, der sich von saemtlichen Knoten ansprechen laesst. Der Cache-kohaerente Speicher (maximal 4 GB) kann ueber den gesamten CTI-Ring gemeinsam genutzt werden.

Auf den Exemplar-Maschinen laeuft "SPP-UX", eine Variante von HPs Unix-Derivat "UX". Im wesentlichen fusst das Betriebssystem auf dem OSF-Mach-Kernel.

Eine weitere Besonderheit der Exemplar-Architektur ist das Kommunikationskonzept der Prozessoren in den einzelnen Knoten. Hierbei handelt es sich naemlich nicht um ein traditionelles Bus- System. Convex nutzt statt dessen einen GaAs-Crossbar-Switch. Dieser gewaehrleiste, so Bloor Research, eine Durchsatzleistung, die einer Bus-Bandbreite von 10 Gbits/s entspreche, was wiederum das Maximum dessen sei, was heutige Bus-Konzepte leisten koennten.

Einen gravierenden Nachteil der Exemplar-Architektur verschweigen die Bloor-Analysten nicht: Da die Crossbar-Technologie keinem Standard entspricht, kann man Peripheriekomponenten nicht direkt an sie anklinken. Vielmehr benutzt Convex den fuenften Port des Crossbar-Switches, um an diesen eine I/O-Adapterkarte anzuschliessen. Diese wiederum verfuegt ueber zwei I/O-Einheiten mit Einsteckplaetzen fuer standardisierte S-Bus-Karten. An diese lassen sich dann die Massenspeicher andocken.

Exemplar, so Bloor Research, ist eine in puncto Rechen- und Kommunikationsleistung sehr ausbalancierte Maschine. Weniger gute Zensuren verteilen die Analysten aber bezueglich des Fehlertoleranzverhaltens (Availability) der Convex-Maschine. So fehlt etwa die Moeglichkeit des sogenannten Hot-plugging fuer Prozessoren und/oder Knoten. Das heisst, faellt eine dieser Komponenten aus, kann nicht bei laufendem Betrieb automatisch auf eine funktionstuechtige Einheit umgeschaltet werden. Convex bietet auch, abgesehen von Data-Striping, kein Raid-Konzept.

Convex kann die Exemplar-Maschine dafuer mit dem Argument einer Vielzahl verfuegbarer Entwicklungswerkzeuge fuer die Parallelumgebung bewerben. Die vom Hersteller selbst zur Verfuegung gestellte Parallel-Fortran-Compiler-Technologie sei, so Bloor, sogar fuehrend.

Die Allzweckmaschine, auf der ein Standard-Betriebssystem laeuft, ist nach Meinung der Bloor-Autoren Klassenbester, geht es um die Unterstuetzung von Alltagsanwendungen in Datenbankumgebungen, die das Virtual-Shared-Memory-Konzept unterstuetzen. Das ist im Augenblick jedoch nur bei Oracle 7.1 der Fall. Dieses Datenbankprodukt aber ist nach dem Eindruck von Bloor Research gut auf die Convex-Maschine abgestimmt.

Weitere Datenbankportierungen seien geplant. Allerdings kann der Exemplar-Rechner, wird er als Datenbank-Server genutzt, gleichermassen als Single-Shared-Memory-Maschine oder als System mit einer Reihe von Rechnern mit verteiltem Speicher eingesetzt werden.

Pyramid/SNI verwirklicht bei seinen "Reliant-RM1000"-Systemen, bei denen es sich um echte MPP-Loesungen handelt, ein anderes Hardwarekonzept als Convex. Bislang schon bietet das Unternehmen, das mittlerweile eine hundertprozentige Tochter der Siemens- Nixdorf Informationssysteme AG (SNI) ist, die SMP-Rechner der "Nile"-Familie an. Die Rechner arbeiten mit bis zu 192 RISC- Prozessoren "R4400" der Silicon-Graphics-Tocher Mips Technologies Inc. Wie bei DECs Alpha-Architektur sind auch die Mips-CPUs in 64- Bit-Technologie ausgelegt. Bloor Research haelt die Reliant-Rechner fuer eine "der besten MPP-Maschinen am Markt, ausgestattet mit guten Ausbauoptionen sowie einer guten Rechenleistung".

Die einzelnen Knoten - jeder besteht lediglich aus einer einzigen CPU - sind ueber ein Mesh-Design miteinander verbunden. Bis zu sechs Prozessoren bilden dabei eine sogenannte Zelle, an die maximal 24 Festplatten angeschlossen sein koennen. Um das System auszubauen, fuegt man jeweils weitere Zellen hinzu. Zukuenftig koennen die Nile-SMP-Rechner ueber ihren Bus direkt an die Mesh- Architektur angekoppelt werden.

Ein Aktivposten der Reliant-Systeme ist nach Meinung von Bloor Research das Betriebssystem. Viele Hersteller von SMP-Rechnern wuerden diese Maschinen naemlich nur deshalb als Front-ends zu ihren MPP-Boliden verkaufen, weil sie es nicht geschafft haben, fuer letztere eine halbwegs ueberzeugende Betriebssystem-Portierung zustande zu bringen. Auf das SVR4-basierte "DC/OSx" treffe diese Feststellung aber eben nicht zu. Es laufe sowohl auf den SMP- als auch auf MPP-Rechnern von Pyramid/SNI. Auf den Reliant-Maschinen unterstuetzt DC/OSx allerdings keine SMP-Strukturen.

Pyramid entwickelte fuer das MPP-System ein komplett neues Knotendesign, uebernahm also hierfuer nicht einfach die Systemplatinen der Nile-Rechner. Jeder dieser Knoten besteht aus nur einem Prozessor mit maximal einem SCSI-Adapter und - derzeit - lediglich einer Ethernet-Schnittstelle. Optionen fuer den Ausbau von Cache- und Arbeitsspeicher sind vorhanden. Die Prozessoren sind an einen Bus mit - zumindest momentan - ausreichender Bandbreite angeschlossen. Sollte sich Pyramid/SNI aber einmal entscheiden, von dem Ein-Prozessor-Knoten abzuweichen, so muesste das Unternehmen sich, meinen die Autoren, auch Gedanken ueber die Bandbreite des Knoten-Busses machen.

Ein Problem sehen die Autoren in der Beschraenkung der Dateigroessen auf 4 GB. Dies scheint in Anbetracht der zugrundeliegenden 64-Bit- Prozessorarchitektur aber die einzige Limitierung durch das 32- Bit-Betriebssystem zu sein. Derzeit muesste deshalb beispielsweise eine 1 TB grosse Datei noch in 256 Plattendateien aufgesplittet werden.

Bezueglich der Skalierbarkeit von Mesh-Architekturen scheiden sich die Geister: Die einen sind der Meinung, dieses Hardware- und Kommunikationskonzept sei ueberhaupt nicht ausbaufaehig. Andere vertreten den Standpunkt, Mesh-Topologien seien das einzige Design, das wirklich erweiterbar ist. Das grundsaetzliche Problem bei dem Mesh-Konzept besteht darin, dass mit jedem zusaetzlichen Knoten auch die durchschnittliche Laenge der Kommunikationspfade im Netz anwaechst. Arbeiten nun alle Knoten, also CPUs, mit der gleichen Intensitaet, waechst auch die Anzahl der Informationen, die jeden Knoten passieren. Das aber ist komplikationstraechtig: Bei Mesh-Architekturen waechst naemlich mit der Anzahl von Knoten nicht auch die zur Verfuegung stehende Bandbreite. Die jedoch ist fuer eine reibungslose Kommunikation noetig. Dies unterscheidet etwa Mesh- von Hypercube-Konzepten.

Pyramids Punkt-zu-Punkt-Verbindungen sind, so Bloor, zudem nicht die schnellsten. Praktisch aber habe dies - jedenfalls bei den meisten Datenbankanwendungen - keine Auswirkungen, weil Anwender mit den Reliant-Rechnern noch nicht in Grenzbereiche vorstossen. Mit leistungsstaerkeren CPUs oder Multi-Prozessor-Knoten jedoch koenne Pyramid/SNI durchaus gezwungen sein, das Kommunikationskonzept zu ueberdenken.

Nicht klar ist den Bloor-Analysten, welche Moeglichkeiten Pyramid/SNI Anwendern an die Hand gibt, via das Betriebssystem einen optimierten Zugriff auf die Mesh-Verbindungen zu bewerkstelligen. Lediglich ueber das Direct Memory Communications Interface (DMCI) ist ein solcher Zugriff moeglich. Oracle etwa nutzt die DMCI-Schnittstelle.

Genau der Overhead, der beim Zugriff auf die Kommunikationsstruktur anfaellt, ist aber der wesentliche Faktor, der die Skalierbarkeit von Applikationen in MPP-Systemen definiert. Bloor Research macht diesbezueglich bei den Reliant- Systemen ein dickes Fragezeichen und empfiehlt potentiellen Kaeufern, diesen Punkt mit dem Hersteller genau zu eroertern.

Die Fehlertoleranzeigenschaften sind nach Einschaetzung von Bloor Research exzellent. Das betrifft sowohl die Integritaetspruefung von ueber das Mesh-Kommunikationsnetz geschickten Daten als auch die automatische Umleitung von Daten bei ausgefallenen Prozessoren oder etwa die softwarebetriebene Unterstuetzung der Raid-Levels 0, 1 und 5. Einige Komponenten wie CPUs koennen waehrend des Betriebs ausgewechselt werden.

Pyramid/SNI bietet zudem einen fehlertoleranten Lock-Manager. Neben guten Management-Tools verfuegt die Reliant-Maschine auch ueber ausgefeilte Optionen, um Prozessorressourcen gezielt und auf jeweilige Anwendungsprofile zugeschnitten zuzuweisen. (wird fortgesetzt)

*Der Report "Parallel Database Technology - An Evaluation and Comparison of Scalable Systems" von der Bloor Research Group wird in Deutschland fuer 1950 Mark von der Genias GmbH, Neutraubling, vertrieben.