Superserver statt Mainframes/Leistungsstarke Unix-Server sind noch keine Alternative

10.11.1995

Um Unix-Systeme als Mainframe-Alternative sinnvoll einsetzen zu koennen, brauchen diese viel mehr als nur die Performance der Grossrechnerklasse. Unix-Enterprise-Server mit symmetrischer Multiprozessortechnikausgestattet mit ueber 20 Prozessoren - bringen diese Leistung. Die Performance ist aber nur eine Facette in einem komplexen Zusammenspiel von Systemkomponenten, die alle zusammen erst einen Mainframe ergeben.

Von Friedrich Schanda*

Leistungsfaehige I/O-Subsysteme, die Faehigkeit zur Parallelverarbeitung und ein effizientes Workload-Management sind wesentliche Bausteine, die die gesamte Systemleistung in der Praxis beeinflussen. Viel wichtiger sind im Bereich des Enterprise Computing jedoch die Sicherheits- und Management-Aspekte: Reliability, Availability, Serviceability. Systems- und Network- Management sowie Data-Center-Tools sind fuer Mainframe-Anwender genauso unverzichtbare Komponenten wie hierarchisches Speicher- Management, Hochleistungs-Backup oder die Mainframe- und PC- Connectivity.

Kriterien wie Produktivitaet, Flexibilitaet, die Verfuegbarkeit innovativer Software und die Kosten fuer die Erschliessung neuer DV- Einsatzfelder koennen auf der Anwenderseite Alternativen zur Mainframe-Technologie erfordern. Fuehrende Unternehmen setzen deshalb als Ergaenzung oder Alternative zur klassischen Technologie auf leistungsstarke Unix-Server-Systeme.

Viele Anwender klassischer Mainframe-Technologie sind sich der Herausforderung wohl bewusst, stellen sich aber verstaendlicherweise die Frage, ob eine alternative Unix-basierte Loesung nicht nur die neuartigen Aufgaben bewaeltigen, sondern auch gleichzeitig die Qualitaet und Leistungsmerkmale der bewaehrten Technologie mitbringen kann.

Die Unix-Enterprise-Server der RM600-Klasse nutzen - wie alle Systeme der RM-Familie - schon seit drei Jahren 64-Bit- Technologie. Ein mit 200 Megahertz getakteter 64-Bit-RISC- Prozessor R4400 hat heute eine Prozessorleistung von 143 Spec-int92.

Hoehere Performance fuer neue Aufgaben

Die Verarbeitungsleistung des Gesamtsystems haengt allerdings weit weniger von der reinen Integer-Leistung des Prozessors ab, als weithin angenommen wird. Die Einbettung des Prozessors in seine Systemumgebung - Caches, Busse, Memory - spielt eine grosse Rolle.

Dies zeigt ein Beispiel: Beim Uebergang von der 150-Megahertz- Version der R4400 zur 200-Megahertz-Version stieg die Integer- Leistung um zirka 30 Prozent. Erwartungsgemaess stieg die Leistung eines RM-Servers der Workgroup-Klasse mit Monoprozessor- Architektur um diesen Prozentsatz. Im High-end wurde zusaetzlich der Speicherzugriff durch verschiedene Massnahmen verbessert. Der Effekt war verblueffend: Die Leistung bei einem Benchmark in der Art eines TPC-B steigerte sich um zirka 40 und der Durchsatz bei einem R/3-Benchmark um etwa 80 Prozent. Daraus folgt, dass leistungsstarke Prozessoren ihre Vorteile in einer relativ aufwendig gebauten Systemumgebung, wie sie fuer Mainframe- Architekturen typisch sind, besonders gut ausspielen koennen.

Die erforderliche Performance der Mainframe-Klasse laesst sich nur mit Parallelverarbeitung erreichen. Multiprozessorsysteme werden sowohl als symmetrisches Multiprocessing (SMP) als auch in Form von massiv-parallelem Processing (MPP) angeboten.

SMP-Systeme von Siemens-Nixdorf betreiben bis zu 24 CPUs mit linearer Skalierbarkeit. Dies wird sowohl durch das Betriebssystem (Cache-Management-Algorithmen) als auch durch die Speicherarchitektur erreicht. Normalerweise nutzen SMP-Systeme globales Shared Memory ueber den System-Bus.

High-end-Systeme der RM-Serie verfuegen ueber zusaetzlichen lokalen Speicher auf dem CPU-Board, der aber wie globaler Speicher verwaltet wird. Der lokale Speicher kann bis 256 MB gross sein. Er ist damit ausreichend dimensioniert, um den Kontext grosser kommerzieller Anwendungen zu halten und damit Speicherzugriffe zu ermoeglichen, die um den Faktor 2 schneller sind als Speicherzugriffe ueber den System-Bus. Insgesamt laesst sich eine RM600 heute mit 4 GB Speicher ausstatten. Manche Anwender von RM- Systemen nutzen derzeit mit grossen Anwendungen, die auf einer relationalen Datenbank aufsetzen, tatsaechlich schon 3 GB und mehr.

Jeder Stillstand geht ins Geld

Die drei Kategorien Reliability, Availability, Serviceability sind bei einem System, das alternativ zu einem klassischen Mainframe eingesetzt werden soll, von herausragender Bedeutung fuer den Anwender. In der Regel handelt es sich hier um zentrale Applikationen, deren Stillstand nicht nur Kosten verursacht, sondern unter Umstaenden denn Lebensnerv des Unternehmens trifft.

Die Kosten fuer einen solchen Stillstand bewegen sich je nach Branche und Anwendung zwischen 1500 und 350000 Mark pro Minute. Die Spitzenplaetze nehmen hier Anwendungen in der Telekommunikation und der Finanzwelt (Aktien und Wertpapiere) ein.

Die Verfuegbarkeit ist immer relativ zu zusaetzlichem Aufwand und Kosten zu sehen. Waehrend ein Anwender mit Ausfallzeiten bis zu einer Stunde leben kann, verlangt ein anderer nahezu 100 Prozent Verfuegbarkeit. Bei diesen Anforderungen muss man heute keine spezialisierten und teuren fehlertoleranten Systeme klassischer Bauart mehr einsetzen. Zur RM-Systemfamilie gibt es ein abgestuftes Angebot an "Availability-Features", das es dem Kunden erlaubt, genau so viel Verfuegbarkeit in sein System zu konfigurieren, wie es fuer ihn wirtschaftlich ist.

Denkbaren Notfaellen umfassend vorbeugen

Availability geht natuerlich nicht ohne Reliability jedes einzelnen Systembausteins. Angefangen beim grundsaetzlichen Hardwaredesign, das konsequent auf hoechste Zuverlaessigkeit ausgelegt sein muss, ueber Massnahmen im Betriebssystem, Cluster-Technologie bis hin zu zusaetzlichen Schutzmassnahmen, wie sie fuer Desaster-Recovery notwendig sind.

Eine Steigerung der Verfuegbarkeit bedeutet ganz einfach, die Zeit zu minimieren, die zwischen dem Auftreten einer Stoerung und ihrer Behebung vergeht. Neben ungeplanten Systemstillstaenden gibt es auch den geplanten Shut-down eines Rechnersystems beispielsweise bei einem Release-Wechsel in System- oder Anwendungssoftware.

Bei groesseren Systemen bietet es sich dann an, die Anwendungslast auf zwei produktive Systeme zu verteilen, die zu einem Cluster verbunden sind. Im Falle des Stillstands eines Rechners sorgt eine intelligente Cluster-Software automatisch fuer alles Notwendige - Restart von Prozessen, Umschalten von allen Komponenten wie Platten, Peripheriegeraeten oder Netzanbindungen. Mit diesen Reliability-Features ist heute ein Wiederanlauf der Hardware innerhalb von Sekunden gewaehrleistet.

Die Herausforderung besteht nun darin, auch die Zeit fuer den Wiederanlauf der Software zu minimieren. Hierbei steht das Betriebssystem an erster Stelle. Uebliche Unix-Systeme muessen beim Neustart nach einem Crash einen "Filesystem Check" durchfuehren. Das war zu Zeiten, als Unix-Systeme Plattenspeicher mit einstelligen GB-Kapazitaeten besassen, tragbar. Einige Anwender stossen heute allerdings in den TB-Bereich vor. Damit sind diese Mechanismen nicht mehr realistisch.

Aus diesem Grund sind die RM600-Loesungen grundsaetzlich mit einem Logging- und Recovery-faehigen File-System ausgestattet. Damit ist ein Wiederanlauf in Sekunden moeglich und nicht mehr von der Menge der Daten in den File-Systemen abhaengig.

Die naechste fuer den Wiederanlauf kritische Komponente ist die Datenbank. Wenn schon alle Komponenten eines groesseren Systems laufen, braucht sie vielleicht noch 30 oder 45 Minuten fuer das Recovery nach einem ungeplanten Stopp. Wenn diese Zeitspanne fuer den Anwender zu lang ist, er nur Unterbrechungen von wenigen Minuten oder gar weniger als einer Minute tolerieren kann, dann muss die Datenbank die notwendige Technolgie dazu mitbringen.

SNI hat dafuer bei ihren Kunden schon seit etwa zwei Jahren den Oracle Parallel Server (OPS) im Einsatz. Fuer eine nach dem Client- Server-Modell implementierte Anwendung stellt sich damit ein RM600-Cluster als ein einziger Datenbank-Server dar. Bis zu vier Enterprise-Server lassen sich heute in dieser Form verbinden. Jeder Cluster-Knoten kann aus einer voll ausgebauten RM600 (24 CPUs, 4 GB Hauptspeicher) bestehen. Die gesamte Plattenkapazitaet bewegt sich dann im Terabyte-Bereich.

Der Zugriff der Clients auf einen derartigen Server wird praktischerweise administrativ geregelt. So erfolgt die Verteilung auf die Knoten nach Abteilungen, Applikation oder Kundengruppen etc. und muss nicht statisch sein, sondern laesst sich durch einen Workload Manager nach Bedarf dynamisch veraendern. Kommt mit der Anwendung ein Transaktionsmonitor zum Einsatz, kann dieser die Aufgabe mit uebernehmen.

Wir haben also in diesem Fall ein System, das aus aktiven Redundanzen besteht, das heisst, alle Ressourcen sind produktiv. Faellt ein Cluster-Knoten aus, werden die darauf aktiven Clients auf andere verteilt. Dort laeuft inzwischen eine automatische Recovery-Prozedur ab und erzeugt beim Anwender den Eindruck, dass die Datenbank zu jeder Zeit verfuegbar ist und seine Anwendung einfach weiterlaeuft.

Doch der Einsatz von OPS allein loest noch nicht alle Verfuegbarkeitsprobleme. Deshalb setzt man normalerweise zusaetzlich eine Cluster-Management-Software ein. Sie wird auf allen Cluster- Knoten installiert, kann beliebige Ressourcen kontrollieren und auf beliebige Ereignisse reagieren. Das heisst, alle Recovery- Massnahmen werden gestartet und ueberwacht: die Benachrichtigung der Clients, Restart von Programmen, der Wiederaufsatz von Druck- Spoolern, Batch-Queues, das Umschalten von Terminal-Verbindungen oder WAN-Leitungen und vieles mehr.

Der Einsatz von Raid-Technik schuetzt die Integritaet der Daten. Raid 0 und 1 (Striping und Mirroring) unterstuetzt das Betriebssystem direkt, fuer Raid 5 wird aus Performance-Gruenden ein intelligentes Subsystem mit Read/write-Cache eingesetzt.

Raeumlich getrennte Knoten sind sicherer

Wichtig fuer die Wiederanlauffaehigkeit ist natuerlich die Moeglichkeit, Root-File-Systeme zu spiegeln und bei Problemen von dort automatisch zu booten. Fuer High-end-Unix-Systeme ist dies eine wesentliche Funktionalitaet, die heute noch keine Selbstverstaendlichkeit ist.

Wenn eine lange Unterbrechung des Geschaeftsbetriebs einen enormen wirtschaftlichen Schaden verursacht oder sogar das gesamte Unternehmen gefaehrdet, ist der Anwender gezwungen, sich nicht nur gegen Ausfaelle der "gewoehnlichen Art" (Systemabstuerze) zu schuetzen, sondern auch gegen die teilweise oder gar voellige Zerstoerung des Rechenzentrums. In diesem Fall muss er seine Cluster-Knoten raeumlich trennen koennen. Entfernungen von 300 bis 1000 Meter sind in der Regel ausreichend.

Die RM-Systeme lassen sich heute mit SCSI ueber Glasfaserverbindungen auf diese Entfernung verteilen. Mit hoeherer Performance werden sich in Kuerze kombinierte RM1000- und RM600- Systeme weiter als einen Kilometer verteilen lassen. Die RM- Cluster-Systeme kommen heute auf eine Verfuegbarkeit von 99,998 Prozent, das bedeutet bei einem 24stuendigen Betrieb an allen Tagen der Woche eine rechnerische Standzeit von zehn Minuten pro Jahr.

Speichermanagement in heterogenen Umgebungen

Ein effizientes und wirtschaftliches Storage-Management-System ist fuer kommerzielle Anwender unabdingbar. Dabei geht es in erster Linie um das Backup riesiger Datenmengen sowie um die kostenoptimierte Datenspeicherung unter Einsatz modernster Sicherungsmethoden und -medien. In der Mainframe-Welt bewaehrte Technologien wie die Unterstuetzung von Robotern zum automatischen Handling riesiger Bandarchive sind heute auch in Unix-Umgebungen verfuegbar. Unter Aspekten des Investitionsschutzes ist dabei von Bedeutung, dass Mainframe und Unix-Enterprise-Server die gleichen Roboter ansteuern koennen.

In der Regel waechst der Datenbestand auf den Platten sehr rasch. Diese lassen sich oft aus Kostengruenden nicht alle online halten, muessen aber unter Umstaenden schnell wieder im direkten Zugriff sein. Hierarchische Speichersysteme sorgen dafuer, dass der Anwender jederzeit auf seine Dateien zugreifen kann, ohne ueberhaupt zu wissen, wo sich die gerade benoetigte Datei befindet.

Die Datei kann dabei online, das heisst auf der Platte seines Arbeitsplatzes, sein, kann im File-System des Servers zentral liegen oder schon auf Magnetband oder WORM-Medien ausgelagert sein. Im Falle eines Zugriffs auf ausgelagerte Files, die in der Speicherhierarchie weiter nach "unten" gewandert sind, werden diese automatisch wieder auf schnellere Speichermedien uebertragen. Der Anwender bemerkt davon nichts, ausser dass das Oeffnen einer Datei manchmal etwas laenger dauert.

Eine besondere Herausforderung - und in der Mainframe-Klasse als normale Funktionalitaet vorausgesetzt - ist die Sicherung riesiger Datenmengen. Ein Anwender kann beispielsweise aus gesetzlichen Gruenden gezwungen sein, regelmaessig Sicherungen anzufertigen. Kritisch kann dabei sein, dass fuer die Sicherung nur ein relativ kleines Zeitfenster von zwei bis vier Stunden zur Verfuegung steht. Sind dann zweistellige Gigabyte-Mengen zu sichern, laesst sich das nur mit spezieller Technologie bewaeltigen.

SNI hat in enger Kooperation mit Legato eine High-end-Version des Networker-Servers fuer seine Unix-Enterprise-Server entwickelt, die in der Lage ist, parallel auf mehrere Hochgeschwindigkeits- Laufwerke zu schreiben. Dies bewirkt extrem hohe Sicherungsgeschwindigkeiten im zweistelligen Gigabyte-Bereich pro Stunde. Auch hier wird wieder die Unterstuetzung von Robotern zur Hochleistungs-Datensicherung geboten.

Viele Eigenschaften, die von einem Mainframe gefordert werden, haben weniger mit High-Tech zu tun, sondern betreffen vielmehr den Betrieb und die Verwaltung der Ressourcen. Die Koexistenz mit der vorhandenen Systemlandschaft ist dabei von entscheidender Bedeutung.

Selbstverstaendlich verfuegen RM-Systeme ueber alle im Mainframe- Umfeld wichtigen Connectivity-Produkte. Daher ist es moeglich, dass Unix- und Host-Anwendungen kooperativ arbeiten, wobei es unerheblich ist, auf welchem System sich die Daten und auf welchem sich die Programme befinden. Breitbandige Verbindungen, wie sie fuer Data-Warehouse-Loesungen noetig sind, werden durch eine Kopplung ueber Escon realisiert.

Fuer das System-, Netz- und Applikations-Management steht mit dem Transview-Control-Center eine Loesung bereit. Dieses kombiniert die Vorteile einer zentralen Administration der Systeme mit einer in Client-Server-Umgebungen typischen verteilten Verarbeitung. So laesst sich ein Betrieb von einem zentralen Leitstand aus realisieren, die Automatisierung von Management-Aufgaben durchfuehren und damit Rationalisierungspotentiale ausschoepfen. Im Control-Center sind alle Management-Funktionen - vom Backup bis zum Management von R/3-Anwendungen - einheitlich integriert.

*Dr. Friedrich Schanda arbeitet im Bereich Marketing und Sales fuer High-end-Unix-Systeme bei der Siemens-Nixdorf Informationssysteme AG in Muenchen.