Backup-System fungiert auch als Entwicklungsrechner Quelle: Ausfallsicherheit beim R/3-Einsatz ein wichtiger Punkt

18.11.1994

Von Ulrich Meine*

Im Rechenzentrum sind eine unterbrechungsfreie Stromversorgung, doppelt ausgelegte Hardwarekomponenten und ein pausenloser Operatorbetrieb bewaehrte Vorkehrungen gegen Systemausfaelle. Viele Grossunternehmen mit einer dezentralen DV-Infrastruktur sind in dieser Beziehung allerdings etwas nachlaessig. Nicht so die Quelle Versicherungen: Hier stand die Einfuehrung einer SAP-R/3-Client- Server-Struktur von vornherein unter der Praemisse einer maximalen Ausfallsicherheit.

Die Quelle Versicherungen haben sich in den Bereichen Finanzbuchhaltung und Controlling fuer die Einfuehrung der Standardsoftware SAP R/3 und deren Module "FI", "CO" und "AM" entschieden. Fuer das Konzept und dessen Umsetzung wandte sich das Unternehmen an das Koelner Compunet Systemhaus.

Zunaechst stand die Auswahl des Hardwareherstellers an. Dabei entwarf der DV-Dienstleister Plaene fuer verschiedene Hardwareumgebungen, wie die Verfuegbarkeit unter Beruecksichtigung der R/3-Software aussehen sollte. In Zusammenarbeit mit den Quelle Versicherungen wurden die Loesungen nach den spezifischen Anforderungen des Unternehmens bewertet. Die Entscheidung fiel schliesslich zugunsten der RS/6000-Familie von IBM aus.

Raid-Software sucht intakte Verbindung

Als Hauptsystem kommt eine RS/6000-Maschine, Modell 570, mit 192 MB Hauptspeicher zum Einsatz. Beim Backup-System, auf dem gleichzeitig ein zweites SAP-Entwicklungssystem installiert ist, handelt es sich um einen Rechner gleichen Typs mit 128 MB Hauptspeicher. Beide Maschinen sind an eine IBM-Raid-Einheit 7135- 110 mit 10 GB Festplattenkapazitaet angeschlossen. Dieses Array laesst sich ueber zwei unabhaengige Controller ansteuern und kann im normalen Betrieb Datenanforderungen des Rechners ueber beide Controller parallel abarbeiten. Auch die interne Plattenverwaltung mit der Berechnung der Pruefsummen und der Verteilung der Daten auf die einzelnen Festplatten ist damit schneller moeglich.

Sowohl im Produktiv- als auch im Backup-System kommen je zwei SCSI-II-Controller zum Einsatz. Sollte der Betrieb ueber eine der beiden Verbindungen nicht mehr moeglich sein - durch Ausfall eines SCSI- oder Array-Controllers -, sorgt die Raid-Software dafuer, dass alle Datenanforderungen automatisch nur noch ueber die intakte Verbindung geleitet werden.

Beide Rechner erhalten ueber je zwei Token-Ring-Adapter Zugang zu verschiedenen Segmenten des lokalen Netzwerks. Als Schutz gegen Stromausfaelle ist dem Gesamtsystem eine unterbrechungsfreie Stromversorgung vorgeschaltet. Sie versorgt die Anlage bei fehlender Energiezufuhr mit Hilfe der eigenen Akkus zirka 30 Minuten lang.

Die Ueberwachung der Rechner erfolgt mit der IBM-Software

"HACMP/6000" (High Availability Cluster Multi-Processing). Dieses Programm ermoeglicht die Zusammenarbeit mehrerer Rechner in einem Cluster, wobei der Single point of failure vermieden wird. HACMP realisiert die Ausfallsicherheit in mehreren Stufen. Zunaechst ueberwacht die Software die Netzfunktionen. Im Produktivsystem ist zu jedem Zeitpunkt nur ein Netzadapter aktiv. Sollte eine Verbindung ueber diesen Zugang nicht moeglich sein, schaltet das Ueberwachungsprogramm den entsprechenden Adapter ab und aktiviert den Ersatzadapter unter derselben Netzadresse. Dadurch ist der Rechner fuer andere Systeme im Netz immer erreichbar.

HACMP sorgt dafuer, dass das Produktivsystem kontinuierlich Signale, sogenannte "Keep alive packages" an den Backup-Rechner sendet. Sie zeigen an, dass der erste Rechner normal arbeitet. Bleiben diese Signale aus, wird das Backup-System zur Uebernahme aller Funktionen des Hauptsystems veranlasst. Wichtig fuer den Einsatz eines Backup- Rechners ist, dass dieses System physischen Zugriff auf alle notwendigen Datenbestaende hat, in diesem Fall also auf das Raid- System. Sollte im Produktivrechner ein Fehler vorliegen und das R/3-Programm abbrechen, reagiert HACMP automatisch. Dabei spielt es keine Rolle, ob ein Hardwarefehler oder Probleme im Betriebssystem den Systemstillstand ausgeloest haben.

Der Ersatzrechner erhaelt einen logischen Zugriff auf die Plattensubsysteme, auf denen sich die Anwendung und alle Daten befinden. In diesem Fall wird R/3 dann neu gestartet. Die Datenbank fuehrt ein automatisches Recovery durch, bei dem die letzte nicht abgeschlossene Transaktion zurueckgerollt wird.

Waehrend der Installation der Systemumgebung stiess man bei den Quelle Versicherungen auf mehrere Probleme. So liessen sich Schwierigkeiten im Zusammenspiel der verschiedenen Softwarekomponenten erst nach einer laengeren Testphase lokalisieren und beheben. Mittlerweile ist jedoch die Umgebung vollstaendig implementiert. Die neben dem Produktivsystem vorhandene Entwicklungsumgebung ermoeglicht unter anderem den Test neuer SAP- und Betriebssystem-Releases. Das Raid-Array wurde inzwischen auf eine Bruttokapazitaet von 20 GB aufgestockt. Auch die Verwaltung dieser Festplattengroesse erfolgt ohne Probleme.

Die beschriebene Ausfallsicherung sorgt dafuer, dass das SAP-System der Quelle Versicherungen innerhalb fuenf bis 15 Minuten nach einem Systemstillstand wieder einsatzbereit ist. Der End-User bemerkt nur einen kurzen Ausfall der R/3-Anwendung und muss sich wieder am System anmelden. Ein Eingriff des Administrators ist nicht notwendig.

Das Beispiel Quelle Versicherungen zeigt: Ausfallsicherheit ist kein Thema, das sich von selbst erledigt. Wer sich ueber die moeglichen Probleme, die im Betrieb einer hochkritischen Anwendung auftreten koennen, Gedanken macht, kann aber in jedem Fall geeignete Massnahmen zu deren Vermeidung treffen. Allerdings bedarf es dazu einer genauen Analyse der spezifischen Umgebungsbedingungen. Dann aber bieten Unix-Systeme heute auch im kommerziellen Umfeld die gleiche Betriebssicherheit, wie man sie bei Grossrechnern gewohnt ist.

* Ulrich Meine ist Systemberater im Compunet Systemhaus in Koeln.