Vor der Einführung laufen umfangreiche Tests

Datev setzt bei Speichern auf Sicherheit und Performance

16.12.1998
Von Norbert Henkel* Als IT-Grossanwender mit sensiblen Daten und zeitkritischen Anforderungen an das Rechenzentrum kann und will sich die Datev keine Experimente bezüglich Datensicherheit, Verfügbarkeit und Performance leisten. So wurden intensive Tests vorgeschaltet, bevor die neuen Raid-Subsysteme grünes Licht für den operativen Betrieb erhielten.

Die Datev beobachtet die Hardware-Entwicklung und die Innovationszyklen speziell bei Speichersystemen genau. Im Hinblick auf kommende Open-Systems-Applikationen will man in Nürnberg zeitig gerüstet sein. Zum Zeitpunkt der Neuausrichtung Anfang 1998 waren im Rechenzentrum 24 Speicher-Subsysteme der "Tetragon-2000"-Generation von Comparex installiert. Der Übergang auf das Nachfolgemodell "T 2100" war für die IT-Verantwortlichen der Anlaß, die neue Technik in einer umfassenden Testinstallation zu untersuchen.

Wegen des wachsenden Datenvolumens und immer wieder neuer Dienste und Anwendungen braucht die Datev kürzere Sicherungszyklen; daneben gilt es, ein möglichst perfektes Zusammenspiel der einzelnen RZ-Komponenten zu gewährleisten. Dazu Edgar Eck vom Datev-Systemdesign "Zentrale Systeme": "Es ist abzuwägen, inwieweit die Performance-Möglichkeiten im CPU-, Platten- und Kassettenbereich zueinander passen, damit wir uns nicht an einer Stelle einen Flaschenhals konstruieren, der dann beste Performance an anderer Stelle wieder zunichte macht." Wichtig sei auch die Wirtschaftlichkeit neuer Subsysteme.

Heute ist bei der Datev eine Speicherkapazität von etwa 5,3 TB im Plattenbereich installiert, während der Rechenbetrieb auf drei CPU-Systeme mit einer Leistung von zusammen 1422 MIPS verteilt ist. 1993/94 gelang es durch Datenduplizierung (Dual Copy) erstmals, die Sicherheit entscheidend zu erhöhen. Das war damals das einzige Mittel, um sich vor Festplattenabstürzen zu schützen.

Ende 1994 erfolgte der Einstieg in die Raid-Technologie. "1995 wurde erstmalig der Kauf eines Raid-5-Speichersystems erwogen", erinnert sich Gerhard Hartmann, der seit 1991 für Performance-Tuning und Reporting verantwortlich ist. "Wir haben von Juli bis September 1995 einen Beta-Side-Test veranstaltet und Ende des Jahres die ersten Systeme in die Produktion übernommen. Der nächste große Schritt war dann der Umstieg auf ein leistungsstärkeres Modell, für das ab März 1998 die Tests begannen."

Im Vordergrund bei allen Plattentests steht die Verfügbarkeit. Es muß gewährleistet sein, daß alle Programme reibungslos laufen. Hartmann: "Wir können uns keinerlei Ausfälle leisten, denn wir haben Online-Verbindungen zu den Steuerberatern. Das kann ein Online-Cics-Betrieb oder eine Lohnverarbeitung sein, die einen Online-Charakter hat." Aus diesem Zwang heraus wurde ein sogenannter Job-Stream erstellt, der alle wichtigen Zugriffsmethoden und Dienstprogramme enthält, die für die Datev-Anwendungen charakteristisch sind. "Wir lassen diesen Job-Stream, der etwa vier bis fünf Stunden benötigt, seit 1994 grundsätzlich erst einmal auf allen neuen Systemen laufen und überprüfen damit, ob alles funktioniert", erläutert der Testchef.

Warum sollen wir dann nicht gleich auch die Performance messen?, fragten sich die Datev-IT-Verantwortlichen. Seit vier Jahren werden Meßdaten ermittelt, die es erlauben, die Plattensubsysteme so zu belegen, daß die erwünschte Verfügbarkeit und gleichzeitig eine optimale Performance erreicht werden. Eine ausbalancierte Belegung von Plattenspeichern, die neu zum produktiven Einsatz kommen, schlägt sich beim Kunden als gute Performance nieder. Dazu Hartmann: "Es sind reine Ausnahmen, wenn wir wirklich einmal über Engpässe klagen müssen."

Datev orientiert sich bereits heute an einem 7x24-Stunden-Betrieb. Deshalb muß der Update des Mikrocodes so ablaufen, daß der Rechenbetrieb nicht unterbrochen wird. Datev-Manager Hartmann erläutert dazu die Sicherheitsstufen: "Wir beginnen mit einem Testsystem und gehen anschließend anwendungsweise die Controller durch, was bei 24 Controllern natürlich nicht an einem Tag zu schaffen ist. Das haben wir jetzt mehrmals in den vergangenen drei Jahren gemacht - immer problemlos."

Aus Sicherheitsgründen ist das Rechenzentrum der Datev in mehrere Zellen unterteilt. Jede verfügt über ein separates Zugangssystem und eine eigene Stromversorgung. Die Rechner und Platten sind anteilig über die einzelnen Subzentren verteilt. Auch die Verkabelung ist so aufgebaut, daß bei Ausfall einer Zelle ein kurzfristiger Wiederanlauf mit Hilfe der verbleibenden RZ-Einheiten sichergestellt ist. Allerdings ist dann unter Umständen ein Zurückspeichern von Datenbeständen und ein Nachfahren verschiedener Anwendungen erforderlich, um konsistente Datenbestände zu erzeugen. Dadurch fallen verschiedene Anwendungen eventuell kurzfristig aus. Um bei Abstürzen mit schnellerem Wiederanlauf rechnen zu können, wurde der Einsatz von Remote-Copy-Funktionen untersucht. Zwischen zwei Lokationen, die zirka 1,5 Kilometer voneinander entfernt sind, wurde eine Fernkopie-Konfiguration aufgebaut, die in bidirektionalem Modus arbeitet. Umfangreiche Tests haben gezeigt, daß mit dieser Technik für mehr Sicherheit gesorgt werden kann, ohne daß dafür Nachteile beim Datendurchsatz in Kauf genommen werden müssen. Diese Funktion hat sich im Sommer 1998, als ein Standort DV-technisch ausfiel, bereits bewährt.

Waldemar Kerczynski, Abteilungsleiter Basis-Systemprogrammierung, ergänzt, daß durch die Hardwaretechnik allein noch kein sicherer Wiederanlauf erreicht werden kann. Mindestens ebenso wichtig sei die Organisation der Datenhaltung: Bei Datev wurde ein Pool-Konzept realisiert, das so aufgebaut ist, daß die Daten einer Anwendung nach Möglichkeit nicht über alle Controller gestreut abgespeichert, sondern hinter einem Controller angeordnet sind. Dadurch ist sichergestellt, daß nur ganz bestimmte Anwendungen betroffen sind, andere Applikationen aber im Fehlerfall ungehindert angeboten werden können.

Bei der Anschaffung neuer Speichersysteme spielt für die Datev neben den Investitionskosten auch die Frage eine wichtige Rolle: Wie stark ist das neue Produkt in der maximalen Ausbaustufe gegenüber dem Vorgängermodell? Denn ein neues Speichersystem soll möglichst gleich mehrere alte ersetzen, ohne daß sich Performance und Verfügbarkeit verschlechtern.

Eine gebräuchliche Meßgröße ist das Verhalten des Systems, wenn 4-KB-Blöcke aus dem Cache gelesen werden. Bei der Datev haben die Messungen eine maximale Datenrate von etwa 25000 Inputs und Outputs pro Sekunde ergeben. Dies entspricht einer Steigerung gegenüber dem alten Modell von 300 Prozent. Mit einer weiteren Messung wurde die maximale Transferrate in Form von Bytes pro Sekunde ermittelt. Beim Lesen aus dem Cache (read hit) mit 32-KB-Blöcken wurden Datenraten von über 300 MB pro Sekunde erzielt - eine Steigerung um etwa 200 Prozent. Schließlich wurde noch die sequentielle Verarbeitung getestet (wie hoch ist die Datenrate, wenn direkt von den Platten gelesen und geschrieben wird?). Auch in diesem Bereich betrug die Steigerung etwa 300 Prozent.

Für die weitere Planung zieht die Datev daraus folgende Schlüsse: Die Daten von maximal vier stark ausgelasteten älteren Speichersystemen lassen sich in ein neues mit höherer Kapazität verlagern. Bei Remote-Copy-Betrieb im bidirektionalen Mode sollten aber nur je zwei Systeme zusammengefaßt werden..

Datevs Rechenzentrum

Zentraleinheiten (Großrechner)(Gesamtleistung 1683 MIPS): 2 IBM 9672/RX5, 2 IBM 9674/CO2, 1 Comparex M2000 625, 1 Comparex 99/821.

Speichereinheiten:Automatisches Kassettenarchiv von Storagetek mit 10 x Modell 4400, 16 x Modell 4490, 3 x Modell 9310, 32 x Modell 9490.Magnetbandeinheiten: 4 x Comparex 6378, 4 IBM 3480, 4 Storagetek 4490Magnetplattenlaufwerke: 234 IBM 3390/3, 256 IBM 9392 Ramac I, 100 IBM 9392 Ramac II, 1029 Comparex Tetragon T2000.

Druckereinheiten:Laserdrucker 8 Océ 2300, 14 Océ 2240, 1 Océ PS 470, 1 Océ 350, 17 Océ PC 440, 16 Rank Xerox 4135, 2 Rank Xerox 4635, 2 IBM 3900.Stahlbanddrucker: 5 IBM 4248, 1 IBM 4245.Grafische Ausgaben: 2 Rank Xerox DC 40.Mikrofilmanlage: 4 Agfa 2300/2400.Datennetzrechner: 35 IBM RS/6000, 18 Cisco-Router.

*Norbert Henkel ist freier Journalist in Baden-Baden.