Bis zu 8,7 Terabyte lassen sich lagern Universitaet archiviert Daten via Unix-Server auf Videobaendern

02.07.1993

Das Ziel hiess, Datenbestaende aus vernetzten Unix-Dateisystemen zu uebernehmen, mittel- bis langfristig sicher zu lagern und auf Anforderung wieder auszuliefern. Anfangsbedarf: 200 bis 300 GB, Ausbau innerhalb von zwei Jahren auf rund 500 GB, in fuenf Jahren auf 5 TB. Gesucht wurde ein derartiges Archivierungssystem von der Friedrich-Alexander-Universitaet Erlangen-Nuernberg, der die Datenbestaende ihres Rechenzentrums langsam ueber den Kopf wuchsen. Michael Wojatzek* berichtet ueber die Erfahrungen mit einem Archivierungs-Server, der durch ein Disk-Array-Subsystem und ein Bandspeicher-Robotersystem ergaenzt wird.

Die Friedrich-Alexander-Universitaet Erlangen-Nuernberg betreibt seit den 60er Jahren ein eigenes Rechenzentrum, das waehrend der 70er Jahre zum regionalen Rechenzentrum (RRZE) ausgebaut wurde. Mittlerweile ist es fuer die DV-Grundversorgung der Uni und ihrer Aussenstellen zustaendig. Zu diesen Aussenstellen zaehlen die Universitaet Bamberg, die Universitaet Bayreuth sowie die Fachhochschulen Nuernberg und Coburg.

Darueber hinaus sind weitere kleinere Dependancen, etwa die Sternwarte Bamberg, an das Netz der Grossraum-Uni angeschlossen. Leitungsverbindungen zu den Aussenstellen bestehen seit dem Ende der 70er Jahre, heute laeuft der Datenaustausch ueber X.25-Netze. Des weiteren besteht eine Verbindung zum Leibniz-Rechenzentrum (LRZ) der Technischen Universitaet Muenchen ueber das Wissenschaftsnetz. So vielfaeltig wie die Aufgaben des RRZE ist die Hardware-Ausstattung - gilt es doch gerade an einer Hochschule, die verschiedensten DV-Beduerfnisse unterschiedlicher Wissenschaftsdisziplinen unter einen Hut zu bringen. Das Spektrum reicht vom Geisteswissenschaftler, der in erster Linie Textverarbeitungs-Systeme und statistiche Berechnungen benoetigt, bis zum Geophysiker, der umfangreiche Klimasimulationen auf einem Supercomputer ablaufen lassen muss. Ihnen allen will und muss die Universitaet die noetigen DV-Werkzeuge zur Verfuegung stellen und auch noch die Archivierung der anfallenden Daten gewaehrleisten.

Der Hardwarepark der Erlanger Uni ist denn auch eine beeindruckende Zusammenstellung zahlreicher Rechensysteme. So tat als Vektorprozessor bis in die juengste Zeit ein CDC-Cyber-959- Doppelprozessor-System mit Vektorprozessor seinen Dienst. 1988 kam ein weiterer Mainframe vom Typ 3090 dazu, auf dem Applikationen unter VM-XA laufen. Dieses System dient als Applikations-Server und wird, so Bernd Thomas, der Stellvertreter des technischen Direktors des RRZE, noch bis 1994/1995 auf "Sparflamme" weiterbetrieben. Dann muesse man sich Gedanken darueber machen, wie man den Mainframe in die uebrige Unix-Umgebung weiter eingliedern

kann. Den "Power-Usern" steht eine eigene Cray YMPL zur Verfuegung, die in erster Linie als Entwicklungsmaschine fuer Supercomputer- Berechnungen genutzt wird, die dann auf einer groesseren Cray im LRZ laufen sollen. Ganz neu ist ein Workstation-Cluster, der auf Hewlett-Packard-RISC-Workstations basiert. Zunaechst kommen vier Modelle vom Typ 735 und drei Modelle vom Typ 755 zum Einsatz. Dieser Cluster loeste den bewaehrten Cyber-Mainframe ab.

Der Vollstaendigkeit halber seien noch die drei BS2000-Rechner erwaehnt, auf denen die DV der zentralen Universitaetsverwaltung, also Personaldaten, Budget etc. und die Patientenverwaltung der sieben Unikliniken abgewickelt werden. Diese Rechner sind aber reine Stand-alone-Systeme, die nicht in das Forschungs- und Lehrnetz eingebunden sind. In diesem Bereich wurde die Ausbildung in den entsprechenden Faechern im Laufe der letzten Jahre grundsaetzlich vom Terminal auf den PC verlagert. Auf den PCs werden angehenden Informatikern zunaechst Kenntnisse in Turbo- Pascal vermittelt. Jeder Student kann ueber das Uni-interne Mail- System jederzeit auf die zentralen Server zugreifen, egal ob von zuhause aus ueber Modem und DFUe oder innerhalb des Uni-Netzwerkes.

Anfang der neunziger Jahre war klar, dass dieses Netz ohne Archivierungs-System bald zusammenbrechen duerfte. Die Folge war eine offizielle Ausschreibung, die die Universitaeten Erlangen- Nuernberg, Wuerzburg und Regensburg im September 1991 gemeinsam veroeffentlichten. Die Hauptbedingungen lauteten: Das System muss unter Unix laufen, es muss ohne Operator und textorientiert bitgenau arbeiten. Es wurde eine Fehlerrate von 1:10o13 sowie leistungsfaehige Recovery-Mechanismen gefordert. Der Einsatz im heterogenen Server-Umfeld fuehrte zu der Forderung, an allen Schnittstellen ausschliesslich standardisierte Verfahren einzusetzen, die keine Modifikationen an den angeschlossenen Rechnern noetig machen.

Das Archiv musste zum

Unix-Rechner passen

Die Funktionsweise des Archivierungs-Servers sollte dem "IEEE Mass Storage System Reference Model" (MSSRM) entsprechen. Dabei ist das System nicht primaer als Server auszustatten, sondern fuer die Datenmigration zu konfigurieren. Die Software sollte Schnittstellen aufweisen, die eine Integration in das "Andrew- File-System" (AFS) bis Ende 1992 ermoeglichten. Das System sollte in Schritten ausbaufaehig sein: Von einem Anfangsbedarf 1992 von 200 bis 300 MB ueber 500 MB bis 1 TB bis 1994/95 und dann bis etwa 5 TB bis 1996/97.

In Sachen Betrieb wurde in der Ausschreibung explizit auf eine Reihe von Funktionen Wert gelegt:

- Der Vorgang der Archivierung muss sowohl vom Benutzer explizit als auch ueber parametrisierbare Routinen gestartet werden koennen.

- Die Datenbestaende muessen ueber Netze transportiert werden koennen, ohne zu Blockaden oder Ueberlastungen zu fuehren.

- Die archivierten Datenbestaende muessen durch eindeutige Namensgebung identifizierbar sein.

- Die Katalogstruktur der Dateinamen soll erhalten bleiben.

- Das System soll in der Lage sein, sowohl einzelne Daten als auch Teil- oder Gesamtkataloge zu archivieren.

- Die Datenbestaende muessen durch geeignete technische Verfahren in ihrer Integritaet garantiert werden.

- Die Leistungsfaehigkeit des Archivierungs-Servers muss fuer die Transportgeschwindigkeiten der Netze und der Datentraeger angemessen konfiguriert sein.

Eine weitere wichtige Voraussetzung seitens des RRZE war, dass die gesamte Installation aus einer Hand kaeme und man einen Anbieter wuenschte, der fuer die Unterstuetzung und den Ausbau des Systems verantwortlich zeichnet. Neben einigen Partnerloesungen, etwa IBM/IABG, war der einzige Anbieter, der zum damaligen Zeitpunkt, eine Komplettloesung anbieten konnte, die Control Data GmbH.

Ihr Server-System besteht aus einer CDC 4680 unter dem Betriebssystem EP/IX mit zwei Mips-R6000-Prozessoren und zwei VME- Bussen. Die Speicherausstattung betraegt 192 MB.

An Netzen angeschlossen sind je ein Ethernet fuer den lokalen Bereich und zu den Mainframes und ein X.25-Netz zu Anbindung der Aussenstellen, geplant ist der Anschluss eines FDDI-Netzes. Die Speicherung und Archivierung der Daten erfolgt ueber ein 20-MB- Disk-Array-Subsystem, das ueber den VME-Bus an den Archivierungs- Server angeschlossen wird und ueber ein robotergesteuertes Bandspeicher-System. Die Kombination dieser beiden Speicherumgebungen ermoeglichte die Erfuellung der wesentlichen Ausschreibungsbedingung, naemlich des Ausbaus auf mehrere TB Speicherkapazitaet innerhalb des heterogenen Universitaets- Rechnernetzes.

Fuer die Steuerung von Disk-Array und Bandspeicher sorgt die Software Aria-Unitree, die alle Daten verwaltet und fuer die Auslagerung auf Kassetten sorgt, wenn der 4680-Speicherplatz limitiert ist - auf dem Rechner selbst bleibt nur ein Eintrag, der auf die Speicheradresse verweist. Beim Disk-Array handelt es sich um ein Subsystem, das ueber den VME-Bus angebunden wird. Die Steuereinheit unterstuetzt eine Transferrate von 25 MB pro Sekunde ueber einen IPI-3-Anschluss. Sie ist aufgefaechert in vier IPI-2- Straenge, die jeweils acht IPI-2-faehige Magnetplatten ansteuern koennen. Jeder Strang ist mit einem 125-KP-Puffer ausgestattet, der den quasi-parallelen Transfer von Lese- und Schreibfunktionen ermoeglicht. Die Steuereinheit selbst hat einen 25 Megahertz 32- Bit-Mikroprozessor, der ueber 34 Makrokommandos verfuegt. Eine modifizierte 96-Bit-Reed-Solomon-Fehler-Korrektur garantiert die Korrektur bis zu 17 Bits und kann in Abhaengigkeit von ihrer Position 32 Bits in Folge korrigieren. Bei eingebauter Paritaetsoption koennen einzelne Magnetplatten im seriellen Modus oder parallele Gruppen von einer bis zu vier Platten auch in gemischen Kombinationen betrieben werden. Reparaturen beziehungsweise der Austausch von Platten koennen waehrend des Betriebes erfolgen, die Reintegration einer Platte dauert nach Herstellerangaben zwischen vier und sechs Minuten. Als Platten koennen Solid-state-Disks mit einer maximalen Speicherkapazitaet von 167 MB oder echte Acht-Zoll und 5,25-Zoll-Magnetplatten der Typen "Sabre" und "Elite" eingesetzt werden.

Das Erlanger System

fand schon Nachahmer

Das Kassettenspeicher-System basiert auf einer Entwicklung des US-Unternehmens Metrum Information Storage, bei dem Bandlaufwerke vom Typ VHS, wie sei bei Videorecordern genutzt werden, zum Einsatz kommen. Die auffaelligste Besonderheit der Metrum-Maschine ist wohl ihr geringer Platzbedarf: Ein auf bis zu 8,7 TB ausbaufaehiges System benoetigt lediglich eine Stellflaeche von drei Quadratmetern. Voraussetzung dieser Minimalloesung sind wiederum die verwendeten Videobaender, die jeweils 14,5 GB Speicherplatz pro Kassette bieten (ST 120 Cartridge). Den maximalen Ausbau auf 8,7 TB erreicht man, indem mehrere Bandlaufwerke in einem Robotersystem integriert werden, so dass sich bis zu 600 Kassetten zur Speicherung der Daten ansteuern lassen. Der Server dient damit letztlich nur noch als Zwischenspeicher. In Erlangen laeuft in der aktuellen Ausbaustufe noch eine Version mit 48 Kassetten, also einer Gesamtkapazitaet von 696 MB.

Bei dem Erlanger System handelt es sich um eines der ersten weltweit ausgelieferten ueberhaupt, die Lieferung erfolgte puenktlich. Schwierigkeiten bei der Installation gab es nach Aussage von Bernd Thomas mit Ausnahme eines Pufferungsproblemes bei der Datenanbindung ueber SCSI keine. Auch im Betrieb habe sich das Archivsystem bewaehrt. Mittlerweile wurden in Deutschland zwei weitere Systeme ausgeliefert - wieder an Institutionen aus dem wissenschaftlichen Bereich: Die Universitaet Giessen erwarb ein System mit 48 Kassetten, das LRZ in Muenchen betreibt eine Loesung in der vollen Ausbaustufe mit 600 Kassetten. Diese Loesung kommt offenbar in erster Linie fuer ueberzeugte Unix-Anwender in Frage, die zumeist auch noch einen aeusserst heterogenen Geraetepark vewalten muessen. Moeglicherweise spielen die Hochschulen hier zur Zeit eine Vorreiterrolle fuer die Entwicklung in der gesamten DV.

*Michael Wojatzek ist freier Journalist in Muenchen.

Das Archivierungssystem der Friedrich-Alexander-Universitaet

Erlangen-Nuernbrg