Speichertechnik auf WORM-Platten

Rasterbildverarbeitung und Archivierung im Netzwerk

03.08.1990

*Dr. Axel Keller ist Mitarbeiter der Sinix-Systemplanung, verantwortlich fur optische Archivierung bei der Siemens AG, Bereich Daten- und Informationstechnik, München. Der Text des Artikels entspricht einem Vortrag, den Dr. Keller auf der Online '90 (5. bis 9. Februar 1990) in Hamburg gehalten hat.

Die Speichertechnik auf optischen Platten, insbesondere auf beschreibbaren WORM-Platten, eröffnet die Möglichkeit, bestehende Dokumentarchive auf Papier oder Microfiche in ihrem Raum- und Gewichtsbedarf erheblich zu reduzieren. Darüber hinaus erlaubt sie den elektronischen Direktzugriff auf die Dokumente, was in Verbindung mit einer entsprechenden Rasterbildverarbeitung (Image Processing) eine neue Leistungsklasse von Dokumentarchiven darstellt.

Jedes Unternehmen lebt von einer unternehmensspezifischen Informationsbasis. Sie ist Grundlage für diverse Vorgangsbearbeitungen und Entscheidungen. Nur ein geringer Teil dieser Information liegt, wenn überhaupt, in DV-technisch verfügbarer Form vor. Der größte Teil der Informationsmenge wird lediglich auf Papier festgehalten und ist in mehr oder weniger gut zugänglichen Archiven abgelegt. Der Zugriff auf solche Dokumente gestaltet sich oft mühsam und zeitraubend.

WORM-Speicher zur Langzeit-Archivierung

Durch den Einsatz der neuen, optischen Speichermedien und durch die neuen technischen Möglichkeiten zur Verarbeitung von Rasterbildern (Image Processing) kann Effizienz und Produktivität der Informationsbearbeitung in Unternehmen erheblich gesteigert werden. Die enorme Speicherkapazitäten mit einem günstigen Preis/ Leistungs-Verhältnis ermöglichen erstmals eine wirtschaftliche Speicherung sehr großer Datenmengen. Die Rasterbildverarbeitung erlaubt die Erfassung und Wiedergabe von Dokumenten in ihrer Originalform, das heißt als nicht-codierte Informationen (NCI).

Die Kombination dieser beiden Technologien macht es nun möglich, als Rasterbild erfaßte Dokumente in großer Zahl abzuspeichern und mit DV-technischen Mitteln wiederzugewinnen. Die Abbilder von Dokumenten sind damit genauso im Direktzugriff verfügbar wie herkömmlich codierte Informationen (Text, Daten etc.) und können gleichwertig in eine Vorgangsbearbeitung miteinbezogen werden.

Die WORM-Speichertechnik (write once, read many) besitzt die Eigenschaft, daß einmal geschriebene Informationen nicht mehr gelöscht beziehungsweise verändert werden können. Durch diese spezifische Eigenschaft sind WORM-Speicherplatten hervorragend zur Langzeit-Archivierung geeignet. Dies gilt für codierte (CI) wie auch für nicht-codierte Informationen (NCI).

Die Archivierung von Images eignet sich bei Dokumenten, die keiner weiteren Bearbeitung bedürfen, aber ihre Originalität bewahren müssen. Dies gilt etwa für Belege, die einer gesetzlichen Nachweispflicht unterliegen, oder für Verträge mit urkundlichem Charakter. Die allgemeinen Anforderungen an ein solches Dokumentenarchiv orientieren sich sowohl an Leistungs- und Qualitätsmerkmalen bestehender Archivarten (Papier, Microfilm beziehungsweise Microfiche) als auch an Wünschen, die mit diesen Archiven nicht oder nicht befriedigend erfül!t werden können.

Bei der Überführung von Originaldokumenten in eine andere, elektronische Form muß selbstverständlich gewährleistet sein, daß eine originalgetreue Reproduktion auf Papier möglich ist. Die Speichertechnik hat außerdem sowohl sicher vor Verfälschungen zu sein als auch innerhalb eines Mindestzeitraums von 30 Jahren zuverlässige Reproduktionen zu erlauben. Diese Forderungen lassen sich mit der optischen Archivierung zufriedenstellend erfüllen. Darüber hinaus besitzt sie im Vergleich mit herkömmlichen Archiven vor allem zwei Vorteile.

- Der Raum- und Gewichtsbedarf bei Papierarchiven wird durch die hohe Verdichtung auf optischen Speichermedien erheblich reduziert. Volumen- und Statikprobleme bei Gebäuden

bereiten damit keine Schwierigkeiten mehr.

- Alle Dokumente liegen in elektronischer Form vor, und der Anwender kann direkt auf sie zugreifen. Die archivierten Informationen können somit in kürzester Zeit und über Netze unternehmensweit verfügbar gemacht werden.

Optische Archivsysteme bekommen durch den zweiten Punkt eine neue Qualität: Sie sind auch als Referenzsysteme verwendbar. Der gesamte Archivbestand kann online in die Vorgangsbearbeitungen miteinbezogen werden.

Für elektronisch zu archivierende Dokumente gibt es zwei Codierungsformen:

- als codierte Information (Text, Tabellen, Daten, Vektoren) und

- als nicht-codierte Information (Rasterbilder).

Wenn es darum geht, auf Papier vorliegende Dokumente zu archivieren, so ist die erste Form mit einem hohen manuellen Erfassungsaufwand verbunden. Sie eignet sich dann für originalgetreue und vollständige Reproduktionen nur wenig. Andererseits ist diese Form Voraussetzung für bestimmte DV-technische Weiterverarbeitungen.

Bei der zweiten Form wird jede Dokumentseite punktweise abgetastet, so wie es vom Telefax her bekannt ist. Dabei wird jeder Bildpunkt entweder als Schwarzweißwert (1 Bit) oder als Grauwert (1 Pixel ; Picture element) erfaßt. Da man in der Regel 1 Byte pro Pixel verwendet, kann man auf diese Weise bis zu 256 Graustufen codieren

Der manuelle Erfassungsaufwand ist bei dieser Form deutlich geringer, außerdem wird der komplette Dokumentinhalt erfaßt. Die originalgetreue Reproduzierbarkeit hängt dabei von einer genügend hohen Auflösung der Bildpunkte (dots per inch) ab.

Die Erfassung von Grauwerten ist bei fotografischen Vorlagen notwendig, um eine hinreichend gute Wiedergabe sowohl am Bildschirm als auch auf einem Drucker zu ermöglichen. Hierbei müssen zum Teil besondere Transformationen von Grauwerten in Schwarzweißmuster angewendet werden, wie sie vom Zeitungsdruck her bekannt sind.

Ein deutlicher Nachteil von Rasterbildern gegenüber codierten Dokumenten liegt im hohen Datenvolumen, das zudem mit höheren Auflösungen quadratisch steigt. Bei Schwarzweißvorlagen kann das menschliche Auge ab 300 dpi kaum mehr einen Unterschied zum Original feststellen. Auflösungen über 400 dpi, der höchsten Auflösung beim Telefax, erhöhen daher nur noch unnötig das Datenvolumen. Bei der Abbildung auf verschiedene DV-technische Ausgabegeräte muß ein Rasterbild gegebenenfalls der jeweils vorliegenden Auflösung angepaßt werden.

Für die Speicherung von Rasterbildern ist deren Komprimierung unerläßlich, da sonst der verfügbare Speicher schnell erschöpft wäre. Hierbei bedient man sich allgemein des Verfahrens, das durch die Telefax-Technik weltweit verbreitet ist: CCITT Fax Group IV. Dieses Verfahren ist allerdings nur auf Schwarzweißbilder anwendbar. Der Kompressionsfaktor hängt vom Dokumentinhalt ab und liegt im Mittel bei eins zu 20.

Die Technologie der optischen Speichermedien umfaßt drei Teile:

- CD-ROM (read only) für Informationsverteilung,

- WORM (write once, read many) für Archivierung und

- MO (rewritable, magneto optical) als Systemspeicher.

Gemäß seinen Eigenschaften ist jeder der drei Typen für bestimmte Aufgaben einsetzbar. Die größte Marktentwicklung wird natürlich den wiederbeschreibbaren Platten vorausgesagt, da diese bestehende Speichermedien wie Magnetplatte und Band unmittelbar ersetzen können .

Die WORM-Platte ist durch ihre spezielle Charakteristik für die Archivierung prädestiniert. Die Laufwerke für diese Platten sind so konstruiert, daß einmal beschriebene Bereiche nicht wieder überschrieben werden können. Optische Platten weisen außerdem die höchste Speicherdichte bei elektronisch direkt zugreifbaren Medien auf. Dadurch ergibt sich ein äußerst günstiges Verhältnis zwischen Speicherkapazität und -kosten.

Bei der WORM-Technologie haben sich zwei gängige Plattengrößen herausgebildet:

- 51/4-Zoll-Platten (vergleiche CD aus Audio-Bereich) mit 0,6 GB und

- 12-Zoll-Platten (vergleiche Bildplatten) 2 bis 6 GB.

Während die 12 Zoll Platte wegen ihres Durchmessers mehr Speicherkapazität aufweist, liegen die Vorzüge der 51/4-Zoll-Platte in den günstigeren Herstellkosten sowie in den weniger aufwendigen Laufwerken und Plattenwechslern. Internationale Standardisierungsbemühungen gibt es nur für 51/4-Zoll-Platten, die Weiterentwicklung in Richtung höherer Verdichtung schreitet mangels Bindung an Normierungen bei den 12-Zoll-Platten schneller voran .

Aufgrund der Lasertechnik ist die Betriebssicherheit bei optischen Platten wesentlich höher als bei magnetischen. Die optischen Speicherplatten sind - wechselbar und mit Plattenwechslern, sogenannten Jukeboxes, bedienbar. Damit läßt sich die Speicherkapazität vergrößern, ohne die Anzahl der Laufwerke erhöhen zu müssen. Laufwerke und Plattenwechsler können unbedient im Hintergrund betrieben werden, je nach unterstützter Plattengröße und Anzahl der Ablagefächer gibt es auch bei den Plattenwechslern Kapazitätsunterschiede. Sie liegen im Bereich zwischen 15 und 500 GB (1000 Giga = 1 Tera).

Interessant ist vor allem die gewaltige Reduzierung des Raumbedarfs durch den Einsatz optischer Platten. Verglichen mit einem Papierarchiv gleichen Füllungsgrades entspricht die Kapazität einer 51/4-Zoll-Platte selbst für die speicheraufwendigen Images etwa dem Inhalt eines Aktenschranks. Insgesamt liegt der Verdichtungsfaktor bei 400 bis 800.

Für die Ablage von Informationen auf einer WORM-Platte muß ein Datenmodell gefunden werden, das eine breite Nutzung durch Applikationen erlaubt. In der Sinix-Lösung wählte man deshalb das Unix-File-System. Dazu wird eine neue Dateiverwaltung benötigt, die einerseits die in Unix Systemen übliche hierarchische Dateistruktur unterstützt und andererseits die spezifischen Eigenschaften von WORM-Platten berücksichtigt, das heißt die einmalige Beschreibbarkeit.

Die notwendigen Verwaltungsinformationen über die Dateistruktur wie Inhaltsver- zeichnisse und Zugriffsberechtigungen werden auch auf den WORM-Platten hinterlegt, so daß ein Medium für sich allein aussagekräftig über seinen Inhalt ist. Dies ist eine notwendige Voraussetzung für die Wechselbarkeit des Mediums.

Auf diese Weise ist es möglich, mit den in Unix-Systemen üblichen Dateioperationen auf das WORM Archiv zuzugreifen. Es müssen keine neuen Zugriffsverfahren und -funktionen eingeführt werden, ein deutlicher Vorteil für die Administration von Dateien und für die Applikationsentwicklung.

Diese Konstruktion läßt nun die Vermutung zu, das WORM-File-System unmittelbar auch bei bestehenden Anwendungen und Systemen einsetzen zu können, die auf dem Unix-File-System aufsetzen. Der Wunsch, bestehende Datenbank- und Information-Retrieval -Systeme durch die gewaltige Kapazität optischer Platten zu unterstützen, ist mehr als verständlich. Dies kann aber nicht einfach durch den Austausch der Dateiverwaltung geschehen. WORM-Speicher sind nun einmal physikalisch nicht überschreibbar, ihre Inhalte nicht aktualisierbar. Sie müssen daher mit besonderer Vorsicht behandelt werden. Gerade dies kann aber bei bestehenden DB-IR-Systemen nicht vorausgesetzt werden. Ein unnötig hoher Speicherverbrauch durch logische Aktualisierungen wäre die Folge.

Die Aufgabenbereiche einer Archivanwendung können aus Sicht der systemnahen Software aufgeteilt werden in eine individuelle Anwendung und in zugrunde liegende Standardkomponenten für Rasterbildverarbeitung, Archivierung auf WORM und Retrieval.

Die zugrunde liegenden Standardkomponenten sind dabei voneinander völlig unabhängig und können bei Bedarf auch jeweils einzeln eingesetzt werden. Zur Archivierung von "codierten Informationen" benötigt man beispielsweise keine Rasterbildverarbeitung; außerdem ist ein WORM-File-Svstem für sich autark und setzt keine spezielle Retrieval-Komponente voraus.

Dennoch stellt die Retrieval- Komponente einen notwendigen Bestandteil von großen Archiven dar. Auch bei einer hierarchischen Verwaltungsstruktur sind sonst Millionen von Dokumenten nicht mehr ohne mühsame Suche auffindbar. Dies hat allerdings zur Folge, daß bei der Erfassung von Dokumenten eine in gewissem Sinne intellektuelle und daher arbeitsintensive Beschlagwortung (Deskribierung) erfolgen muß.

Beim Einsatz eines Datenbank- beziehungsweise Information-Retrieval-Systems (DB-IR-Systems) als Retrieval-Komponente muß die Anwendung für die Konsistenz zwischen dem Schlagwortkatalog und den Nutzdaten auf WORM sorgen. Natürlich wäre es nützlich wenn das Retrieval-System selbst dafür sorgen könnte. In den Konzepten heutiger DB-IR-Systeme, insbesondere wenn sie sich an einer Standardschnittstelle wie SQL orientieren, gibt es noch keine Möglichkeit. Referenzen auf Nutzdaten zu behandeln, die vom Anwender selbst verwaltet werden.

Wählt man für die Softwarelösung analog zur Aufgabenteilung eine Client-Server-Architektur, so ergibt sich eine Systemarchitektur mit drei Servern:

- Image-Server für die Rasterbildverarbeitung,

- Archiv-Server für den Betrieb von WORM-Laufwerken und -Plattenwechsler sowie

- Retrieval-Server.

Alle Aufgaben einschließlich der Anwendung können natürlich auch auf einem Rechner abgewickelt werden Die Client-Server-Architektur bietet dazu die Möglichkeit, je nach Leistungsprofil die Services auf mehrere Rechner und Workstations zu verteilen.

Image-Server und Archiv-Server stellen neue Produkte in unserem Spektrum dar, DB-IR-Systeme beziehungsweise -Server für das Retrieval sind bereits vorhanden und können frei gewählt werden.

Volle Kompatibilität zu den De-facto-Standards

Ziel der Siemens-Produktentwicklung ist eine einheitliche Sinix-Lösung, basierend auf Rechnern und Geräten aus dem Standardspektrum. Man ist dabei darauf bedacht, alle durch X/Open und OSF definierten beziehungsweise realisierten Standards einzuhalten und zu nutzen. Ein Beispiel hierfür ist die Verwendung von OSF/Motif, aufbauend auf dem X-Window-System, als Bedienoberfläche für den Image-Server. Ein anderes Beispiel ist die 100prozentige Kompatibilität des Archiv-Servers zu dem De-facto-Standard NFS (Network File System).

Die Konzeption des WORM-File-Systems als verteiltes Dateisystem analog zu NFS ermöglicht nicht nur eine Verteilung mehrerer Archiv-Server in einem Netz, sondern auch die Einbettung des WORM-File-Systems in das Standard-Unix-System. Das bedeutet, daß alle Dateien - ob lokal oder entfernt, ob auf magnetischer oder optischer Platte - über einen gemeinsamen, systemübergreifenden Dateibaum verwaltet werden können.

Die Client Server-Architektur gibt darüber hinaus die Möglichkeit, die auf Unix-Rechnern realisierten Services auch für Anwendungen auf anderen Systemen (BS2000, MVS etc.) nutzbar zu machen. Voraussetzung dafür ist eine entsprechende Vernetzung und Kommunikation. Es ist damit möglich, die optische Archivierung in bestehende Anwendungen nachträglich zu integrieren. Dies war eine wichtige Forderung von Anwendern im Hinblick auf Sicherung vorhandener Installationen.

Der Nutzen eines Archivs hängt nicht nur von seinem Fassungsvermögen ab, sondern auch von der Zeit, die für charakteristische Verarbeitungsschritte benötigt beziehungsweise erreicht wird:

- Erfassung zwei beziehungsweise 30 Sekunden pro Seite,

- Recherche sieben bis 14 Sekunden pro Seite,

- Reproduktion zwei beziehungsweise 20 Sekunden pro Seite.

Man muß davon ausgehen daß am Arbeitsplatz nur kleine Mengen an Dokumenten erfaßt beziehungsweise reproduziert werden müssen. Hier können daher handelsübliche Scanner und Drucker mit einem mittleren Leistungsbereich (20 bis 30 Sekunden) eingesetzt werden. Die Recherchezeit umfaßt alle notwendigen Aktionen, um ein Dokument am Arbeitsplatz sichtbar zu machen, so etwa auch einen gegebenenfalls erforderlichen Plattenwechsel. Sie bezieht sich immer auf die erste Seite eines größeren Dokuments.

Große Stückzahlen an Dokumenten, wie sie beispielsweise bei der Übernahme bestehender Archive oder allein durch die täglich zu verarbeitende Dokumentenmenge gegeben sind, können dagegen nur mit Hochleistungs-Geräten bewältigt werden.

Füllen der Archive sehr zeitaufwendiger Vorgang

Das Füllen der Archive gehört zu den zeitaufwendigsten Vorgängen. Auch wenn sie durch Hochleistungs-Scanner unterstützt wird, so bleibt noch deren Deskribierung, die als Minimum die Vergabe eines Dateinamens verlangt. Der hier zu leistende, intellektuelle Aufwand hängt letztlich von der jeweiligen Vorgangsbearbeitung ab und von den Möglichkeiten zur automatischen Deskribierungsunterstützung, etwa durch optische Zeichenerklärung (OCR).

Der Image-Server basiert auf einem Sinix-Arbeitsplatz (Workstation) mit hochauflösendem grafischen Bildschirm für die ganzseitige Anzeige von DIN-A4-Rasterbildern. Scanner und Drucker lassen sich wahlweise anschließen. Die Steuerung von Hochleistungs-Scannern und -Druckern kann über jeden Sinix-Rechner erfolgen.

Alle Scanner und Drucker werden ausschließlich über SCSI nach Standard-SCSI-2 angeschlossen, um zu einer brauchbaren Übertragungsrate von Rasterbildern zu kommen. Geräte mit integrierter Komprimierung beziehungsweise Dekomprimierung können diese Rate weiter verbessern. Die besonderen Merkmale von Hochleistungs-Scannern sind nicht nur durch hohe Abtastraten gegeben, sondern auch durch automatischen Papiereinzug fit Dokumente mit beliebig variierender Papierqualität und der Möglichkeit zur gleichzeitigen Abtastung von Vorder- und Rückseite (Duplex).

Der Archiv-Server basiert auf einem Unix-Rechner. Alle Laufwerke und Plattenwechsler sind über SCSI nach Standard-SCSI-2 angeschlossen. Der Anschluß von Einzellaufwerken in einem separaten Gehäuse wird als Einstiegslösung betrachtet, der professionelle Einsatz setzt allerdings den Anschluß von Plattenwechslern voraus.

Die Wahl der Plattengröße, 5 1/4 Zoll oder 12 Zoll, und damit des Plattenwechslers hängt vom geplanten Speichervolumen, von der Zugriffshäufigkeit und den Verfügbarkeitsanforderungen ab. Große Plattenwechsler mit etwa 150 bis 500 GB erfordern weniger Infrastruktur als entsprechend viele kleine mit 15 bis 30 GB. Kleine Plattenwechsler sind dafür besser skalierbar und selektiv wartbar. Aufgrund der höheren Anzahl von Robotern und Laufwerken weisen sie natürlich insgesamt eine bessere Zugriffs- und Übertragungsrate als wenige große Plattenwechsler auf.