Konsortium erarbeitet Patentlösung für Europäisches Patentamt:Vier Terabyte Faksimile-Daten suchen Online-Speicher

04.12.1987

Im Auftrag des Europäischen Patentamts werden zur Zeit Patentschriften erfaßt, die ein Speichervolumen von insgesamt zur Zeit etwa 4 Terabytes benötigen: das ist eine 4 gefolgt von zwölf Nullen. In diesen Patentschriften soll recherchiert werden, das heißt, sie sollen im Online-Zugriff gehalten werden. Die Frage, ob das heute überhaupt schon möglich ist, kann mit ja beantwortet werden. Die Lösung sind optische Speicher.

Das Europäische Patentamt hat den Auftrag erteilt, den Patentschriften-Bestand von 70 Millionen DIN-A4-Seiten digital zu erfassen. Der Auftrag für dieses BACON-Projekt ging an ein Konsortium, bestehend aus einer französischen Firma (Telesysteme), einer englischen (Microfilm Reprographics) und einer deutschen (Satz-Rechen-Zentrum Berlin). Die Produktion hat vor wenigen Wochen begonnen und wird mehrere Jahre dauern.

Kompromiß zwischen Auflösung und Speicherbedarf

Die Erfassung erfolgt nach dem Standard, wie er zwischen dem amerikanischen, dem japanischen und dem europäischen Patentamt vereinbart wurde und der sich eng an das Faksimile-Format anlehnt, wie es im CCITT-Standard T.6 definiert ist. In dieser trilateralen Übereinkunft zwischen den Patentämtern wurde nach langer Diskussion beschlossen, von den möglichen Auflösungen von 200 dpi (Punkte pro Inch), 240, 300 oder 400 dpi, die 300 dpi (zirka 12 Punkte pro Millimeter) auszuwählen als die kleinste Auflösung, die noch akzeptable Qualität liefert. Die bei Fax-Geräten der Gruppe 3 üblichen 200 dpi, die auch bei Archivsystemen wie dem Megadoc von Philips verwendet werden, wurden als qualitativ nicht ausreichend empfunden. Der zusätzliche Qualitätsgewinn, den einige japanische Systeme mit 400 dpi erreichen, wurde als zu gering angesehen, um den etwa 34 Prozent höheren Speicherbedarf zu rechtfertigen.

Kompression abhängig von Landessprache und Schriftart

Eine mit 300 dpi gerasterte DIN-A4-Seite hat 3500 Zeilen mit jeweils 2560 Punkten, das heißt 8 960 000 Rasterpunkte, die gut ein Megabyte Speicherplatz beanspruchen. Als Standard für die Kompression der Rasterseiten hat sich die MMR-Kodierung (Modified Modified Read, auch Modified Read Code II genannt) aus dem Faksimile-Gruppe-4-Standard T.6 durchgesetzt, denn sowohl der ISO-Standard ODA als auch IBM verwendet dieses Verfahren in ihrer Dokumenten-Architektur für Images. Mit MMR läßt sich eine

Kompression um einen Faktor zwischen 10 und 50 erreichen, je nachdem, wieviel Information auf der Seite enthalten ist: bei einem englischen Brief (CCITT Dokument Nummer 1), beträgt der Faktor 45, bei einer französischen Journal-Seite (CCITT Dokument Nummer 4) noch 25 und einer japanischen Kanji-Seite (CCITT Dokument Nummer 7) nur noch 11, das heißt, der Speicherbedarf beträgt jeweils 24,42 und 96 Kilobytes. Für die meist zweispaltigen Patentschriften wurde ein Platzbedarf von durchschnittlich knapp 60 Kilobytes ermittelt. Multipliziert mit 70 Millionen Seiten ergibt sich also ein Platzbedarf von zirka 4 000 000 000 000 Bytes.

Optische Speicherplatten gibt es in verschiedenen Größen und mit verschiedenen Eigenschaften. CD-ROMs basieren auf der Hi-Fi-Compact-Disc-Technologie: Sie haben einen Durchmesser von 120 Millimetern, werden von einem Master gepreßt und enthalten zirka 550 Megabyte an lesbarer Information, das heißt, sie könnten etwa 9000 Patent-Faksimile-Seiten aufnehmen. Bildplatten (Videodiscs) können ähnlich wie CD-ROMs nur gelesen werden. Diese 12-Zoll-Platten wurden entwickelt, um (analoge) Video-Information aufzunehmen, können aber auch digitale Information enthalten, zum Beispiel eine Tonspur. Bildplatten werden vor allem im Ausbildungsbereich angewendet. Löschbare (erasible) optische Platten ebenso wie OROMs (Optical Read Only Memory) sind 5 1/4 Zoll groß, wurden am Markt vorgestellt, haben aber noch keine praktische Bedeutung erlangt.

Anders die letzte Gruppe, die WORM-Platten (Write-Once, Read-Many), die einmal beschreibbaren Platten. Es gibt sie in verschiedenen Größen (5 1/4 Zoll, 8 Zoll, 12 Zoll, 14 Zoll). Die folgenden Platten haben alle einen Durchmesser von 12 Zoll, sind aber dennoch untereinander inkompatibel, da sie verschiedene Technologien verwenden: Die OSI-Platte (CDC/Philips) wird dadurch beschrieben, daß ein Laserstrahl kleine Löcher (pits) in die obere Schicht brennt. Auch die Hitachi- und die NEC/3M-Platten werden beschrieben, indem Pits von einem Mikron Durchmesser gebrannt werden. Anders als bei der OSI-Platte wird dadurch eine stärker reflektierende Schicht freigelegt, so daß beim Lesen die reflektierten Laserstrahlen die Information enthalten.

Systemvielfalt bei 12-Zoll-Laserdisks

Wieder anders die Gigadisc von Alcatel/Thompson. Der Schreib-Laserstrahl verdampft eine tiefere Schicht, so daß die Informations-Schicht Blasen (bubbles) schlägt. An diesen Stellen werden die Lesestrahlen abgelenkt, das heißt, es erfolgt keine Reflexion.

Bei der Sony-Platte läßt der Schreib-Laser zwei Legierungs-Schichten zu einer neuen kristallinen Verbindung verschmelzen, die den Lese-Strahl dann stärker reflektiert.

Darüber hinaus gibt es Unterschiede in den Fehlerkorrektur-Verfahren, den Sektorgrößen (512, 1024 oder 2048 Bytes), den Aufzeichnungs-Spuren (spiralförmig oder konzentrische Kreise) und der Aufzeichnungsdichte: Das CLV-Verfahren (constant linear velocity) schreibt die Information stets in gleichen Abständen, muß daher aber die Drehgeschwindigkeit ändern, während das CAV-Verfahren (constant angular velocity) bei konstanter Drehgeschwindigkeit die Information außen weniger dicht packt. Bei Sony läßt sich der Unterschied besonders leicht demonstrieren, da das Laufwerk WDD-3000 beide Formate lesen kann: Eine CLV-Platte enthält (beidseitig) 3,2 Gigabytes und hat eine mittlere Zugriffszeit von 0,8 Sekunden, während die CAV-Platte "nur" 2,1 Gigabytes speichert und eine mittlere Zugriffszeit von 0,3 Sekunden aufweist.

Dienstleistungen ergänzen Archiv-Funktionen

Ein Vergleich ergab, daß Sonys 12-Zoll- CLV-Platte das zur Zeit preiswerteste Medium bietet: Bei einem Fassungsvermögen von mehr als 50 000 DlN-A4-Seiten (zu je 60 KB) kostet die Platte in OEM-Stückzahlen unter 700 Mark, das heißt, 1,4 Pfennige pro Seite beziehungsweise 22 Pfennige pro Megabyte. Für die 70 Millionen Patent-Seiten werden also maximal 3500 optische Platten benötigt. Dafür werden 10 Kubikmeter beansprucht, ein Volumen, das sich in einem Raum mittlerer Größe unterbringen läßt, gegenüber mehr als 200 Kubikmetern bei doppelseitig bedrucktem Papier.

Es ist keineswegs das Ziel der Patentschriften-Erfassung, die erfaßten Seiten nur zu archivieren, sondern es soll darauf zugegriffen werden: einerseits, um bestellte Patentschriften auszudrucken und versenden zu können, und andererseits, um den Sachbearbeitern im Patentamt zu helfen. Beim Prüfen von neuen Patentanmeldungen muß er vergleichbare Patente recherchieren und soll sie sich schnell anzeigen lassen können. Es wurde daher das Projekt IRES (Image Reproduction System) im Europäischen Patentamt gestartet, ein Pilotprojekt, das den nachfrageorientierten Laserdruck (Printing on Demand) von Patentschriften ermöglichen soll.

In acht Sekunden zum Online-Zugriff

Dabei soll zunächst von einem Bestand von 140 000 Patentschriften mit durchschnittlich 24 Seiten ausgegangen werden, das heißt, von 3,36 Millionen Seiten anstelle der gesamten 70 Millionen. Das IRES-System wurde vom Europäischen Patentamt europaweit ausgeschrieben. Unter den zahlreichen Anbietern machte die Sietec mit einem auf Sony-Geräten basierenden Angebot das Rennen.

Im Mittelpunkt der vertraglich vereinbarten Konfiguration stehen zwei "Jukeboxes" der Firma Sony. Diese Jukeboxes erhielten ihren Namen, weil sie ähnlich den Plattenwechslern, wie sie seit den 50er Jahren in Kneipen zu finden sind, in der Lage sind, aus einem Archiv von 50 (doppelseitigen) Platten eine Kassette zu ergreifen, diese, wenn nötig, zu drehen und in eines der beiden (einseitig lesenden) Laufwerke einzuschieben. Dafür werden zirka 8 Sekunden gebraucht.

Jede Jukebox hat ein Fassungsvermögen von 50 CLV-Platten mit einer Speicherkapazität von 160 Gigabytes oder entsprechend 2,5 Millionen Patentseiten zu je 60 Kilobytes. Anders ausgedrückt: Eine Einheit hält 104 000 Patentschriften zu je durchschnittlich 24 Seiten im Zugriff. Die beiden Jukeboxes sind jeweils an ein SIOS-System (Sony Integrated Office System) angeschlossen und über Ethernet gekoppelt. Das erlaubt einen Online-Zugriff auf fünf Millionen Patentseiten. Die beiden angeschlossenen Laserdrucker können jeweils fünf beidseitig bedruckte Seiten pro Minute produzieren. Das erscheint wenig zunächst, verglichen mit Textdruckern, mehr jedoch, wenn man bedenkt, daß dafür 170 Kilobytes pro Sekunde zum Drucker transportiert werden müssen, nachdem die Faksimile-Seiten dekodiert sind.

Grenzen eines Ethernet-LANs worden erreicht

Das Ethernet macht es möglich, an dieses lokale Netz weitere Jukeboxes anzuschließen und auch Bildschirmarbeitsplätze mit hochauflösenden Ganzseitenschirmen, von denen aus im gesamten Bestand recherchiert werden kann.

Um einen Bestand von 70 Millionen Seiten im Online-Zugriff zu haben, sind also 28 Sony-Jukeboxes erforderlich, das sind mehr als ein lokales Netz verkraftet. Man könnte sich auch die Frage stellen, ob es denn überhaupt Sinn macht, jetzt derartige Mengen an Jukeboxes zu beschaffen, angesichts der Tatsache, daß in den Labors der großen Firmen schon jetzt optische Platten mit doppelter Speicherkapazität stehen. Aber auch das amerikanische Patentamt hat sich gegen das Abwarten entschieden und 10 Jukeboxes von Sony gekauft.

Uns alle bewegt die Frage, wie die Entwicklung weitergeht. Dazu seien folgende Thesen aufgestellt:

These 1: Ich glaube nicht, daß es eine Standardisierung bei den 12-Zoll-WORM-Platten geben wird. Bei den 5 1/4-Zoll-Platten dagegen ist sie in greifbarer Nähe. Daher wird sich in mittelgroßen Systemen, also Anlagen ohne Jukeboxes, diese Größe langfristig durchsetzen.

These 2: Die löschbare Platte ist keine Bedrohung für die WORM-Platte, da sie als Langzeit-Archivmedium wenig geeignet scheint: Anstelle der zugesicherten 30 Jahre bei WORMs erlaubt das magneto-optische Verfahren Sicherheit nur für vergleichsweise kurze Zeit.

These 3: Sobald die Post ihre Vorbehalte gegen Faxkarten für PCs fallenläßt, wird es in der Bundesrepublik (zur Zeit 50 000 Anschlüsse) für Fax einen ähnlichen Boom geben wie in Japan (eine Million Anschlüsse) oder in den USA (eine halbe Million Anschlüsse). Das Schlagwort vom "Personal Fax" deutet die Richtung an: Jeder würde dann per Fax erreichbar sein und viele Dokumente könnten auf elektronischem Weg statt mit der gelben Post verschickt werden.

These 4: Eine weitere Voraussetzung für den Online-Zugriff auf Datenbestände in Terabyte-Größe sind schnelle öffentliche Netze wie ISDN mit 64 Kilobit pro Sekunde oder Lichtwellen-Netze, wie sie beispielsweise in Berlin im Rahmen von BER-COM erprobt werden, mit Übertragungsgeschwindigkeiten von 144 Megabit pro Sekunde. Dann lassen sich auch 28 Jukeboxes eng koppeln.