Speichern und Archivieren/Schnelle Recherche plus einfache Weiterbearbeitung der Dokumente

Sinnvolle Architektur macht digitale Archive hocheffektiv

24.05.1996

Digitale Informations- und Archivierungssysteme ermöglichen nicht nur den Zugriff auf Informationen aller Art direkt vom Arbeitsplatz aus, sondern auch eine sofortige Weiterbearbeitung und Verwertung der Daten. Der Hauptgrund für einen Medienwechsel von analog auf digital ist nicht die Rationalisierung, sondern das bessere Informations-Management.

Außer der Ablage, Erschließung und Bearbeitung von Dokumenten sollte ein elektronisches Archiv auch eine flexible Workflow-Steuerung erlauben. Für den Anwender ist ja nicht nur das Finden vorhandener Dokumente wichtig, sondern auch das Arbeiten damit, also die Unterstützung, die ihm das System bei deren Erfassung und Verwendung bietet.

Ob Bilder, Grafik- und Zahlenmaterial, Belege, Pläne, Publikationen, Ton- oder Videosequenzen - ein digitales Archivsystem verwaltet jede Art von Informationsobjekt und macht es dem Anwender am Arbeitsplatz direkt zugänglich. Obwohl die Anforderungen an eine Archivlösung objekt- und branchenspezifisch sehr unterschiedlich sind, besitzen die zugrundeliegenden Entwurfskriterien allgemeine Gültigkeit.

Ein digitales Archiv sollte objektunabhängig sein - niemand weiß, welche Objektarten es in Zukunft noch zu archivieren gilt. Der Objektnachweis sollte systemtechnisch getrennt davon geführt werden. Anders ausgedrückt: Für die logische Datenbank, die alle zu einem Objekt gehörenden Daten enthält, ist es nicht relevant, ob dieses eine Bilddatei, eine Tondatei oder ein physisch reales Objekt ist.

Eine Recherche, ein Suchauftrag durch Angabe eines Teils der zu einem Objekt erfaßten Erschließungsinformation, resultiert im ersten Schritt in einer Objektliste. Der nun möglicherweise folgende Wunsch des Anwenders, ein Objekt zu sehen, zu hören und zu bearbeiten, veranlaßt das Archivsystem, dieses Objekt zu präsentieren.

Nun erst wird es wichtig, die Art des Objekts zu beachten. Das ist aber nicht mehr die Aufgabe der Archivdatenbank, sondern des Client-Programms auf der Anwenderseite. Ein konsequentes Client-Server-Konzept unterstützt diese Entkopplung von Nachweis und Präsentation.

Datentechnisch lassen sich Objektdateien daher am besten getrennt von der logischen Datenbank führen. Damit erzielt man neben der Objektunabhängigkeit auch eine weitreichende Skalierbarkeit. Die Haltung der Objektdateien kann auf den verschiedensten Massenspeichern erfolgen.

Diese Massenspeicher lassen sich in einem Netzwerk so plazieren, daß der Datenweg zum Ort der Objektdatennutzung optimiert ist. Große Bild- oder Postscript-Dateien werden beispielsweise weniger am PC des Anwenders, sondern vielmehr vom Belichter benötigt.

Auch die Art der Datenkomprimierung, die objektabhängig ist und sich künftig gerade bei Bildern oder Videos immer wieder ändern und verbessern wird, berührt die logische Archivdatenbank nicht.

Damit der Anwender Objekte auf seiner Arbeitsstation sehen und hören kann, ohne auf die vollständigen Objektdaten (Feindaten) zugreifen zu müssen, bietet es sich an, rasch darstellbare Motivkopien in der Archivdatenbank zu führen. Je nach Objektart sind dies Bilder mit niedriger Auflösung, Ton in Monoqualität oder Videoclips mit geringer Auflösung und Bildfolge.

Bei nicht direkt visualisierbaren Objekten wie Vektorgrafiken ist es sinnvoll, eine Ansicht als Pixelbild vorzuhalten, um eine schnelle Rechercheantwort zu erlauben. Auch für Postscript-Dateien gibt es Methoden, eine rasch am Bildschirm darstellbare Variante vorzuhalten.

Manche Aufgaben erfordern die Weiterbearbeitung archivierter Objekte. Hierzu muß die Client-Station in der Lage sein, das zum jeweiligen Objekt gehörende Erstellungsprogramm zu starten und diesem die Objektdatei aus der Archivdatenbank zu übergeben. Standardisierte Oberflächen wie Windows bieten hier die größte Flexibilität.

Ein wesentliches Kriterium eines Archivs ist die Recherchemöglichkeit. Erschließungsdaten können prinzipiell dreierlei Natur sein: feldbezogene (thematische) Angaben, Freitext und Ablagepositionen. Erstere führt man am besten in einer relationalen Datenbank. Freitext für rasche Suchzugriffe wird bei der Archivierung Wort für Wort indiziert. Bei der Ablagestruktur, also den verschiedenen logischen Ablageorten, ist die Entscheidung für die unterstützende Datenbanktechnik nicht so einfach und hängt vom Umfang und der Komplexität dieser Struktur ab.

Große Verlagsarchive zum Beispiel können durchaus 10000 und mehr meist hierarchisch aufgebaute Ablageorte haben, die zwar das geschulte Archivpersonal kennt, mit denen der gelegentliche Anwender jedoch meist nicht vertraut ist. Hier kann es hilfreich sein, über alle Ablagebegriffe selbst eine Freitextsuche einzurichten, um dem Anwender eine Möglichkeit zu bieten, die Einschränkung auf Suchbegriffskategorien anhand der Ablagestruktur vorzunehmen.

Ein universell einsetzbares Archivsystem stützt sich DV-technisch auf Standardprodukte. Relationale Datenbanken mit SQL-Abfrage und ODBC-Schnittstelle (Open Database Connectivity) zwischen Server und Client bieten die besten Voraussetzungen für Modularität und Zukunftssicherheit.

Ein Austausch des Datenbankprodukts berührt die Client-Software und die Applikationsstruktur des Archivs nicht. Freitextsysteme lassen sich wegen der fehlenden Standardisierung der Abfrage nicht so einfach austauschen. Hier muß das Design der Client-Server-Anwendung für die gewünschte Modularität sorgen.

Die moderne Publikationsarchivierung bietet zunehmend Möglichkeiten, ein Dokument mit interner Erschließungsintelligenz zu versehen. Hier bieten sich in erster Linie dokumentinterne Freitextsuche und Textverweise (Hyperlinks) an, die die Navigation in umfangreichen Dokumenten erleichtern.

Solche Dokumente werden behandelt wie andere spezifische Objektarten auch: Die Archivdatenbank "weiß" nichts von ihren besonderen Fähigkeiten. Erst der im Client vorhandene objektspezifische Viewer erschließt dem Anwender die enthaltenen Lese- und Analysehilfen.

Konsequent durchdacht kann die Methode eines autark erschließbaren Dokuments bis hin zur Massenspeicherung greifen: Eine CD, die zum Beispiel in einer vom Archivsystem verwalteten Jukebox als Feindatenspeichermedium für ein Dokument oder eine Dokumentengruppe dient, kann als eigenständige "Minidatenbank" angelegt sein, die sich auch außerhalb des Archivsystemkontexts intelligent erschließen läßt.

Gerade bei Publikationen ist die Möglichkeit einer einfachen Wiederverwertung oft wirtschaftlich entscheidend. Eine notwendige Grundlage hierfür ist in vielen Fällen die strukturierte Erstellung der Publikation. Dafür bietet sich die standardisierte Structured Generalized Markup Language (SGML).

Der Vorteil von SGML ist, daß die Struktur einer Publikation getrennt von der Darstellung (Layout, Fonts) beschrieben wird. So kann man nicht nur nach Strukturelementen recherchieren (etwa nach einem Begriff suchen, der nur in einer Überschrift zweiter Ordnung oder einer Bildunterzeile vorkommt), sondern die Entscheidung über die Darstellungsform von der Struktur selbst entkoppeln. Das erleichtert die Wiederverwertung in Form neugestalteter Printprodukte oder Ausgaben für elektronische Medien.

Ein Sonderfall ist die Publika- tion im Internet. Das für dieses Medium entwickelte Strukturformat Hypertext Markup Language (HTML) ist heute eine definierte Untergruppe von SGML mit einer Reihe von Strukturelementen, denen für die Bildschirmwiedergabe standardmäßig bestimmte Darstellungsformen zugewiesen sind. Erst dadurch wird die Plattformunabhängigkeit möglich, die ja Grundlage des Internet-Publizierens ist. Wohl dem, der seine Publikationen im SGML-Format archiviert: Ihm wird die Aufbereitung für eine Internet-Präsentation fast geschenkt.

Zu den objektspezifischen Eigenheiten von Printprodukten zählt vor allem das Farb-Management. Bei digitalen Farbbildern ein Muß, wird auch die spezifikationsgetreue Farbwiedergabe von digital generierten Elementen wie Fonts und Grafiken im Vierfarbendruck zunehmend gefordert. Obwohl keine Archivaufgabe per se, ist ein digitales Bild- oder Printmedienarchiv ohne Farb-Management meist ein Datengrab: Es liefert zwar bunte Seiten, erfüllt aber nicht die Qualitätserwartungen der Anwender.

Ein weiteres wichtiges Entwurfskriterium für Archivsysteme ist der Fernzugriff von Recherchestationen über Kommunikationsmittel wie ISDN. Hier gilt es, den Datentransfer während einer Abfrage zu minimieren. Schmalbandverbindungen können zu ernsten Engpässen führen. Die Regel heißt: Abfrage lokal am Client formulieren, dann anwählen und als Datenblock absenden, Rechercheantwort als Datenblock empfangen und abwählen. Werden Operationen wie Dekomprimieren und Bitmap-Rechnen von Bildern während des Empfangs parallelisiert, dankt ein derart gestalteter Client dies dem Anwender durch kurze Antwortzeiten.

Mit Archivsystemen verhält es sich wie mit der Garderobe: Man braucht für jeden Zweck eine maßgeschneiderte Lösung, möglichst aber zum Konfektionspreis. Diesen konträren Wünschen kommen Systeme, die möglichst weitgehend konfigurierbar sind, noch am ehesten entgegen.

Die Konfiguration sollte bei der Datenstruktur beginnen und sich bis zum flexiblen Workflow hin fortsetzen. So können wenige Tage oder auch Wochen der Konfiguration (specify by doing) viele Monate an Programmieraufwand ersparen - mit dem zusätzlichen Vorteil, daß sich künftige Änderungen und Erweiterungen auf einfache Weise vornehmen lassen. Auf Standards aufzusetzen und trotzdem diese Flexibilität zu bieten ist eine Hauptzielsetzung bei der Realisierung langfristig nutzbarer und dabei ökonomischer Archivsysteme.

Kurz & bündig

Die Umstellung auf digitale Archive erleichtert nicht nur die Recherchen, sondern macht die Weiterbearbeitung der gespeicherten Objekte möglich. Trotz unterschiedlicher Anforderungen in den verschiedenen Umgebungen gibt es eine Reihe konzeptioneller Erwägungen, die auf jeden Fall identisch sind. Die offene Anlage der Systemarchitektur und die Nutzung von Standards sind ein wesentlicher Schlüssel für den Erfolg und die Zukunftssicherheit eines digitalen Archivs. Im Medienbereich gibt es besonders viele Erfahrungen mit der Archivierung divergierender Objekte und ihrer Weiterbearbeitung.

*Walter Fink ist Geschäftsführer, Sonja Pfeiffer ist Leiterin Marketing Communications bei der Fink & Partner Media Services GmbH in München.