Austausch von Schriftstücken in heterogenen Rechnerwelten

ODA/ODIF und SGML geben MHS-Dokumenten ein Gesicht

06.04.1990

Mit den noch verhältnismäßig neuen Dokumentenstandards ODA/ODIF und SGML (Standard Generalized Markup Language) können Bürokommunikationsanwender ihren Dokumenten einen einheitlichen Schliff verpassen. Die SGML-Norm, Themenschwerpunkt des zweiten Berichtsteils, gibt eine formale Sprache zur logischen Strukturierung eines Schriftstückes ab.

Der zweite, weniger bekannte Standard zur Übertragung von Dokumenten in verarbeitbarer Form ist SGML, (Standard Generalized Markup Language). Er ist die Erweiterung und Standardisierung der von IBM maßgeblich entwickelten Sprache SGML (Generalized Markup Language). Die Bezeichnung deutet bereits an, daß es sich hierbei um einen Standard handelt, der als formale Sprache definiert ist. Genauer, der Standard besteht, formal gesellen, aus einer Grammatik, ganz analog, wie sie zur Beschreibung von Programmiersprachen benutzt werden, und einem Text, der die einzelnen Bestandteile, wie Regeln und Notation näher erläutert. Für den praktischen Gebrauch bedeutet dies, daß man SGML ähnlich wie eine Programmiersprache netzen kann. Die Betonung auf "ähnlich" soll verdeutlichen, daß der Sprachumfang und damit die Funktionalität ebenso wenigen Einschränkungen unterliegt, daß aber im Gegensatz zu Programmiersprachen hinter den einzelnen Sprachkonstrukten keinerlei festgelegte Semantik liegt. Mit anderen Worten: Das Dokument wird ähnlich wie bei ODA in logische Einheiten, deren Beginn und Ende gekennzeichnet sind, aufgeteilt. Die Sprache legt für den Nutzer lediglich fest, wie solche Markierungen zu setzen sind. Wie diese Markierungen von Mensch oder Maschine zu interpretieren sind, ist dagegen nicht festgelegt. Das gestattet, daß zum Beispiel eine Kapitelüberschrift in unterschiedlicher Weise auf dem Papier dargestellt werden kann, aber auch diese als Schlüsselbegriff in ein oder mehrere Verzeichnisse aufgenommen werden kann.

Bei SGML, handelt es sich um eine Strukturbeschreibung von Dokumenten, die unabhängig von Layout-Vorstellungen, und daher auf verschiedenen Formatierern anwendbar ist. Durch die völlige Loslösung vom Layout wird eine Systemunabhängigkeit erreicht, die aber eine speziell auf die Benutzerbedürfnisse zugeschnittene Software benötigt.

Mit Hilfe von Markups werden Dokumente logisch strukturiert. Die Verarbeitung der Markups hängt von den Benutzerbedürfnissen ab. Ferner hat SGML genetische Elemente, das heißt es können sowohl konkrete Dokumente als auch Dokumentenklassen beschrieben werden.

Ein Beispiel: Der Brief der Firma X an den Kunden Meier läßt sich in Briefkopf und Briefkörper strukturieren. Der Briefkopf ist wiederum in Absender, Empfänger, Datum, Betreff und so weiter gegliedert. Wenn die Firma X nun an alle ihre Kunden den gleichen Briefaufbau hat, kann man eine Dokumentenklasse "Brief" definieren. Das entspricht, vereinfacht gesprochen, einem Musterbrief" dessen Kennzeichen jedoch mit benutzerspezifischen Anwendungen verknüpft werden können.

SGML ist auf verschiedenen Sprachebenen definiert worden. Der Standard besteht aus einer abstrakten und einer konkreten Syntax, um sich von bestimmten vorhandenen Zeichensätzen unabhängig zu halten. Das Fehlen von Semantik hinter den Markups hat mehrere Konsequenzen:

- die Möglichkeit eines Nutzers, sich eigene Dokumentenklassen mit Hilfe der Sprache zu definieren;

- die Interpretation der Markups, entsprechend den eigenen Bedürfnissen ausrichten zu können.

- Eine optimale Nutzung der Markup-Elemente erfordert jedoch Absprachen im Anwenderkreis. (Was nicht heißen soll, daß ein mit Markup ausgezeichnetes Dokument nur dann übertragen werden kann, wenn der Empfänger über die gleiche Dokumentendefinition verfügt. Im Gegenteil: SGML-Dokumente sind im Gegensatz zu ODA-Dokumenten auch ohne spezielle Software durch den Menschen lesbar.)

Der bereits im Standard festgelegte Sprachschatz ist zu umfangreich, um ihn hier erschöpfend behandeln zu können. Es sei auf die Literatur verwiesen (ISO 8879, Sc88). Bevor ein abschließendes Beispiel den Standard verdeutlichen soll, seien hier nur kurz einige der sprachlichen Möglichkeiten genannt: Es besteht die Möglichkeit, nicht dem Standard entsprechende Zeichen als solche zu markieren. Ein entsprechender Interpreter kann dann diese Stelle überlesen. Ebenso ist es möglich, sogenannte "Entities" zu definieren, die dazu dienen können, Zeichen zu bestimmen, die auf der Tastatur nicht vor. kommen, oder als Stellvertreter für einen Langtext zu fungieren.

Das Element "text" kann ebenfalls definiert oder nach den Erfordernissen strukturiert werden, wie beispielsweise durch die Definition von Kapiteln und Paragraphen (siehe Abbildung 2).

Da eine vollständige Auszeichnung eines Dokumentes durch Markups einigen Schreibaufwand erfordert, besteht die Möglichkeit, Markups zu minimieren, wenn dadurch die Eindeutigkeit der Definition nicht verletzt wird. Beispielsweise könnte man das Markup <absender> weglassen, da in der Regel die erste Adressenangabe in einem Brief die Absenderadresse und die folgende die Empfängeradresse ist. In der Definition wird dies durch "o" angedeutet, wobei das erste "o" bedeutet, daß das Anfangs-Markup, und das zweite "o" bedeutet, daß das End-Markup ausgelassen werden kann.

Der Text läßt sich durch den Menschen lesen (Abbildung 3). Ferner kann ein Übersetzungsprogramm den Anfang und das Ende eines Dokumentenelementes durch die entsprechenden Markups <...> und </..> erkennen und eine vom Benutzer gewünschte Verarbeitungsprozedur anstoßen. Diese ist frei wählbar und kann Archivierungsfunktion ausüben.

Die Einsatzgebiete sind vielfältig. Das älteste Einsatzfeld ist das CAP (Computer Aided Publishing). Wichtige Anwender sind das National Bureau of Standards (USA) sowie die Europäische Gemeinschaft, die SGML für die Erstellung ihrer amtlichen Veröffentlichungen benutzt (Sm86).

Ein weiteres wichtiges Anwendungsbeispiel ist das im Deutschen Forschungsnetz (DFN) eingesetzte Dokumentenverarbeitungssystem Daphne. Es wurde entwickelt zur Erstellung, Verarbeitung und Präsentation von technischen Dokumenten im wissenschaftlichen Bereich. Gerade in diesem Bereich, den man auch als "joint editing" bezeichnet, wird die Notwendigkeit der Nutzung von Standards, besonders deutlich.

Vom Layout völlig losgelöst

Die abstrakteste Art der Dokumentenbeschreibung ist SGML, da man sich hier ausschließlich auf die logische Strukturierung von Informationen beschränkt. Hier ist man zunächst völlig losgelöst vom Layout. Die Formatierung kann von beliebigen Formatieren erfolgen, wenn ein Übersetzungsprogramm vorhanden ist. Ein solches ist das im Deutschen Forschungsnetz (DFN) genutzte Daphne. Weiterhin sind bereits einige syntaxgesteuerte Editoren im Einsatz: Writerstation (Datalogics Inc., Chicago), Author/Editor (Softquad Inc., Toronto), Publisher (Arbor Text Inc., Ann Arbor), TPS (Interleaf Inc., Cambridge), (DFN89).SGML ist in seiner Funktionalität grundsätzlich unbeschränkt, jedoch sind Anwendungen (wegen der fehlenden Vereinbarungen im Standard selbst) nicht ohne weitere Absprachen denkbar (Sc88).

Verwendete Literatur

DFN89 Egloff, P.: Abgeschlossene DFN-Entwicklungen, Dokumente mit Format DFN, Mitteilungen Heft 15, März 89; ECMA 85, ECMA/TC29/85/11; Office Document Architecture, Final Draft; FISc86 Flasche, Ute; Schleier, Angela; Decentralized processing of documents; Computer and Graphics; Vol. 10, No. 2, 1986, S. 119-131; ISO 8879, ISO/ DIS 8879, Information Processing - Text arid Office Systems - Standard Generalized Markup Language (SGML), ISO, Genf, 1985; Sc88 Scheller, Angela: Dokumenten-Standard: Standard und Wertung, GI 156, S. 369-382; Sm86 Joan Smith: Implications of SGML for the preparation of scientific publications; The Computer Journal, Vol. 29, No. 3, 1986.

Petra Schmidt ist wissenschaftliche Mitarbeiten beim Betriebswirtschaftlichen Institut für Organisation und Automation (Bifoa) an der Universität zu Köln.