Bürodokumentarchitektur: Standard ECMA 101 und Stand der Normung (Teil 3)

Ziel der Normung: Familie kompatibler Austauschformate

25.04.1986

Das Ziel der ECMA-, ISO- und CCITT-Normen ist die Festlegung einer Familie kompatibler Austauschformate, die den Erfordernissen des Dokumentaustausches zwischen Editoren gleicher und unterschiedlicher Manager und von Editoren zu Druckern gerecht wird. Diese Formate bieten sich als wichtiger Bestandteil der Architektur offener Bürosysteme und als Basis für die Erweiterung der gegenwärtigen Telematikdienste an.

Diese Familie soll die Formate existierender Normen wie für

- Basic Teletex, CCITT-Empfehlung T.61,

- Gruppe-4-Faksimile und Teletex-Mixed-Mode, CCITT Empfehlung T.73, und

- Message Handling mit simple formattable documents (SFD), CCITT-Empfehlung X.420, einschließen.

Der Wert normierter Formate für den Dokumentaustausch

- innerhalb der heterogenen Bürosysteme mit Bürowerkzeugen unterschiedlicher Hersteller (multi vendor installations) und

- zwischen homogenen, aber offenen Bürosystemen unterschiedlicher Hersteller

liegt in der Einsparung von meist nicht eindeutigen und verlustbehafteten Umsetzungen. Theoretisch sind bei n-Herstellern 1/2 * n * (n-1 ) Umsetzungen erforderlich. Bietet jeder der Hersteller einen Übergang zum genormten Format, so sind nur n-Umsetzungen vom bürosystem- beziehungsweise bürowerkzeugspezifischen Internformat in das genormte Externformat erforderlich. Die Kompatibilität zwischen den verschiedenen Formaten der Familie ist dadurch gewährleistet, daß sie von (...)mselben Dokumentarchitektur-Modell abgeleitet wurden.

Allgemeiner Aufbau des Datenstromes

Der Datenstrom eines Dokument-Austauschformats (Office Document Interchange Format, ODIF), das ein gemäß der Dokumentarchitektur und den Inhaltsarchitekturen aufgebautes Dokument repräsentiert, besteht aus einer Folge von descriptors und text units.

Ein descriptor ist ein zusammengesetztes Datenelement, das die Attribute des document profile, der object classes, der presentation styles, der layout styles und der objects repräsentiert.

Das Dokumentprofil enthält Informationen zur Handhabung als Ganzes. Es umfaßt einen Satz von Attributen, die den Autor, das Erscheinungsdatum usw. spezifizieren und die angeben, welche Art von content und Strukturen im Dokument vorkommen.

Eine text unit repräsentiert eine specific oder generic content portion. Sie besteht aus

- einem zusammengesetzten Datenelement, das die inhaltsarchitekturspezifischen Attribute der content portion repräsentiert, und aus

- Datenelementen, die die Textzeichen und Steuerzeichen oder rastergrafischen oder geometrisch grafischen Elemente der content portion repräsentieren.

Die text units können auf zwei mögliche Arten über den Datenstrom verteilt sein. In der Datenstromorganisation A ist die Reihenfolge der descriptors und text units wie im Bild 1 gezeigt. Die Reihenfolge der Objekt- und Objekt-Klassen-Deskriptoren und der text units in ihren jeweiligen Datenstromteilen ist beliebig.

In der Datenstrom-Organisation B folgen nach jedem Deskriptor eines Basisobjekt oder einer Basisobjektklasse unmittelbar die text units ihrer content portions. Dieser Datenstrom B kann nur benutzt werden, wenn er Dokumente mit entweder nur logischer oder nur Layout-Struktur repräsentiert.

Formale Spezifikation des Datenstromformats

Die in der Norm enthaltene Formatspezifikation stellt den Regelsatz dar, gemäß dem die Datenströme den zu übertragenden ODA-Dokumente aufzubauen sind. Sie basiert auf der in ISO 8827 definierten Abstract Syntax Notation ASN.1, die im wesentlichen identisch ist mit der Presentation Transfer Syntax der CCITT-Empfehlung X.409. In dieser Notation besteht jedes Datenelement aus einem Datentyp und einem Datenwert. Es gibt Basisdatentypen wie Integer und Octet String, aus welchen alle anderen Datentypen zusammengesetzt werden können.

Bild 2 zeigt als Beispiel einen Ausschnitt aus der formalen Spezifikation des Datenstromformats: Ein logischer Objektklassendescriptor ist ein Datenelement vom Typ Sequence und ist zusammengesetzt aus dem Datenelement Logical-object-Type und dem optionalen Datenelement Logical-Class-Descriptor-Body. Die erste Komponente ist ein Basisdatenelement vom Typ Integer und die zweite Komponente ein zusammengesetztes Datenelement vom Typ SET, welches die möglichen weiteren Attribute der zu repräsentierenden logischen Objektklasse enthält. Auf dieselbe Weise sind alle anderen Komponenten des Datenstromes spezifiziert.

Die Codierung der Datenelemente erfolgt nach den in ISO 8825 festgelegten Codierregeln für die ASN.1. Sie liefert schließlich die Dokumentrepräsentation als Folge von Octets. Die kodierte Darstellung jedes Daten elements besteht aus einem Typfeld, gefolgt von einem Längenfeld und einem Wertfeld. Das Längenfeld gibt die Länge des Wertfeldes als Anzahl von Bytes an. Im Falle eines zusammengesetzten Datenelementes kann das Wertfeld aus mehreren Tripeln (Type, Length, Value) bestehen, die die untergeordneten Datenelemente wie zum Beispiel den Satz der Attribute des Logical-Class-Descriptor-Body von Bild 2 repräsentieren.

Datenstrom konform zur Norm

Der Datenstrom eines Dokumentes ist konform zur Norm, wenn er einem der genormten document conformance levels entspricht. Solche Konformitätsstufen sind definiert als eine Kombination von einem

- document architecture level,

- document profile level,

- interchange format level, und

- einem oder mehreren content architecture levels.

Es wird zwischen zwei document profile levels DP 1,2 und zwei interchange format levels für die Datenstromorganisation A und B unterschieden.

Die document architecture levels sind in Bild 3 aufgelistet. Sie definieren, welche Objekte und Objektklassen in diesen Stufen vorkommen können und welche ihrer Attribute mit welchen Wertebereichen beziehungsweise Default-Werten erlaubt sind. Die Architekturstufen sind klassifiziert nach:

- Formatted Document Architectures (FDA) zur Übertragung von Dokumenten in endgültiger Form mit dem Originallayout des sendeseitigen Dokumenterstellers. Diese Stufen unterstützen nur die empfangsseitige Wiedergabe am Bildschirm oder Drucker.

- Processable Document Architecture (PDA) zur Übertragung von Dokumenten in weiterbearbeitbarer Form. Diese Stufen unterstützen den empfangsseitigen Editier- und gegebenenfalls den automatischen Layout-(Formatier-)prozeß.

- Formatted Processable Document Architectures (FPDA) zur Übertragung von Dokumenten in weiterbearbeitbarer Form zusammen mit dem Originallayout des sendeseitigen Dokumentenerstellers.

ODIF ist unter den bekannten Austauschformaten einzigartig bezüglich der FPDA-Stufen. Sie enthalten sowohl die spezifisch-logische als auch die Layout-Struktur und einen zur automatischen Layouterzeugung vollständigen Satz von Layout-Objektklassenbeschreibungen. Die generische logische Struktur kann im Sinne eines Dokumentklasse-kontrollierten Editierens (siehe Teil 3) vollständig (complete) sein, oder nur teilweise (partial) oder überhaupt nicht (none) vorhanden sein.

Partielles Vorkommen von logischen oder Layout-Objektklassen dient nur der Übertragungseffizienz.

Attribute oder content portions, die im Datenstrom bei Objekten bestimmter Klassen wiederholt vorkommen würden, werden nur einmal in der Klassenbeschreibung übertragen. Solche Objekte sind zum Beispiel Logos oder Textbausteine. Nur im Falle eines vollständigen Satzes von Klassenbeschreibungen dürfen diese construction rules in Form des Attributes generator for subordinates enthalten.

Drei Stufen bei Rastergrafik

In der ISO befinden sich die Inhaltsstruktur für Rastergrafik, aufbauend auf der photographic content architecture der ECMA-101-Norm beziehungsweise der CCITT-Empfehlung T.73, und die Inhaltsarchitektur für geometrische Grafik, aufbauend auf dem ISO DIS 8632 Computer Graphics Metafile (CGM), noch im Stadium erster Entwürfe. Sie dürften in etwa einem Jahr DlS-Status erlangen. Beide Inhaltsarchitekturen werden mehrere content architecture levels definieren. Bei der Rastergrafik-Inhaltsarchitektur werden es voraussichtlich drei Stufen sein: eine, die T.73 Gruppe-4-Faksimile entspricht, eine, die T.73 Mixed Mode entspricht, und eine, die für formatierbare Dokumente geeignet ist.

DIS-Status hat bereits die character content architecture, welche die Konformitätsstufen

- Formatted Character Content Architectures CF 0, 1, 2, 3,

- Processable Character Content Architectures CP 0, 2, 3, und

- Formatted Processable Character Content Architectures CFP 2, 3 definiert. Für jede Stufe ist

- der Satz presentation attributes, und basierend auf ISO 8637/2

- der Satz der alphanumerischen Zeichen,

- der Satz der Steuerzeichen und

- der Typ der Codierung

einschließlich der erlaubten Werte und Default-Werte festgelegt.

Dokumentaustausch-Formatfamilie

CF 0 entspricht Telex (CCITT ITA 2), CF 1 entspricht ISO 646, CF 2 entspricht CCITT T.6 1 und CP 0 entspricht CCITT X.420.

Durch Auswahl geeigneter Konformitätsstufen lassen sich Dokumentaustausch-Formatfamilien unterschiedlicher Migrationsstufen sowohl für firmenspezifische - aber offene - Bürosystemarchitekturen als auch für die künftige Erweiterung der Telematikdienste ableiten. Bild 4 zeigt den Vorschlag einer Formatfamilie eines offenen Bürosystems für den Austausch von Textdokumenten innerhalb des Bürosystems und nach außen über existierende Telematikdienste.

Das Format F2 ist für den Dokumentaustausch zwischen Editoren von Arbeitsplatzstationen. Das Format F3 ist für die Übertragung von Dokumenten zu Druckservern. Das Format F1 ist eine Kombination von F1 und F2 und ist geeignet für die Ablage von Dokumenten in Ablageservern. Die Formate F4 und F5 sind für den Übergang zum Basic Teletex-Dienst beziehungsweise zum Telebox-Dienst der DBP.

Editoren festlegen

Weitere Migrationsstufen mögen zusätzlich Formate hinzufügen, die es gestatten, generisch logische Strukturen sowie raster-grafische und geometrisch-grafische Inhalte zu repräsentieren.

Da dokumentklassengetriebene Editoren erst in Entwicklung sind, werden die ersten Migrationsstufen nur Formate ohne generisch logische Strukturen beinhalten. Damit ist es aber für diese Formate erforderlich, im Rahmen der privaten oder öffentlichen Dokumentaustauschdienste, einen Satz der für derzeit übliche Editoren wichtigsten Objektklassen (Abschnitt, Fußnote, Überschrift etc.) mit ihren zulässigen Attributwerten festzulegen und in der Norm oder einer Ergänzung dazu zu beschreiben. Indem die logischen Objekte auf diese genormten Objektklassen mittels eines Attributs verweisen, ist gewährleistet daß die Semantik der Objekte auch ohne übertragene und vom empfangenden Editor interpretierte Objektklassenbeschreibungen übermittelt werden kann. Dies ist Voraussetzung für den Bau von Formatwandlern, die zwischen dem ODIF-Format und dem Editor-Internformat umsetzen.

wird fortgesetzt