Add-on für die Textverarbeitung

Schemas Markup Kit verwandelt MS Word in einen XML-Editor

11.02.2000
Anwender, die mit Microsoft Word XML-Dokumente erstellen wollen, kommen wegen einschlägiger Defizite der Textverarbeitung um ein Zusatzprodukt nicht herum. Die Version 2.0 des "Markup Kit" bietet mit der Unterstützung für Unicode, Grafiken, Tabellen und Formularen nun eine bessere Umwandlung in das offene Format.

In den Büros dominiert zur Zeit Microsofts Textverarbeitung "Word" in seinen verschiedenen Varianten. Die Version 2000 benutzt XML zwar für einige interne Belange, erlaubt dem Anwender aber nicht deren freie Verwendung. Dieser bleibt an das proprietäre und häufig wechselnde Datenformat des Desktop-Boliden gefesselt.

Einen einfachen Ausweg aus dieser Situation gibt es nicht, sondern zwei Lösungen mit unterschiedlichen Vor- und Nachteilen. Der eine Weg besteht im Wechsel der Textverarbeitung. Man kann zu einem Konkurrenzangebot wechseln, das XML unterstützt (viel Auswahl hat man noch nicht, nur "Wordperfect 2000" hat einen integrierten XML-Modus), oder man greift zu einem reinen XML-Editor wie "Xmetal" von Softquad. Deren Vorteil besteht darin, dass man die Daten unmittelbar in XML erfassen und ihre Gültigkeit direkt gegen eine Document Type Definition (DTD) überprüfen kann. Allerdings benötigen die Anwender bei einem Wechsel der Textverarbeitung entsprechende Schulung.

Die zweite Lösung besteht darin, bei Winword zu bleiben, es aber durch ein Zusatzprogramm XML-tauglich zu machen. Das "Markup Kit 2.0" der Nürnberger Schema GmbH (http://www.schema.de) ermöglicht die Umwandlung von Word-97-Dokumenten (auch der Einsatz unter Winword 2000 war problemlos) in XML und SGML, außerdem kann man mittels eines beiliegenden Kommandozeilen-Tools beliebige RTF-Dateien konvertieren.

Nach der Installation erscheinen drei neue Icons in der Symbolleiste, das wichtigste von ihnen erlaubt das Abspeichern des geöffneten Dokuments als XML-Datei. Das Markup Kit nutzt für diesen Zweck Druckformate, die der Anwender Textabschnitten zugewiesen hat. Das Add-on von Schema ersetzt diese durch XML-Tags (siehe Abbildung). Direktformatierungen, die der Benutzer Zeichen und Absätzen zuweist, sowie indirekte Informationen wie Zeilenschaltungen oder mehrere Leerzeichen, kann das Markup Kit, wie wohl alle Programme dieser Art, nicht auswerten. Unternehmen werden deshalb nicht umhinkommen, die Endanwender zu disziplinierter Nutzung der Textverarbeitung anzuhalten, da man die unkontrollierte Mischung von Druckformaten und Direktformatierungen in Word programmtechnisch nicht verhindern kann. Ist die Grammatik des Dokumenttyps, der in XML erzeugt werden soll, etwas komplexer, schlägt sich dies natürlich auch in der Dokumentvorlage nieder. Allerdings ist es ein prinzipielles Manko solcher Lösungen, dass sie überall das Einfügen beliebiger Druckformate erlauben, auch wenn dies gegen Regeln der DTD verstößt. Dagegen zeigen XML-Editoren oder Wordperfect nur die an der jeweiligen Cursor-Position erlaubten Auszeichnungselemente an.

Die Version 2 des Markup Kit weist eine größere Kompatibilität mit den XML-Anforderungen auf und kann zudem Informationen von Word-Dokumenten besser ausnutzen. So erlaubt der Befehlssatz des Markup Kit den Zugriff auch auf Tabellen, Hyperlinks, Indexeinträge, verknüpfte Bilder und die Dateiinformation. Die wichtigste Neuerung ist die Unterstützung des in XML vorgesehenen Zeichensatzes Unicode, mit dem auch Zeichen aus asiatischen, arabischen oder slawischen Sprachen sowie zahlreiche Sonderzeichen codiert werden können. Außerdem berücksichtigt das Tool nun bei der Konvertierung auch Grafiken, die in Word-Dokumente eingebettet sind: Erzeugt werden die externen Grafikdateien mit zugehörigem Verweis in der XML-Datei. Neue Befehle können nun auch die Dokumentvariablen von Winword-Dokumenten auslesen sowie Formularfelder auswerten.

Der wichtigste Schritt für den Einsatz des Markup Kit ist die Anpassung des Programms an eine bestimmte Document Type Definition, die das Format der auszugebenden XML-Datei bestimmt. Diese Konfiguration, die in einer Firma normalerweise die DV-Abteilung übernimmt, wird in einer Reihe von XML-Dateien hinterlegt. Im einfachsten Fall entspricht einem Druckformat ein bestimmtes XML-Tag, das den solcherart formatierten Text einschließt. Für komplexere Konstellationen dient eine ganze Reihe von Befehlen dazu, das wesentliche Problem bei der Konvertierung von Word nach XML in den Griff zu bekommen: XML ist ein Datenformat, das die Informationen hierarchisch organisiert, während Word-Dokumente meist eine flache Struktur aufweisen.

Ein Beispiel mag dies verdeutlichen: In XML würde man ein Kapitel dadurch codieren, dass ein Auszeichnungselement den Anfang des Kapitels markiert. Ein weiteres kennzeichnet Anfang und Ende der Kapitelüberschrift, üblicherweise folgen dann mehrere Absätze und erst am Ende, nach dem Schließen der letzten Absatzmarkierung, wird auch das Auszeichnungselement für das Kapitel geschlossen. In Word finden sich dagegen nur eine Überschrift und anschließend eine Reihe von Absätzen. Die Zusammengehörigkeit von Überschrift und den Absätzen kann man nur erschließen. Die Konfiguration des Markup Kit muss so gestaltet werden, dass sie am Ende der Absätze auch das Schluss-Tag für das Kapitel einfügt. Das ist, insbesondere bei etwas komplexeren DTDs, alles andere als trivial. Leider erweist sich das Handbuch als keine große Hilfe. Es enthält zwar eine Dokumentation aller Befehle, aber kaum Hinweise darüber, wie die üblichen Schwierigkeiten zu meistern sind. Angesichts der pozentiell großen Nachfrage nach einem solchen Konvertierungsprogramm ist es besonders bedauerlich, dass der Zugang zu seiner Verwendung durch die ergänzungsbedürftige Dokumentation so erschwert wird.

Insgesamt ist das Markup Kit eine preisgünstige Möglichkeit (pro Lizenz 299 Mark), die eigenen Daten aus dem Sumpf ständig wechselnder Word-Formate aufs feste Land eines offenen Standards zu retten. Den Aufwand, den Konfiguration und Anwenderschulung kosten, sollte man allerdings nicht zu gering veranschlagen und gegen die anderen Handlungsmöglichkeiten sorgfältig abwägen.