Besserer Datenaustausch über das Web

Hersteller favorisieren XML als Nachfolger für HTML

25.07.1997

Während SGML bis dato eher ein Nischendasein führte und vor allem bei großen technischen Dokumentationen eine Rolle spielte, kann XML schon nach kurzer Zeit eine breite Unterstützung großer Hersteller vorweisen.

Allen voran hat Microsoft die Möglichkeiten der Auszeichnungssprache erkannt und schickt sich an, eine Gesamtumgebung aus Betriebssystem, Browseroberfläche und Dokumenten-Management auzubauen. Die Gates-Company ist dabei, in wichtigen Bereichen Standardformate zu etablieren. So startete sie unter der Bezeichnung "Open Financial Exchange" (OFX) zusammen mit der Checkfree Corp. und der Intuit Inc. Anfang 1997 eine Initiative zur Etablierung eines weltweit gültigen Austauschformats für Finanzdaten.

Dieses Kommunikationsformat ist in mehrere Module aufgeteilt, die in einer eigenen "Document Type Definition" (DTD) verfaßt sind. Bei letzterer handelt es sich um eine Art Grammatik, die die einzelnen Modulelemente wie beispielsweise Identifiers, Message-, Status-, Benutzer- oder Sicherheitsangaben zueinander in Beziehung setzt. Jedes Element kann mit mehreren Attributen zusätzlich beschrieben werden, so daß sich ganze Datenbank-Exportformate neutral abbilden lassen.

Das Interesse am gemeinsamen Format für Finanzdienstleister war enorm. Laut Intuit gab es kurz nach Bekanntgabe des Standards Anfang des Jahres mehr als 2700 Interessenten aus den Bereichen des Online-Banking, bei Broker-Häusern und der Software-Industrie. Mit der Implementierung von XML in zukünftige Versionen der meistverbeiteten Web-Browser sind die Daten leicht darstellbar, selbst die Import- und Export-Schnittstellen der verschiedenen Chart- und Börsenprogramme ließen sich vereinheitlichen.

Der Verbreitung von XML förderlich ist, daß sich neben Microsoft nach anfänglich ablehnender Haltung nun auch Netscape Communications zu dem SGML-Abkömmling bekennt. Mit R. V. Guha hat sich die Internet-Company den Mann eingekauft, der bei Apple das sogenannte Meta Content Format (MCF) konzipierte. MCF basiert auf reinem ASCII und dient zur Darstellung von Meta-Informationen in elektronischen Dokumenten. Für das Navigieren im Informationsraum existiert bereits ein von Apple entwickeltes Browser-Plug-in. Unter der Leitung von Guha entwickelt Netscape dieses Format auf XML-Basis wei-ter und reichte es bereits als Standardisierungsvorschlag beim W3-Consortium ein.

Neben diesen beiden Software-Anbietern machte sich auch Sun Microsystems als starker Fürsprecher von XML bemerkbar.

Was speziell für das OFX-Format gilt, wird für alle zukünftigen Standardisierungsbemühungen zutreffen: Jeder Industriezweig ist in der Lage, seinen Datenaustausch über ein eigenes einheitliches Format über Internet und Intranets abzuwickeln.

Sogar die leidige Diskussion über Akzeptanz- und Kostenproblematik von Electronic Data Interchange (EDI) wird mit neuen Argumenten und Lösungsansätzen belebt, da bestimmte EDI-Spezifikationen (beispielsweise Edifact) partiell in SGML und somit XML abgebildet werden können ( für mittelständische Unternehmen ein relativ kostengünstiger Ansatz.

Zweitverwertung von Publikationen

Zeitungs- und Buchverlage halten ihre Inhalte häufig medienneutral in einem eigenen SGML-Format vor und vermarkten sie als Zweit- oder Drittprodukte weiter - beispielsweise über CD-ROM oder Online-Abonnements. Mit XML können unnötige Abwärtskonvertierungen von SGML nach HTML entfallen, und der Leser kommt in den Genuß individueller Informationseinheiten, ohne daß dafür auf HTML-Meta-Tags zurückgegriffen werden muß. Streng genommen dürfen Meta-Tags im HTML-Code nur etwas über das HTML-Dokument an sich aussagen (beispielsweise wann es von wem zu welcher Zeit angelegt wurde), nicht aber, wie im WWW häufig praktiziert, über seinen Inhalt. Mit dem wesentlich mächtigeren XML können mehrere Zeitungsartikel aus diversen Agenturen und von verschiedenen Autoren in einem einzigen Dokument abgelegt oder als Clipping zusammengefaßt werden. Durch SGML- beziehungsweise XML-Tagging sind spezielle Informationseinheiten aus dem allgemeinen Code extrahierbar.

In den USA arbeitet ein Kommitee bereits seit Juni 1992 an einem Industrie-Standard für den internationalen Informationsaustausch zwischen Nachrichtenagenturen und deren Abnehmern, beispielsweise Zeitungsverlagen oder Content-Providern. Federführend für diese Initiative sind das International Press Telecommunications Council (IPTC) und die Newspaper Association of America (NAA), die führen- den Interessenvertreter der gesamten Nachrichten-Branche in Amerika.

Neben dem standardisierten Informationsaustausch ist es Ziel dieser Initiative, ein "Information Interchange Model" (IIM) zu entwerfen, das Verknüpfungen zwischen einzelnen Informationsobjekten in Nachrichtentexten erlaubt. Eingebunden in dieses Projekt sind einige der führenden internationalen Nachrichtenagenturen, unter anderem die Deutsche Presse Agentur. Das zu diesem Zweck definierte SGML- "News Industry Text Format" (NITF) liefert die nachrichtenspezifischen Topics.

Auch im Bereich Corporate Publishing werden Dokumente ausgetauscht, archiviert oder über andere Medien wie CD-ROM oder Kataloge weitervermarktet. Argumente für einen firmeninternen XML-Einsatz sind unter anderem:

Zweit- und Drittverwertung von publizistischen Inhalten über verschiedene Medien; individuelle Formate zur Unterstützung für den elektronischen Datenaustausch (EDI); Abbildung von Datenbankinhalten auf flache Dateistrukturen, beispielsweise für den Aufbau einer hybriden Multimedia-Datenbank.

Bekanntlich sind nur etwa ein Drittel der firmenrelevanten Informationen in Datenbanken abgespeichert, den Rest bilden einfache elektronische Dokumente und Geschäftskorrespondenz auf Papier. Mit der Verschmelzung von Web-Browsern mit Textverarbeitungssoftware und Groupware werden weitere Anreize geschaffen, die täglich anfallende Korrespondenz in strukturierten Dokumenteinheiten abzulegen und intelligent zu indexieren. Wer heute sein Geld mit Intranet- und spezialisierter IT-Software verdient, wird sich den Möglichkeiten nicht verschließen können, die ein strukturiertes, textbasiertes Information Management für die Zukunft bieten kann. Gut aufbereitete Daten sind das wertvolle Kapital eines jeden Content-Providers.

So funktioniert XML

Die Extensible Markup Language ist ein von SGML abgeleitetes Sprachwerkzeug zum Design individueller Datenformate, die den Dokumentenaustausch über das Web erleichtern sollen. Anwender haben dabei die Möglichkeit, spezifische Info-Objekte mittels individueller Markierungen (sogenannter "Tags") zu definieren. Aufgrund dieser Flexibilität bietet sich XML für internationale Standards beim Datenaustausch innerhalb ganzer Industriebereiche oder der Finanzwelt an.

Erst mit XML werden SGML-Formate WWW-tauglich, was die Übertragung über HTTP und die Darstellungsmöglichkeiten mit gängigen Web-Browsern betrifft. Dank einfacher Abwärtskonvertierung von SGML nach XML ist jeder Standard sofort fürs Web verfügbar. Export-Schnittstellen für XML werden bald in vielen SGML-Softwareprodukten integriert sein.

XML ist "SGML light"

Pünktlich zum zehnjährigen Bestehen des SGML-Standards wurde auf der Konferenz SGML '96 in Boston ein deutlich abgespeckter und auf das Wesentliche reduzierter SGML-Sprachstandard unter dem Namen "Extensible Markup Language" verabschiedet.

Hauptanliegen der von Jon Bosak (Sun Microsystems) geleiteten Initiative war es, die vielfältigen Strukturmöglichkeiten, die SGML beim Publishing bietet, auch der Internet-Gemeinde zukommen zu lassen. Während des elfwöchigen Engagements von 80 SGML-Experten wurde die original 500 Seiten starke SGML-Referenz auf eine neue 26seitige Sprachreferenz komprimiert und dem W3-Konsortium als Standardvorschlag vorgelegt.

Hauptkomponenten von XML sind:

-Die Strukturierung von Text in individuelle Informationseinheiten,-ein eigenes fortgeschrittenes Verknüpfungskonzept sowie-eine Layout-Strukturierungskomponente über Layout-Vorgaben (Style-Sheets).

*Lucky Kuffer (Lucky sueddeutsche.de)arbeitet freiberuflich als SGML-Consultant, hauptsächlich für den Süddeutschen Verlag.