Personalisierung und gezielte Auswertung von Content

Mit XML können Firmen ihr Wissen besser nutzen

22.02.2000
Von 
Wolfgang Sommergut ist Betreiber der Online-Publikation WindowsPro.
Die Extensible Markup Language (XML) ist dabei, sich als Standard für den Datenaustausch zu etablieren. Genauso wichtig wird die Markup-Sprache für die Aufbereitung, Auswertung und das Publizieren von Dokumenten. Unternehmen können so vorhandenes Wissen besser nutzen.

In den 50er und 60er Jahren waren Computerlinguisten noch sehr optimistisch hinsichtlich der maschinellen Verarbeitung von natürlichsprachlichen Texten. Diese Zuversicht ist inzwischen weitgehend einer Ernüchterung gewichen. Computerprogramme können bis heute nicht zuverlässig die syntaktische Korrektheit von Sätzen überprüfen, geschweige denn Zugang zu deren Bedeutung finden. Entsprechend reduzierten sich die lautstark angekündigten Wissens-Management-Strategien großer Hersteller zumeist auf Marketing-Getöse. Da gelten Links für den Online-Chat mit den Dokumentenautoren oder die fragwürdige Sortierung von Suchergebnissen nach Relevanz schon als zentrale Funktionen.

Das Konzept hinter der Standard Generalized Markup Language (SGML) oder der davon abgeleiteten XML sieht deshalb vor, dass Verfasser ihre Texte mit Hilfe von expliziten Auszeichnungen semantisch qualifizieren, bevor sie diese für eine intelligente Weiterverwertung nutzen können. Derartige Metainformationen (in Form von "Tags") lassen sich von Programmen gut verarbeiten. Ausgewiesen werden so Bedeutungen von Inhalten (, oder ) und strukturelle Informationen, die in Printmedien meist typografisch hervortreten (, oder ). Aufgrund der Trennung von Inhalt und Layout bei XML sollten Angaben über die Darstellung des Dokuments in einem bestimmten Medium nicht auf diese Weise gekennzeichnet werden (fett, unterstrichen etc.), sondern mittels Stylesheets erfolgen.

Durch XML-Auszeichnungen aufgewertete Dokumente eröffnen Unternehmen neue Chancen im Umgang mit vorhandenem Wissen. Als besondere Vorteile gelten die Möglichkeit zu intelligenten Abfragen, die Personalisierung von Inhalten und die Unabhängigkeit der Texte von bestimmten Zielmedien.

Amerikanischen Untersuchungen zufolge verschwenden Wissensarbeiter bis zu 20 Prozent ihrer Zeit mit der Suche in einem Überangebot an Informationen. Die für unstrukturierte Inhalte angebotene Volltextsuche kann zwar alle gewünschten Dokumente finden, aber nicht den Wust an unbrauchbarem Material ausschließen. Dagegen lassen sich in feinkörnig ausgezeichneten XML-Dokumenten gesuchte Informationen gezielt auf einen Kontext eingrenzen. So könnte sich eine Suche auf alle "Meier" konzentrieren, die im Briefkopf eines Dokuments vorkommen. Überhaupt lassen sich Recherchen bedeutungsmäßig einengen, indem auf XML-Markierungen Bezug genommen wird. Anstatt eine IT-Fachpublikation mit einer Volltextsuche nach "Tools AND Olap" zu durchstöbern und jede Menge unbrauchbarer Treffer zu erhalten, ließen sich in gut aufbereiteten Inhalten gezielt alle Artikel eruieren, in denen Inhalte nach dem Muster ausgewiesen wurden.

Schnelle Textsuche

Der gezielte und schnelle Zugriff auf bestimmte Einheiten des Dokuments erfolgt, indem dessen Struktur in einer Baumform dargestellt wird. Anwendungen können über das standardisierte API Document Object Model (DOM) auf den Dokumentenbaum zugreifen. Aber auch die vom XPath-Standard genutzte Notation für die Adressierung von Textabschnitten macht sich diese hierarchische Repräsentation zunutze. XPath bildet die Basis für weitere XML-bezogene Techniken, darunter Xlink, Xpointer oder die XML Query Language (XQL, siehe metalab.unc.edu/ xql). Eine XQL-Abfrage könnte nicht nur alle Schriftsteller aus einer Bibliografie extrahieren. Bei entsprechend markierten Dokumenten ließe sich diese Abfrage auf alle Krimiautoren ausdehnen. Ungeahnte Möglichkeiten ergeben sich, wenn Mitarbeiter oder Kunden Abfragen nutzen können, um Informationen aus großen Dokumentbeständen zu neuen Texten zu kombinieren. Eine kreative Verwertung von Dokumenten bieten auch die erweiterten Link-Mechanismen von XML. Xlink befindet sich derzeit beim W3-Consortium im Stadium des "Working Draft" und geht weit über die Möglichkeiten von HTML-Querverweisen hinaus. Da Links den Adressierungsmechanismus von XPath nutzen, können sie auf bestimmte Elemente eines Zieldokuments verweisen, ohne dass dieses wie bei HTML dafür bearbeitet werden muss. Informations-Broker könnten daher Kataloge aus Querverweisen zusammenstellen, die sich auf ganz bestimmte Dokumentabschnitte richten, obwohl sie dort keine Schreibrechte besitzen. Zudem kann eine XML-Referenz gleich auf mehrere Ziele zeigen. Dieses Feature eröffnet neue Möglichkeiten im E-Commerce, beispielsweise für Textilhändler, um zueinander passende Kleidungsstücke auf diese Weise zu verknüpfen.

Individuelles Angebot

Gut aufbereiteter Content erlaubt Benutzern nicht nur, aktiv nach bestimmten Daten zu suchen, sondern sich Inhalte nach speziellen Interessen filtern zu lassen. Die Masse an Informationen im Web bewog die großen Portale wie Yahoo oder Netcenter, ihren Besuchern auf Basis von Benutzerprofilen eine individuelle Sicht auf das Angebot zu geben. Die Möglichkeiten zur Personalisierung von gut strukturiertem XML-Content gehen über eine grobe Kategorisierung von Dokumenten mittels Schlagworten hinaus. Zum einen können Anbieter mit dem Resource Description Framework (RDF) ihre Dokumente detailliert beschreiben. Bei RDF handelt es sich um eine weitere XML-Anwendung, die vom W3C empfohlen wurde. Deshalb gelten für diese Metainformationen die gleichen Recherche- und Auswahlmöglichkeiten wie für die Dokumente selbst. RDF lässt sich nicht nur für XML-Dateien, sondern auch für die Beschreibung von HTML-Seiten nutzen.

Zum anderen lässt XML abhängig von Benutzerprofilen nicht nur die Wahl zwischen Anzeigen oder Ausblenden eines ganzen Dokumentes. Die Markup-Technologie erlaubt vielmehr individuelle Sichten auf einzelne Texte. So könnten sich Produktdokumentationen an den Kundendienst wie an die Marketing-Abteilung richten. Allerdings wäre zweitere nicht an technischen Details interessiert, die für den Service aber von Bedeutung sind. Entsprechend ließen sich die als technisch markierten Passagen für diejenigen ausblenden, die ein Profil auf Basis von "Marketing" nutzen. Einige Publishing-Werkzeuge nutzen dieses Feature bereits, beispielsweise "Epic" von Arbortext. Interessant sind solche maßgeschneiderten Sichten auch bei mehrsprachigem Content, der in der jeweiligen Landessprache angezeigt wird. XML reserviert für die Zuordnung von Elementen zu einer bestimmten Sprache das Attribut "xml:lang".

Diese benutzerspezifische Aufbereitung von XML-Dokumenten erfolgt in der Regel auf Basis von XSL Transformations (XSLT), das kürzlich als W3C-Empfehlung verabschiedet wurde. Diese Technologie erlaubt über frei definierbare Regeln die Konvertierung von XML-Dokumenten in eine andere XML-Struktur oder in andere Ausgabeformate.

Große Unterstützung von der Industrie

So entsteht im Rahmen der Open- Source-Vereinigung "Apache Software Foundation" das Tool "FOP", das XML-Dokumente und ihre in Stylesheets hinterlegten Formatierungen in Adobes PDF-Format konvertieren kann. Von IBM existiert ein Tool namens "TeXML" zur Ausgabe von XML-Daten in der Seitenbeschreibungssprache Tex (www. alphaworks.ibm.com/tech/texml).

Aufgrund der großen Unterstützung von XML in der Softwareindustrie werden derartige Werkzeuge für alle möglichen Ausgabeformate auf den Markt kommen - egal für welches Zielmedium. XML eignet sich deshalb als ideales Zwischenformat für die medienneutrale Speicherung von Dokumenten. Trotz der rudimentär vorhandenen oder angekündigten XML-Unterstützung bei Web-Browsern wird die Markup-Sprache deswegen vor allem auf dem Server zum Einsatz kommen. Dort erfolgen die komplexen Auswertungen des Contents und dessen Konvertierung in andere Formate. Für die Präsentation der Inhalte im Web wird HTML auch weiterhin dominieren. Dies ist nicht nur ein Zugeständnis an die vorherrschenden Web-Technologien: Bei solchen bewussten Konvertierungen in "dümmere" Formate ist schon die Rede von "semantischen Firewalls", weil Unternehmen keinen Einblick in aufwendig erstellte Inhalte geben wollen. Diese bilden die Grundlage für alle möglichen Dienstleistungen, für die professionelle Internet-Nutzer auch bereit sein werden, Geld auszugeben.

Bis Firmen aber ihr Wissen in einer verwertbaren Form vorliegen haben, müssen sie einige Hürden überwinden. Dazu zählt die Umstellung auf XML-Publishing für alle, die Dokumente verfassen. Eine solche beschränkt sich nicht auf die Einführung der Software, sondern umfasst auch aufwändige Analyseprozesse, um semantische Markierungen festzulegen.

Da aber in den meisten Firmen schon große Bestände an Texten in schlechter nutzbaren Formaten vorliegen, stellt sich häufig auch die Frage, ob derartige Inhalte nachträglich aufbereitet werden sollen. Dies ist mit hohen Kosten verbunden, da diese Prozesse kaum automatisiert werden können. Jürgen Lumera vom Münchner Systemhaus SPX präsentierte auf der Konferenz XML ’99 den Entwurf für ein Framework, das die Anreicherung von Legacy-Daten mit XML-Metainformationen unterstützen soll. Wegen des Aufwands der nachträglichen Aufbereitung kann es für viele Firmen von Vorteil sein, schon bald Dokumente mittels XML auszuzeichnen.