Der Markt ist noch sehr klein

Das Semantic Web - schon reif für die Praxis?

02.07.2004
Die vom W3C-Präsidenten Tim Berners-Lee 1998 ins Leben gerufene Initiative "Semantic Web" verfolgt das Ziel, die Bedeutung von Informationen auf eine allgemein gültige Weise zu beschreiben. Die entsprechenden Standards spielen eine treibende Rolle. Von Harald Huber und Thomas Gerick*

Für die Verfechter eines semantischen Internet war der 4. Februar 2004 ein weiterer Meilenstein, und auch das Presse-Echo hallte positiv: Durch die Verabschiedung des Resource Description Framework (RDF) und der darauf aufbauenden Web Ontology Language (OWL) forciert das World Wide Web Consortium (W3C) seine Bemühungen, die gezielte Suche nach Informationen zu vereinfachen. Dabei erscheint die Idee eines semantischen Internet bestechend, gestaltet sich doch die Recherche in diesen gewaltigen Informationsräumen immer schwieriger. Suchmaschinen reagieren auf eine Anfrage oft genug mit Tausenden von "Treffern". Der Zenit klassischer Volltextsuche à la Google, Altavista oder Lycos scheint überschritten. Durch die Einführung fester Metadaten würde die Recherche im Internet ähnlich wie in Datenbanken ablaufen. Um dieses Ziel zu erreichen, bedient man sich eines Tricks, bietet doch das Dateiformat XML die Möglichkeit, Inhalte beliebig zu beschreiben und sie damit semantisch zu qualifizieren.

Das Grundkonzept vernetzter Metadaten ist nichts substantiell Neues. Neben der OWL weisen RDF und Topic Maps (ein Standard nach ISO 13250 beziehungsweise XTM) in die gleiche Richtung. Auch relationale Datenbanken realisieren dieses Konzept, von regelbasierenden Schlussfolgerungssystemen ganz abgesehen. Die Kernideen dieser Technik werden sich durchsetzen. Offen bleibt jedoch, welche Bedeutung die Standards in der Praxis haben werden.

Um Aufschluss über die zukünftige Bedeutung der OWL zu bekommen, erscheint es sinnvoll, nachzuprüfen, welche Entwicklung der schon im März 1999 verabschiedete Standard Topic Maps genommen hat. Weltweit beschäftigt sich eine beträchtliche Anzahl von Herstellern damit. Im deutschsprachigen Raum sind dies unter anderem Empolis, Moresophy, Intelligent Views, USU oder auch Ontopia. Schwieriger wird es, nach realen, in der Praxis bewährten Projekten zu suchen. Doch auch hier wird man fündig. So gibt es in Deutschland zirka 100 Installationen von derartigen Systemen. Es handelt sich demnach um einen Markt von einigen Millionen Euro pro Jahr. Die meisten dieser Projekte bewegen sich im Intranet und ermöglichen den Zugriff auf innerbetriebliche Dokumentenbanken.

Ernüchternde Bestandsaufnahme

Ein genauerer Blick auf die Produktanbieter und die realen Projekte ernüchtert jedoch. Kaum einer der Hersteller hält sich in seinen Funktionen an den vorgegebenen Standard. Die meisten Produkte haben Semantic-Web-Komponenten sozusagen versteckt unter der Haube. Einige davon waren bereits auf dem Markt, bevor der Standard veröffentlicht wurde. Beispiele hierfür sind Intelligent Views oder auch USU. Diese Hersteller entwickelten ihre Produkte auf der Basis bestehender Anforderungen und glichen die Funktionen dann mit dem Standard ab. Die Folge war eine unterschiedliche Spezialisierung. Andere Anbieter begannen zwar nach der Veröffentlichung des Standards, verfolgen jedoch ebenfalls sehr ausgeprägt eigene Ideen und Anforderungen.

Aufwändiger Einstieg

Praxisprojekte mit Topic-Map-Produkten, die sich strikt an den Standards ausrichten, sind in nennenswerter Zahl also nicht auszumachen. Angesichts dieser Situation fragt man sich, warum der Standard keinen Weg in die Produkte gefunden hat: Letztlich steht dem Einsatz von Topic Maps wohl der Erstellungsaufwand im Wege. Anwender und Kunden würden zwar gerne komplexe, netzartige Metadaten nutzen. Der Aufbau dieser Netze erfordert jedoch eine erhebliche redaktionelle Strukturierungsarbeit und überfordert in vielen Fällen nicht nur die Organisation, sondern ist im Einzelfall auch wirtschaftlich zweifelhaft. Insofern besteht die Gefahr, dass die gleichen Überlegungen für die nun verabschiedeten Standards RDF und OWL zutreffen könnten.

Ein weiterer wesentlicher Aspekt ist die Wiederverwendbarkeit von Metainformationen in unterschiedlichen Projekten. In der Praxis hat sich diese Erwartung bislang nicht erfüllt. In den Projekten konzentriert man sich in aller Regel auf sehr firmenspezifische Themen, die kaum auf andere Anwendungen übertragbar sind. Dies trifft umso mehr zu, je aussagekräftiger die Metadaten sind, das heißt, je mehr an semantischer Aussage sie enthalten. Während Taxonomien vergleichsweise problemlos und Begriffsnetze manchmal wiederverwendbar sind, spiegeln Regeln und Bedingungen häufig firmenspezifische Merkmale.

Beispiel für Begriffsnetze

Ein eindrucksvolles Beispiel für frei verfügbare Begriffsnetze sind die semantischen Netze der amerikanischen National Library for Health. Hier sind in über 20 Sprachen Informationen zu Krankheiten, Diagnosen und Therapieansätzen hinterlegt. Insgesamt handelt es sich um ein Netz von mehreren Millionen Knoten, das frei verfügbar über eine Internet-Schnittstelle geladen werden kann. Zwar halten sich auch diese Metadaten nicht an die definierten Standards, sind aber in der Praxis gut verwendbar.

Die Verabschiedung von OWL und RDF durch das W3C hat zweifellos positive Effekte: Das Interesse bei Kunden und Herstellern an netzartig aufgebauten Metadaten wird weiter steigen. Dies hilft den Anwendern, konkrete Fragen zu stellen und ihre Anforderungen zu definieren. Zudem haben sich die Sprachregelung und das Verständnis vereinheitlicht. Zwar setzen die Hersteller auf unterschiedliche Funktionen, die gemeinsame Basis hat sich durch die Standardisierungs-Bemühungen jedoch vergrößert.

Standards bringen Transparenz

In der Praxis bietet das beispielsweise in Testinstallationen den Vorteil, die Arbeitsergebnisse eines Herstellers anderen Anbietern vorzulegen. Die Abhängigkeit von einem spezifischen Hersteller hat sich durch den Standard deutlich verringert. Aber auch Kooperationen gestalten sich leichter. Der derzeit noch kleine Markt wird von einer Vielzahl von Anbietern bedient, so dass es künftig verstärkt zu Kooperationen und Konsolidierungen kommen wird. Zwar werden die Produktfunktionen dadurch nicht einheitlicher, aber vergleichbarer, und der mögliche Gesamtfunktionsrahmen zeichnet sich deutlicher ab. In diesem Sinne werden Textanalyseverfahren, Metadaten und Suchtechnologien zusammenwachsen.

Dabei bildet sich die Tendenz zur Wiederverwendung von Metadaten, zumindest auf dem Niveau von Begriffsnetzen. Wenn man auch noch weit davon entfernt ist, auf einen umfassenden Pool an Metadaten zugreifen zu können - die kritische Größe zur Wiedernutzung vorbereiteter Metainformationen wird mittelfristig erreicht werden. Bestrebungen gibt es von vielen Seiten: Neben den Herstellern, Beratern und Kunden sind dies auch Universitäten. So plant die Universität Leipzig die Gründung eines Instituts für Metadaten, dessen Aufgabe die Erstellung entsprechend vernetzter Informationen ist.

Wissensintensive Branchen starten

Es steht zu erwarten, dass der neue OWL-Standard eine inspirierende Wirkung auf den Markt hat. Dieser Markt konzentriert sich derzeit auf wissensintensive Branchen wie Life Science und Verlage, Forschungs- und Qualitätssicherungsabteilungen in Unternehmen oder auf Service Center. Erst wenn deutlich mehr Unternehmen in einem ersten Schritt Thesauren und Taxonomien nutzen, wird sich dieser Markt deutschlandweit auf eine kritische Größe von mindestens 100 Millionen Euro ausweiten. Dann werden auch Standards wie OWL interessanter. Darauf basierende praxisnahe Produkte werden wohl erst ab 2010 ein entsprechendes Produktivitätsplateau erreicht haben. So betrachtet sind wir auch vom Ariadnefaden, der uns zielgerichtet durch das Labyrinth des WWW führt, noch weit entfernt. (ws)

*Harald Huber und Thomas Gerick sind Mitarbeiter der in Möglingen ansässigen USU AG.

Das Konzept

Die Idee hinter den Metadatenstandards:

- Informationsräume, ob eine Dokumentenbank oder gar das Web, lassen sich durch Metadaten maschinell auswerten. Der Zugriff auf Inhalte wird wesentlich vereinfacht.

- Die Beziehungen zwischen den Metadatenattributen werden beschrieben. Wird etwa festgehalten, welche Produkte die Firma X anbietet, so enthält die Metainformation "Produkt x" maschinell verwertbar die Auskunft, dass dieses Dokument Aussagen zu "Firma X" umfasst.

- Ein Standard schafft die Basis dafür, dass diese Metadaten ausgetauscht und verarbeitet werden können. Mit der Zahl der Anwendungen steigt entsprechend auch der Nutzen dieses Standards.

Abb: Perspektive für Semantic-Web-Technologien

Der Hype-Zyklus für neue Technologien, hier für solche zur Informationsauswertung. Das Semantic Web steht demnach noch ganz am Anfang. Quelle: Gartner 2002