Extensible Markup Language (XML)/Intelligenter Wissenszugriff im Web

Semantische Netze vereinfachen die Recherche

08.02.2002
Die enormen Dokumentenmengen im Internet machen es immer schwieriger, relevante Informationen mittels Suchmaschinen zu finden. Eine Lösung soll das Semantic Web liefern, das es Maschinen erleichert, vorhandenes Wissen für Maschinen besser zu verarbeiten. Von Ralf Wiehl*

Die Suche im Web ist derzeit noch eine mühselige Angelegenheit. Das liegt daran, dass bei den meisten Suchmaschinen die Dokumente nur anhand der in ihnen vorkommenden Wörter referenziert werden können. Wer in einer Suchmaschine beispielsweise das Wort "Mars" eingibt, erhält unzählige Dokumente über den Kriegsgott, den Planeten und den Schokoriegel angezeigt.

Abhilfe soll in Zukunft das Semantic Web bringen. Es hat zum Ziel, Wissen so zu repräsentieren, dass es von Benutzern und auch von Maschinen auf einfache Weise ergründbar ist. Wesentliche Bausteine eines Semantic Web bilden semantische Netze.

Ein semantisches Netz besteht aus Knotenpunkten und den sie verbindenden Kanten. Hierüber ist es möglich, inhaltlich relevante Zusammenhänge automatisch in großen Datenbeständen darzustellen. Knoten entsprechen hierbei wichtigen Begriffen, Kanten repräsentieren die relevanten Zusammenhänge zwischen ihnen. Werden die Zusammenhänge (in Form der Kanten) zusätzlich manuell von entsprechend kompetenten Personen nachbearbeitet, dann entsteht ein qualitativ hochwertiges semantisches Netz, das zur Unterstützung der einfachen Suche in Volltext-indizierten Inhalten eingesetzt werden kann.

Erweitert man nun die klassische Volltextsuche zur Visualisierung der Trefferlisten um semantische Netze, dann lassen sich komplexe Suchanfragen automatisch im Hintergrund zusammenfügen, während der Benutzer innerhalb des semantischen Netzes navigiert und die für ihn relevanten Themen (Suchbegriffe) auswählt oder ausschließt.

Indem semantische Netze und Volltext-indizierende Suchmaschinen miteinander verknüpft werden, können Benutzer hochkomplexe und kontextsensitive Suchanfragen ohne die ansonsten notwendige hohe Suchkompetenz erstellen. Dadurch lassen sich der Suchprozess und damit der Zugriff auf benötigtes Wissen effizient unterstützen.

Im Intranet können semantische Netze über vorhandene Dokumente auf zwei Arten aufgebaut werden: manuell oder automatisch. Bei der manuellen Erfassung muss der Autor oder ein Dokumenten-Manager eine Kategorisierung der einzelnen Dokumente vornehmen. Üblicherweise geschieht dies anhand eines semantischen Netzes, das bereits über existierende Dokumente aufgebaut wurde. Der Benutzer registriert das neue Dokument, indem er festlegt, welche vorhandenen Worte des semantischen Netzes auf sein Dokument zutreffen oder welche Worte Ober- beziehungsweise Unterbegriffe sind. Der Benutzer kann das vorhandene semantische Netz auch erweitern, indem er neue Begriffe (Knoten) und neue Zusammenhänge (Kanten) von Hand eingibt.

Dokumente werden andererseits automatisch anhand der vorkommenden Worte und deren Korrelation zueinander erfasst (etwa ihr Vorkommen in einem Absatz, einem Satz oder unmittelbar nebeneinander). Problematisch bei diesem Verfahren ist, dass das semantische Netz uneingeschränkt wachsen kann und so durch die Größe des Netzes das Auffinden von Dokumenten schwierig wird.

Vorgehen im IntranetBeim Aufbau eines semantischen Netzes im Intranet empfiehlt sich daher eine halbautomatische Vorgehensweise. Dabei wird das Dokument zwar anhand der vorkommenden Worte automatisch kategorisiert. Das Einpflegen des Dokumentes in das semantische Netz übernimmt dann aber ein Dokumentenverwalter, der die vorgeschlagenen Kategorien annehmen, ablehnen oder ändern kann. Dieses Verfahren gewährleistet, dass das semantische Netz benutzbar bleibt und dass Dokumente an der richtigen Stelle innerhalb des Netzes abgelegt werden.

Solange das semantische Netz auf das Intranet beschränkt bleibt, müssen für seine Darstellung keine besonderen Standards eingehalten werden. An den einzelnen Knoten werden Seiten angelegt, die eine Liste aller für den Knoten relevante Dokumente erhalten. Versucht man aber, einzelne lokale semantische Netze zu einem globalen Semantic-Web zusammenzufassen, so muss man sich auf einen gemeinsamen Standard einigen. In diesem Zusammenhang kommt Ontologien eine wichtige Aufgabe zu.

Eine Ontologie zu einem bestimmten semantischen Netz definiert die verwendeten Begriffe und deren Zusammenhänge. Hierbei kann man die Knoten als Klassen oder Subklassen und die Kanten als Bedingungen zwischen den Klassen definieren. Anhand des abgebildeten semantischen Netzes würden zum Beispiel die Klassen "Universität" und "Philosophie" gebildet, wobei die Nebenbedingung für Philosophie, und somit die Kante zwischen Universität und Philosophie, "kann studiert werden", ist. Im Rahmen der Ontologien sind XML und RDF zu nennen, welche die Beschreibungen der Netze vereinheitlichen.

XML nur begrenzt tauglichAnhand von XML ist es zwar möglich, ein semantisches Netz abzubilden, diese Abbildung ist aber durch die offene Struktur der XML-Definition dann nur eine von vielen möglichen Abbildungen desselben Netzes. Deshalb taugt es nicht für eine globale Vereinheitlichung von semantischen Netzen. Um diesen Nachteil der Repräsentation durch XML zu umgehen, kann man semantische Netze auch durch das Resource Description Framework (RDF) repräsentieren, wobei XML als Container für den Austausch über das Netz dient.

Bei RDF handelt es sich um einen Vorschlag des W3-Consortium (W3C), der Metadaten für den Austausch über das Web repräsentieren soll. RDF besteht dabei aus einem Tripel von Daten: Objekt O, Attribut A und Wert W. Diese werden normalerweise als A(O,W) geschrieben, zum Beispiel: "kann studiert werden" ("http://www.uni-marburg.de/psychologie","Marburg").

Im Rahmen der semantischen Netze ist es aber sinnvoller, das Objekt und den Wert als die Knoten anzusehen, die durch die Kante Attribut verknüpft werden. Auf diese Weise lässt sich ein semantisches Netz durch RDF repräsentieren. Das Objekt besteht aus einem Uniform Resource Identifier (URI), der auf den Speicherort des Objekts verweist. Durch das Verwenden von URIs ist es bei einer Verknüpfung von verschiedenen semantischen Netzen und Seiten möglich, ein Semantic-Web aufzubauen, da gleiche URIs auf gleiche Objekte, also auch Knoten, verweisen. (ws)

*Ralf Wiehl, Dipl.-Informatiker, ist bei der Firma HLP Informationsmanagement GmbH verantwortlich für den Bereich Intranet-basiertes Knowledge-Management.

Abb: Beispiel

Ein kleines semantisches Netz: Die Information, dass der Fachbereich Psychologie in Gießen in der Nähe des Fachbereichs Psychologie in Marburg angesiedelt ist, muss nicht direkt auf einer Web-Seite vermerkt sein, sondern kann von dem Tripel "ist nahe" ("Marburg", "Gießen") abgeleitet werden. Quelle: Wiehl