Semantik als Schlüssel für Content-Management

24.01.2003
Von Rudi Studer . Professor Dr. Rudi Studer ist am Institut für Angewandte Informatik und formale Beschreibungsverfahren (AIFB ), Universität Karlsruhe (TH) und dem Forschungszentrum Informatik (FZI ) an der Universität Karlsruhe (TH) tätig. MÜNCHEN (COMPUTERWOCHE) - Die großen Mengen an digital verfügbaren Informationen aus unterschiedlichsten Quellen verlangen nach intelligenten Mechanismen für die Verwaltung und den bedarfsgerechten Zugriff. Semantische Technologien sollen dieser Forderung nachkommen, indem sie die Bedeutung der Inhalte in den Vordergrund stellen.

Schichtenmodell des Semantic Web nach Tim Berners-Lee.Content-Management-Systeme (CMS) zielen auf die Beschaffung, Erzeugung, Aufbereitung, Verwaltung und Präsentation von Dokumenten ab. Für diese Anforderungen bedarf es einer geeigneten IT-Umgebung, die auf weit verbreiteten Standards basiert. Der W3C-Standard XML kann heute als etablierte Basistechnologie für modernes Content-Management angesehen werden. XML kommt primär zum Einsatz, um Inhalt von Layout zu trennen und die Strukturen der Dokumente zu spezifizieren. Allerdings beschreibt XML eben nur die Struktur von Dokumenten und nicht deren Inhalt in maschineninterpretierbarer Form. Dies ist aber erforderlich, um von einer Verwaltung der Dokumente zu einer solchen der Inhalte übergehen zu können. Eine Lösung verspricht hier die Initiative "Semantic Web“ von Tim Berners-Lee und dem W3C. Sie hat zum Ziel, die Bedeutung der Informationen in Dokumenten so zu repräsentieren, dass diese durch Computer auswertbar werden. Dadurch lassen sich Inhalte personalisieren sowie bedarfsgerecht und kontextsensitiv für Anwender und Anwendungen darstellen und flexibel integrieren. Ein Ergebnis aus dieser Initiative sind die Sprachen RDF (Resource Description Framework) und RDF Schema (RDF (S)), die auf XML basieren und die über die Struktur der Dokumente hinaus auch deren Inhalte durch Computer erschließbar machen. Die Bedeutung wird in RDF formal durch sogenannte Triples, bestehend aus Subjekt, Prädikat und Objekt, ausgedrückt. Kombiniert bilden diese Triples einen gerichteten Graphen - ein Netz, in dem Subjekte und Objekte als Knoten, die Prädikate als Pfeil dargestellt werden. RDF (S) verfügt über zusätzliche Modellierungsprimitiven wie "is-a" ("ist-ein")-Beziehungen zur Beschreibung taxonomischer Strukturen sowie von Relationen, so genannten Properties. Damit können anwendungsspezifische Begriffssysteme beschrieben werden. Die Einbeziehung komplexerer Begriffssysteme und von Regelformaten wird durch die Verwendung von Ontologien und Logik in den nächsten Schichten über RDF umgesetzt. Die Nutzung von Ontologien und Logik versetzt ein CMS in die Lage, die Inhalte der Dokumente noch präziser zu beschreiben, implizites Wissen über regelhafte Zusammenhänge verfügbar zu machen und damit die beteiligten Content-Management-Prozesse zu erweitern, etwa durch personalisierte und kontextspezifische Abfragemöglichkeiten. Content-Management - mehr als ein Web-Tool Die unterschiedliche Verwendung des Begriffs Content-Management führte zu einem uneinheitlichen Verständnis. Gemein hin erfüllen moderne CMS folgende Aufgaben und Funktionen:

Verwaltung von geschäftsrelevanten Dokumenten jeglicher Formate,

Trennung der Inhalte vom Layout,

Cross-Media-Publishing sowie

Dokumentenzugriff gemäß den Bedürfnissen und Rechten der Benutzer.Dabei bieten CMS für den Zugriff auf die Inhalte derzeit eher starre Strukturen. Informationen stehen jedoch in differenzierten Bezügen zu unterschiedlichen Kontexten, seien es verschiedene Geschäftsprozesse oder Unternehmensbereiche. Demzufolge benötigt man flexible und vor allem wartbare Strukturen, um die Informationen für Anwender und Systeme kontextspezifisch verarbeitbar zu machen. Dies ist eine der zentralen Aufgaben, die konzeptuelle Wissensmodelle wie beispielsweise Ontologien erfüllen.