Semantik als Schlüssel für Content-Management

24.01.2003
Von Rudi Studer . Professor Dr. Rudi Studer ist am Institut für Angewandte Informatik und formale Beschreibungsverfahren (AIFB ), Universität Karlsruhe (TH) und dem Forschungszentrum Informatik (FZI ) an der Universität Karlsruhe (TH) tätig. MÜNCHEN (COMPUTERWOCHE) - Die großen Mengen an digital verfügbaren Informationen aus unterschiedlichsten Quellen verlangen nach intelligenten Mechanismen für die Verwaltung und den bedarfsgerechten Zugriff. Semantische Technologien sollen dieser Forderung nachkommen, indem sie die Bedeutung der Inhalte in den Vordergrund stellen.

Schichtenmodell des Semantic Web nach Tim Berners-Lee.Content-Management-Systeme (CMS) zielen auf die Beschaffung, Erzeugung, Aufbereitung, Verwaltung und Präsentation von Dokumenten ab. Für diese Anforderungen bedarf es einer geeigneten IT-Umgebung, die auf weit verbreiteten Standards basiert. Der W3C-Standard XML kann heute als etablierte Basistechnologie für modernes Content-Management angesehen werden. XML kommt primär zum Einsatz, um Inhalt von Layout zu trennen und die Strukturen der Dokumente zu spezifizieren. Allerdings beschreibt XML eben nur die Struktur von Dokumenten und nicht deren Inhalt in maschineninterpretierbarer Form. Dies ist aber erforderlich, um von einer Verwaltung der Dokumente zu einer solchen der Inhalte übergehen zu können. Eine Lösung verspricht hier die Initiative "Semantic Web“ von Tim Berners-Lee und dem W3C. Sie hat zum Ziel, die Bedeutung der Informationen in Dokumenten so zu repräsentieren, dass diese durch Computer auswertbar werden. Dadurch lassen sich Inhalte personalisieren sowie bedarfsgerecht und kontextsensitiv für Anwender und Anwendungen darstellen und flexibel integrieren. Ein Ergebnis aus dieser Initiative sind die Sprachen RDF (Resource Description Framework) und RDF Schema (RDF (S)), die auf XML basieren und die über die Struktur der Dokumente hinaus auch deren Inhalte durch Computer erschließbar machen. Die Bedeutung wird in RDF formal durch sogenannte Triples, bestehend aus Subjekt, Prädikat und Objekt, ausgedrückt. Kombiniert bilden diese Triples einen gerichteten Graphen - ein Netz, in dem Subjekte und Objekte als Knoten, die Prädikate als Pfeil dargestellt werden. RDF (S) verfügt über zusätzliche Modellierungsprimitiven wie "is-a" ("ist-ein")-Beziehungen zur Beschreibung taxonomischer Strukturen sowie von Relationen, so genannten Properties. Damit können anwendungsspezifische Begriffssysteme beschrieben werden. Die Einbeziehung komplexerer Begriffssysteme und von Regelformaten wird durch die Verwendung von Ontologien und Logik in den nächsten Schichten über RDF umgesetzt. Die Nutzung von Ontologien und Logik versetzt ein CMS in die Lage, die Inhalte der Dokumente noch präziser zu beschreiben, implizites Wissen über regelhafte Zusammenhänge verfügbar zu machen und damit die beteiligten Content-Management-Prozesse zu erweitern, etwa durch personalisierte und kontextspezifische Abfragemöglichkeiten. Content-Management - mehr als ein Web-Tool Die unterschiedliche Verwendung des Begriffs Content-Management führte zu einem uneinheitlichen Verständnis. Gemein hin erfüllen moderne CMS folgende Aufgaben und Funktionen:

Verwaltung von geschäftsrelevanten Dokumenten jeglicher Formate,

Trennung der Inhalte vom Layout,

Cross-Media-Publishing sowie

Dokumentenzugriff gemäß den Bedürfnissen und Rechten der Benutzer.Dabei bieten CMS für den Zugriff auf die Inhalte derzeit eher starre Strukturen. Informationen stehen jedoch in differenzierten Bezügen zu unterschiedlichen Kontexten, seien es verschiedene Geschäftsprozesse oder Unternehmensbereiche. Demzufolge benötigt man flexible und vor allem wartbare Strukturen, um die Informationen für Anwender und Systeme kontextspezifisch verarbeitbar zu machen. Dies ist eine der zentralen Aufgaben, die konzeptuelle Wissensmodelle wie beispielsweise Ontologien erfüllen. 

XML als etablierte Basistechnologie für Content-Management beschreibt die Struktur von Dokumenten. Für die intelligente Verknüpfung von Inhalten, die kontextspezifische Auswahl oder für fortgeschrittene Abfragetechniken bedarf es aber Hinweise auf den Inhalt der Daten. Damit die Bedeutung von Dokumenten maschinell ausgewertet werden kann, wurde eine Reihe von semantischen Technologien entwickelt, darunter das Resource Description Framework (RDF) oder Ontologien. Semantische CMS, die auf Ontologien basieren, bieten darüber hinaus die im Folgenden beschriebenen Funktionen. Inhaltliche Integration heterogener Datenquellen Die Voraussetzung für einen nachhaltigen Erfolg von CMS ist es, möglichst einfach und nachhaltig alle relevanten Datenquellen integrieren zu können. Damit kann der Aufbau isolierter Wissensinseln und somit Redundanz vermieden werden. Neben der physischen Zusammenführung der Daten können bei der inhaltlichen Integration heterogene Strukturen über Ontologien aufeinander abgestimmt werden. Dabei werden sowohl Namens- als auch Wert- und Strukturkonflikte, die zwischen unterschiedlichen Datenquellen bestehen, über Ontologien aufgelöst. Intelligenter Wissenszugriff für Mensch und Maschine Bis zu 80 Prozent der in Unternehmen vorhandenen Information liegen unstrukturiert in verschiedenen Dokumenten vor. Die Bedeutung und Zusammenhänge dieser Dokumente erschließt sich dem menschlichen Anwender über ihren Kontext, Maschinen steht bisher das Wissen darüber nicht zur Verfügung. Ein CMS muss jedoch die relevanten Informationen für unterschiedliche Zielgruppen effektiv und intelligent kombiniert zur Verfügung stellen. Der Einsatz von Semantik in Form von Ontologien löst oben aufgeführte Forderungen ein und fügt den Dokumenten eine für Systeme verwertbare Struktur und Bedeutung hinzu. Bestehende Metadaten wie , oder können den entsprechenden Begriffen der Ontologie zugeordnet werden.

Am Beispiel einer Suchanfrage soll dies näher ausgeführt werden. Die Beantwortung einer Suchanfrage wird durch die Strukturen der Ontologie (Unterbegriffe, Synonyme etc.) und die Nutzung von Beziehungen und Regeln angereichert. Personalisierung und Adaption der Inhalte Auch die Darstellung des Content für unterschiedliche Zielgruppen, Schnittstellen und Oberflächen (Cross-Media-Publishing) wird inhaltlich über Ontologien gesteuert. Dies er-möglicht die Bereitstellung verschiedener Sichten auf die gleiche Datengrundlage. Da-durch ist auch eine medienbedingte, notwendi-ge Reduzierung von Information möglich, wenn etwa ein Handheld die Darstellung vollständiger Information nicht gestattet, sondern nur die Darstellung wesentlicher Aussagen zulässt. Produkte zum Aufbau semantischer Content-Management-Systeme Die zum Aufbau semantischer CMS eingesetzten Produkte finden zunehmend Verbreitung. In der Regel entstanden solche Inferenzmaschinen, Ontologie-Modellierungsumgebungen und die entsprechenden Suchmaschinen im akademischen Umfeld. Ab Ende der 90er Jahre wurde die Weiterentwicklung und Vermarktung von kommerziellen Unternehmen aufgegriffen. So wird beispielsweise die am Institut für Angewandte Informatik und formale Beschreibungsverfahren (AIFB) der Universität Karlsruhe entstandene Inferenzmaschine "Ontobroker" seit 1999 von der Ontoprise GmbH weiterentwickelt und in kommerziellen Projekten eingesetzt. Inferenzmaschinen bilden als Server die informationsliefernde Schicht, die heterogene Quellen integriert, und sind damit der Kern ontologiebasierender Anwendungen. Über eine wohldefinierte Abfragesprache wird hierbei auf die Wissensmodelle und die damit verknüpften Informationen zugegriffen. Für den Aufbau von Ontologien existieren eine Vielzahl von Entwicklungsumgebungen. Zu nennen wären hier unter anderem die Produkte "Ontoedit" der Ontoprise GmbH und "Coherence" von Unicorn Solutions sowie das Open-Source-Produkt "Protégé 2000" der Stanford University. Semantische CMS nutzen Ontologien, um Anwender bei ihrer Suchanfrage über die flexiblen Navigationsmöglichkeiten zu unterstützen und per Expansion der Begriffe aus der semantischen Umgebung (Synonyme, verwandte Begriffe, Unterbegriffe etc.) sinnvoll zu erweitern. Die Verknüpfung von Content und Ontologien erfolgt über Annotierungswerkzeuge, welche die Spezifikation von entsprechenden strukturierten Metadaten ermöglichen. Ein Beispiel für ein derartiges Annotierungswerkzeug ist das am Institut AIFB entwickelte Tool "Ontomat-Annotizer". Einsatz und Fazit Die semantischen Technologien gliedern sich als Middleware nahtlos in ein CMS ein. Inhalte können dezentral gehalten, aber über eine semantische Schicht flexibel verknüpft und zentral abgefragt werden. Die einheitliche Beschreibung von Strukturen unterstützt und beschleunigt zahlreiche Wissens- und Innovationsprozesse innerhalb des Unternehmens. Neben den Kostenvorteilen durch die Verbesserung der Arbeitsabläufe entstehen weitere Einsparungen. Mit der Verwendung offener Standards wie RDF sind Unternehmen in der Lage, in der Auswahl von Komponenten kostengünstig nach dem "Best-of Breed"-Ansatz vorgehen zu können.