Das WWW soll intelligenter werden

05.03.2001
Von 
Wolfgang Sommergut ist Betreiber der Online-Publikation WindowsPro.
Mit einer Reihe von Standards will das W3-Consortium (W3C) Anbietern von Websites die Möglichkeit bieten, ihre Inhalte genauer zu beschreiben. Derartige Metainformationen sollen die maschinelle Verarbeitung von publizierten Daten erleichtern. Ein Ergebnis dieser Anstrengungen könnten unter anderem intelligentere Suchmaschinen sein.

Angesichts der steigenden Informationsflut im Internet zeigen sich immer deutlicher die Grenzen der heutigen Publikationsmethoden. Da HTML (Hypertext Markup Language) primär als Präsentationsformat dient, bestehen Web-Seiten aus einem Gemenge von Layout-Informationen und den eigentlichen Inhalten. Beschreibungen, worum es in einzelnen Dokumenten überhaupt geht, reduzieren sich bestenfalls auf ein paar "Meta"-Tags.

Web-Erfinder Tim Berners-Lee will mit dem Semantic Web die Inhalte des WWW besser für maschinelle Verarbeitung zugänglich machen.
Web-Erfinder Tim Berners-Lee will mit dem Semantic Web die Inhalte des WWW besser für maschinelle Verarbeitung zugänglich machen.

Entsprechend schwierig ist es für Softwareroboter, daraus gezielt Daten zu extrahieren oder die Inhalte zu taxieren. Diese Beschränkungen bekommen Benutzer regelmäßig zu spüren, wenn sie von Suchmaschinen mit irrelevanten Suchergebnissen überschüttet werden.

Die Initiative des W3C für ein "semantisches Web" fasst hauseigene und darauf aufbauende Standards zur Formulierung von Metadaten zu einem übergreifenden Framework zusammen. Ziel dabei ist es nicht nur, die Bedeutung von Inhalten auszuweisen, sondern auch Aspekte für die Nutzung von Dokumenten auf eine einheitliche Weise beschreibbar zu machen. So gehören auch Rating-Systeme wie die Platform for Internet Content Selection (PICS), Beschreibungen der Soft- und Hardware-Charakteristika von Endgeräten (Composite Capabilities/Preferences Profile, kurz CC/PP) oder Zusatzinformationen, die Behinderten die Web-Nutzung erleichtern sollen (Web Accessibility Initiative: WAI), zu diesem Gesamtpaket.

Alle zusammen dienen dem obersten Ziel der Initiative, Web-Inhalte möglichst gut maschinell verarbeiten zu können und so neuen Content-bezogenen Dienstleistungen Auftrieb zu geben. Idealerweise, so die Autoren des "W3C Semantic Web Activity Statement", sollen Metadaten durch ihre standardisierte Form weitgehend unabhängig von bestimmten Anwendungen werden. Im günstigsten Fall könnte beispielsweise eine Applikation, die bibliografische Daten ausliest, relativ schnell dazu gebracht werden, dass sie Sitemaps auszuwerten in der Lage ist.

Die Basis heißt RDF

So unüberschaubar die Fülle der sich teilweise überlappenden Standardvorschläge wirken mag, so klar sind sich die W3C-Verantwortlichen über die technischen Fundamente dieses Vorstoßes. Dreh- und Angelpunkt für die Darstellung von Metadaten soll das Resource Description Framework (RDF) sein. Auf dessen Basis lassen sich Vokabulare definieren, die unterschiedlichste Ressourcen wie beispielsweise einzelne Dokumente, ganze Websites oder die genutzte Client-Software beschreiben können. RDF selbst ist seit Februar 1999 eine W3C-Empfehlung und geht unter anderem auf Eingaben und Vorschläge von Netscape und Microsoft zurück. Allerdings fand die Technik bisher geringe Verbreitung, auf ihrer Basis wurden kaum Beschreibungssprachen entwickelt.

Das RDF legt ein abstraktes Verfahren fest, um die Zusammenhänge zwischen Entitäten und deren Merkmalen zu beschreiben (Entity-Relationship-Modellierung). Es ist per se an keine bestimmte Syntax gebunden, andererseits setzt der Austausch von konkreten Metadaten eine solche aber voraus. Innerhalb des W3C wurde deshalb eine RDF-Spezifikation auf Basis der Extensible Markup Language (XML) entwickelt. Ergebnis dieser Standardisierungsbemühungen ist unter anderem "RDF Schema". Dieses definiert ein System, mit dem sich Grammatiken für bestimmte Arten von Metadaten entwickeln lassen. Dazu müssen Klassen von Ressourcen und Eigenschaften spezifiziert sowie deren Beziehungen untereinander dargelegt werden. Damit kommt RDF Schema bei der Definition von RDF-Anwendungen die gleiche Aufgabe zu, die XML Schema für XML-Applikationen übernehmen soll. Um unnötige Inkonsistenzen zwischen den beiden Spezifikationen zu vermeiden, sollen zumindest gemeinsame Aspekte wie die Festlegung

von primitiven Datentypen einheitlich gehalten werden. Eine detaillierte Darstellung von RDF findet sich unter www.w3.org/TR/REC-rdf-syntax.

Als eines der wenigen bekannten Beispiele für eine RDF-Anwendung dient "Dublin Core". Sie entspringt dem Bibliotheksumfeld und legt ein Vokabular fest, mit dem sich der Autor, das Thema oder die Urheberrechte eines Dokuments beschreiben lassen (siehe purl.org/DC). Die Dublin Core Metadata Initiative agierte zuerst eigenständig, kooperiert nun aber enger mit dem W3C. Die Standardisierung indes erfolgt über die Internet Engineering Task Force (IETF). Weitere Bausteine: DAML, OIL und Co. Als explizites Ziel formuliert das W3C-Papier für das semantische Web, dass solche bisher unabhängigen Initiativen stärker an das Standardisierungsgremium gebunden werden.

Im Vordergrund stehen dabei die Darpa Agent Markup Language (DAML) der Department of Defenses Advanced Research Projects Agency (DARPA), die ihrerseits auf dem Ontology Inference Layer (OIL) aufbaut. Während die beiden mittlerweile zusammengeschlossenen Komitees ein komplexes Instrumentarium zur Klassifizierung von Inhalten entwerfen, wollen die Simple HTML Ontology Extensions (Shoe) mit zusätzlichen HTML-Markierungen einfache Mittel zur Beschreibung von Dokumenten anbieten. Unklar ist, ob Shoe im Zuge des W3C-Vorstoßes auf Basis von RDF neu formuliert wird, derzeit beruht es auf Document Type Definitions für SGML und XML. Ebenfalls vergleichsweise leichtgewichtig fällt "RDF Site Summary" (RSS) aus, das mittlerweile in der Version 1.0 vorliegt. Stärker auf Verlage ausgerichtet ist das "Publishing Requirements for Industry Standard Metadata" (Prism), das sich besonders zur Beschreibung von Magazin-, News- und

Buchinhalten eignet und dabei den Austausch und die Zusammenführung von Content ("Syndication") unterstützen soll.

Die noch vorläufige Spezifikation ist nur bedingt mit RDF kompatibel. PICS ist mehr als ein Filter gegen Sex und Gewalt Während die genannten Initiativen vor allem über die Bedeutung der Inhalte Aufschluss geben und Crawler von Suchmaschinen bei der Klassifizierung von Seiten unterstützen sollen, geht der Einsatz von Metadaten nach Vorstellung des W3C über diese Anwendung hinaus. Einen weiteren Nutzen von derartigen Zusatzinformationen demonstriert PICS, das ursprünglich entwickelt wurde, um nicht kindergerechte Inhalte auszufiltern. Dieser Standard wird von aktuellen Browsern und diverser Client-Software wie "Cybersitter" oder "Cyber Patrol" unterstützt, nutzt aber noch eine nicht mit XML konforme Syntax. Die Version 1.1 wurde deshalb inzwischen auf Basis von RDF reformuliert.

Ein weiterer geplanter Standard, der momentan den Status einer Candidate Recommendation erreicht hat, nutzt ebenfalls Metadaten zum Schutz der Privatsphäre. P3P spezifiziert eine Grammatik, mit der Website-Betreiber ihre Praktiken beim Sammeln von Benutzerdaten offen legen können. Wenn zukünftige Web-Browser solche Angaben auswerten können, würden sie diese mit den einschlägigen Vorgaben des Benutzers vergleichen und bei einer vorhandenen Diskrepanz eine entsprechende Warnung ausgeben. Ein weiterer RDF-basierter Standard namens CC/PP soll es Web-Entwicklern zukünftig ersparen, über diverse Tricks die Darstellungsmöglichkeiten des Clients herausfinden zu müssen. Entsprechende Profile könnten sowohl die Spezifika der benutzten Hardware oder des Browsers deklarieren als auch über Anwenderpräferenzen wie die bevorzugte Sprache Aufschluss geben.

Sitemaps vs. Topic Maps/W3C gegen den Rest der Netzwelt

Tim Berners-Lee, Erfinder des WWW, Präsident des W3C und treibende Kraft hinter den Semantic-Web-Aktivitäten, sieht noch zahlreiche andere Anwendungsmöglichkeiten für RDF-basierte Metadaten. Nachdem dieses Verfahren ohnehin ein Entity-Relationship-Modell darstellt, liegt es nahe, es für die Beschreibung der Beziehung von Dokumenten untereinander heranzuziehen. Derartige Informationen werden beispielsweise für Sitemaps benötigt, die Benutzer bei der Navigation auf großen Websites unterstützen. Tatsächlich sitzt im W3C eine Arbeitsgruppe an der Aufgabe, Querverweise in Form von Xlink für RDF-basierte Metainformationen nutzbar zu machen. Damit rivalisiert das Gremium mit dem Konzept der Topic Maps, das von einer eigenen Organisation entwickelt und von der ISO standardisiert wurde. Diese Konkurrenzsituation zeigt die Problematik der ganzen

W3C-Initiative für ein semantisches Web.

Obwohl es sich um ein Konsortium ohne Gewinnstreben handelt, verfolgt es mit diesem übergreifenden Framework an Standards doch eine expansive Strategie, die andere Initiativen an sich zu binden versucht. Aus Anwendersicht mag es vorteilhaft aussehen, dass damit ein konsistenter Bauplan für eine umfassende Metadaten-Architektur entsteht. Andererseits sind die Prozesse innerhalb des W3C, die schließlich zu bestimmten Empfehlungen führen, nicht transparent. Angesichts der Tragweite und der vermutlich langen Gültigkeit der dort entstehenden Standards wiegt dieser Mangel an demokratischer Legitimität umso schwerer. Diese ist auch Folge der Zugangsbarrieren, die dafür sorgen, dass im W3C in erster Linie große Hersteller ihre Vorstellungen umsetzen können. Aus europäischer Sicht leiden solche Standardisierungsverfahren zudem unter dem Manko, dass das W3C eine fast ausschließlich amerikanische Veranstaltung ist. Der Erfolg der Initiative für ein

semantisches Web hängt bei allem Know-how, das in die Formulierung von Empfehlungen gesteckt wird, davon ab, dass Hersteller diese Vorgaben in konkrete Produkte umsetzen. Um der Implementierung der Standards auf die Sprünge zu helfen und ihre Praxistauglichkeit zu beweisen, will das W3C im Rahmen der Semantic-Web-Aktivitäten entsprechende Open-Source-Projekte ins Leben rufen.