Content-Management/Projekt des Forschungszentrums für Künstliche Intelligenz (DFKI)

Auf dem Weg zur perfekten Suchmaschine

15.09.2000
Immer schwieriger wird es, Wissensschätze zu heben. Die Technik von Suchmaschinen ist veraltet. Doch jetzt entwickelt ein Forschungsprojekt neue Instrumente zur Auffindung von Dokumenten. Johannes Kelch* hat recherchiert.

Das im Kern seit dreißig Jahren gebräuchliche Standard-Retrieval von Suchmaschinen ist im Internet-Zeitalter zu einem nahezu untauglichen Recherchemittel geworden. Zwar sind erfahrene Experten in der Lage, mit komplexen Anfragesprachen relativ exakt jene Dokumente aufzuspüren, die sie wirklich benötigen. Doch die überwiegende Mehrzahl der Internet-Surfer ist mit der präzisen Formulierung von Suchanfragen heillos überfordert. Ein anderes Manko besteht darin, dass zahlreiche Internet-Suchmaschinen lediglich die Links auf statische HTML-Seiten finden und deshalb all jene dynamischen Dokumente ignorieren, die erst bei Datenbankabfragen entstehen. Schließlich bereiten viele Trefferlisten den Anwendern wenig Freude, weil die Zusammenfassung der Inhalte nicht ihren persönlichen Anforderungen entspricht.

Obwohl die ausufernden "Informationsozeane" des Internets nach neuen Navigationshilfen verlangen, wurde die Suchmaschine in den vergangenen Jahren nur in geringem Umfang weiterentwickelt. Zwar hat es die Google-Technik aus der kalifornischen Hightech-Universität Stanford möglich gemacht, Seiten, auf die häufig verwiesen wird, automatisch im Ranking nach oben zu ziehen. Auch die Directhit-Methode führt zu einem Vorteil; sie protokolliert jene Treffer, die häufig angeklickt werden, und listet sie oben auf, während weniger begehrte Treffer nach unten wandern. Doch solche Techniken führen - so hilfreich sie auch sind - noch lange nicht alle Surfer im Internet zum Ziel ihrer Wissbegierde.

Jetzt sind deutsche Informatiker angetreten, um die Recherche in den Informationsozeanen zu perfektionieren. Das kürzlich begonnene Forschungsprojekt "Adaptive Read" will Suchmaschinen mehr Intelligenz beibringen und "Dokumentenerschließungswerkzeuge der nächsten Generation" entwickeln. Geleitet wird das Vorhaben vom Deutschen Forschungszentrum für Künstliche Intelligenz DFKI. Das Bundesforschungsministerium fördert das Projekt mit rund 20 Millionen Mark.

Adaptive Read will die zum Auffinden von Dokumenten durchaus taugliche Retrieval-Technik weiterentwickeln und dem Bedarf des Menschen anpassen. So arbeitet ein Team am DFKI am Aufbau einer "Wissensbasis", die für jeden Suchbegriff eine komplexe Interpretation hinterlegt. Die Forscher verfolgen das Ziel, dass die Suchmaschine anhand der Wissensbasis erkennt, was der Mensch "eigentlich" sucht, wenn er eine unpräzise Suchanfrage stellt.

Markus Junker erklärt die Idee am Beispiel einer Suche nach Testberichten. Gibt der Surfer in die Suchmaschine "+Testbericht +Polo +Auto" ein, so bekommt er als Treffer nur einen kleinen Bruchteil der verfügbaren Tests angezeigt. Denn über und in den meisten Testberichten steht nicht "Testbericht", sondern "Wir testen" oder Ähnliches. Mit der Wissensbasis soll die Suchmaschine nun in der Lage sein, auch Testberichte zu erkennen, die nicht explizit so bezeichnet sind.

Wie aber soll eine vernünftige Wissensbasis entstehen? Im ersten Schritt will das Zentrum mit komplexen Interpretationen für wenige ausgewählte Begriffe experimentieren. Dann soll die "Wissensbasis" automatisch angefüllt werden. Die Forscher überlegen, zu diesem Zweck mit einem Suchmaschinenbetreiber zusammenzuarbeiten und die Ergebnisse von Suchanfragen aus der Bevölkerung unter Wahrung der Anonymität automatisch auszuwerten.

In einem weiteren Schritt will man den Usern von Internet und Intranets mit "Benutzerprofilen" bei der Suche nach Informationen unter die Arme greifen. Benutzerprofile sollen bei der Suche individuelle Interpretationen für Begriffe hinterlegen, die dem besonderen Bedarf einer Person entsprechen.

Die Ideen von DFKI- Direktor Andreas Dengel, einem der Initiatoren des Projekts, gehen über diese Individualisierung von Suchanfragen noch weit hinaus. Seine Vision ist der "persönliche Informationsagent", der den Menschen am Rechner bei seinen Aktivitäten beobachtet, seine Eingaben beurteilt und selbständig aus internen und externen Datenquellen die gerade benötigten Informationen herausfischt.

Das "kontextuelle Retrieval" hat laut Dengel zwei Aspekte: die "Fähigkeit, Relevanz zu identifizieren" und die "Individualisierung", das heißt die Modellierung von Interessen und Aufgabengebieten. Dengel glaubt, dass die Zukunft der Informationssuche mit dem "kontextuellen Retrieval" steht und fällt.

Weniger visionär und schneller realisierbar ist ein Teilprojekt von Adaptive Read, das Internet-Suchmaschinen beim Durchforsten von Datenbanken auf die Sprünge helfen will. Wer im Internet surft, findet per Suchmaschine in der Regel nur statische HTML-Dateien, während die Ergebnisse formularbasierender Anfragen unberücksichtigt bleiben. Denn der von Suchmaschinen erfasste Datenbestand resultiert in der Regel aus Links, mit denen sich die Dokumente untereinander referenzieren.

Thomas Kieninger vom DFKI hat bereits einen Weg gefunden, um die Inhalte von Datenbanken in die Internet-Recherche einzubeziehen. Er entwickelt einen "Metaanfrage-Assistenten". Dieser soll künftig eine Anfrage aufspalten, an konventionelle, datenbankgestützte Informationsdienste in deren jeweiliger Syntax weiterleiten und schließlich die Ergebnisse einsammeln. Der neuartige Assistenzdienst soll die Anfrage- und Ergebnisstrukturen einzelner Datenbanken im Net kennen und im Bedarfsfall gezielt nach Informationen fragen können. Aufgabe des Teilprojekts ist es, aus den Ergebnissen der Datenbankabfragen die variablen Teile mit den wirklich interessanten Informationen herauszufiltern und sie zu einem Gesamtüberblick zu verdichten.

Demgegenüber arbeitet Stefan Agne vom DFKI in Zusammenarbeit mit Daimler-Chrysler an dem Vorhaben, den Suchmaschinen das maßgeschneiderte und personenorientierte Abstracting beizubringen. Die Suchmaschine soll lernen, aus dem Verhalten eines Benutzers zu schließen, welche Art von Abstracts er gerne lesen möchte.

Ein weiteres Teilprojekt kümmert sich um die automatische Posteingangsbearbeitung. OCE Document Technologies, ein Hersteller, der Hochleistungs-Scanner mit Zeichenerkennung kombiniert, will die eigenen Lösungen in die Lage versetzen, Dokumente wie Geschäftsbriefe, Angebote und Mahnungen als solche zu erkennen und Abteilungen oder Fachbereichen zuzuordnen. Im Projekt "Adaptive Read" will das Unternehmen nach Auskunft von Markus Schnitzlein zuverlässige Verfahren zur Trennung von Text und Grafik sowie von Formular (Hintergrund) und Inhalten (Vordergrund) entwickeln.

*Johannes Kelch ist freier Journalist in München.