Suchmaschine kategorisiert heterogene Firmendaten

02.12.2004
Ehemals separate Funktionen wie die Kategorisierung von Dokumenten fasst IBM nun in Omnifind zusammen.

Suchmaschinen gewinnen an Bedeutung. Das trifft besonders auf das Web zu. Aber auch hinter den Firewalls nimmt das Datenvolumen rasant zu und weckt damit das Bedürfnis nach effizienten Recherche-Werkzeugen. Google trägt als erfolgreiche Web-Suchmaschine dieser Entwicklung Rechnung und bietet seit einiger Zeit eine vorkonfigurierte Lösung (http://www.google.com/appliance) aus Hard- und Software für den unternehmensinternen Gebrauch an. Diese eignet sich besonders zur Indizierung von Intra- und Extranets oder der firmeneigenen Website.

Suche in heterogene Geschäftsdaten

Die IBM grenzt sich mit der "DB2 Information Integrator Omnifind Edition" explizit von solchen Lösungen ab und positioniert sie als Technologie für heterogene Enterprise-Daten. Eine solche muss in der Lage sein, zahlreiche Datenquellen zu erschließen und dabei unterschiedliche Formate zu lesen. Außerdem hat sie Suchergebnisse abhängig von den Zugriffsrechten des betreffenden Benutzers auszugeben: Dokumente, die ein Anwender nicht öffnen darf, sollen in der Trefferliste erst gar nicht auftauchen. In einer Hinsicht möchte die IBM jedoch Google nacheifern: Sie verspricht Antwortzeiten von weniger als einer Sekunde für jede Suchanfrage.

Ein wesentlicher Unterschied zur Web-Suche besteht auch bei der Bewertung der Relevanz. Das Web organisiert sich durch Verlinkung selbst, Unternehmensdaten verfügen dagegen in ihrer Mehrzahl über keine Verweisinformationen. Daher bemisst Googles Pagerank-Algorithmus die Bedeutung eines Dokuments an der Zahl der darauf verweisenden Hyperlinks.

Bedeutung von Texten erfassen

Omnifind hingegen muss in den meisten Fällen aufgrund des Inhalts herausfinden, ob ein Dokument für einen bestimmten Suchbegriff bedeutsam ist. Um die Bedeutung von Texten zu erfassen, greift die IBM auf Technologien aus dem Discovery Server zurück. Es handelt sich dabei um ein im Jahr 2000 groß angekündigtes Knowledge-Management-Produkt der Lotus-Abteilung, das kürzlich eingestellt wurde. Seine Aufgabe sollte unter anderem darin bestehen, Dokumente anhand automatisch erzeugter Taxonomien zu kategorisieren. Diese Fähigkeiten nutzt IBM nun in Omnifind, um die am besten zu einem Suchausdruck passenden Texte zu finden.

Berührungspunkte mit Lotus-Software ergeben sich auch noch an anderer Stelle: Die Suchmaschinen "Lotus Extended Search" (LES) ist ebenfalls in der Lage, heterogene Quellen zu indizieren und unterschiedliche Dateiformate zu lesen. LES wird zusammen mit dem Portal-Server ausgeliefert, und zwar mit "Websphere Portal Extend for Multiplatforms". Derzeit scheint das Schicksal dieser Lotus-Software unklar, offizielle Aussagen der IBM gibt es dazu noch nicht. Grundsätzlich lässt sich Omnifind nämlich als die nächste und mächtigere Version von LES betrachten. Andererseits kann die Lotus-Engine aber auch Datenquellen anzapfen, die in der Feature-Liste von Omnifind nicht auftauchen. Dazu zählen etwa die Instant-Messaging-Lösung "Sametime" oder LDAP-Verzeichnisse. Beide Suchwerkzeuge beruhen auf einer ähnlichen Infrastruktur, bestehend aus dem Websphere-Applikations-Server und DB2. Laufzeitversionen dieser Produkte gehören zum Lieferumfang von Omnifind.

Insgesamt versteht die IBM ihr neues Recherchewerkzeug mehr als Middleware denn als schlüsselfertige Lösung. Neben den standardmäßig angebotenen Datenquellen lassen sich über ein eigenes API Adapter für zusätzliche Systeme entwickeln. Zum Lieferumfang gehört wie schon bei LES ein Portlet für den Websphere-Portal-Server. Dessen integrierte Suchmaschine, die "Websphere Portal Search Engine", bietet mit dem "Search and Index API" (SIAPI) ein Interface, das mit jenem von Omnifind kompatibel ist.