IBM treibt die Entwicklung seiner Suchtechnik voran

15.11.2006
Der Hersteller gewinnt die Organisationen Oasis und Apache Software Foundation für sein quelloffenes UIMA-Framework und schmiedet viele Pläne für seine Suchmaschinen.

Zur Verbreitung und Standardisierung seiner Unstructured Information Management Architecture (UIMA) für die semantische Suche und Content-Analyse sucht IBM die Nähe zur Open-Source-Community. So wurde jetzt vereinbart, architektonische Spezifika an OASIS zu übergeben, die diese in einem eigens gegründeten technischen Komitee prüfen will. Ferner erhält die Apache Software Foundation den Quellcode der Version 2.0 von UIMA, um auf dessen Basis im Rahmen eines „Inkubator“-Projekts UIMA-fähige Software zu entwickeln (ausführlich zu UIMA siehe „UIMA - freie Software für die Textanalyse“).

Weitere Informationen und eine Community zu UIMA bietet das Carnegie Mellon University Language Technology Institute auf seiner Website. Do finden sich unter anderem Angaben zu frei verfügbaren Komponenten und Tools. Zu Letzteren zählen solche von General Architecture for Text Engineering (GATE) und OpenNLP. Kommerzielle Werkzeuge gibt es neben IBM auch von Anbietern wie Attensity, Clearforest, Temis und Nstein.

Das Engagement im Open-Source-Umfeld mit UIMA oder dem Apache-Jakarta-Projekt „Lucene“ sind indes nur zwei Arbeitsfelder von IBM beim Thema Suchtechnik. So gebe es eine ganze Reihe von Trends, die man in den Produkten „Omnifind Enterprise Edition“ und „Omnifind Discovery Edition“ (vormals „Websphere Content Discovery Server) berücksichtigen wolle, berichtete kürzlich John McPherson, Distinguished Engineer und Spezialist für Suchtechnik, auf der Konferenz „Information on Demand“ im kalifornischen Anaheim. Ein weites Arbeitsgebiet sei weiterhin die semantische Suche. Hierzu gehöre beispielsweise die Entwicklung von Technik, die Anwendern genauere und erschöpfende Suchergebnisse liefere. So sei beispielsweise die aktuelle Version 8.4 von Omnifind in der Lage, Zeichenketten als Telefonnummern zu erkennen.

Ebenso müsse die Entwicklung von Suchtechnik künftig stärker auf Web-Trends wie „Social Software“ reagieren. Schon heute lasse sich mit Omnifind in Blogs und Wikis suchen. Mit dem Projekt „Dogear“ erprobe man ferner seit längeren „social bookmarking“ und setze dabei auch auf Suchtechnik. Ein neues Anwendungsgebiet entstehe zudem mit dem, was McPherson „The new BI“ nennt. Es geht um die Suche in strukturierten und unstrukturierten Geschäftsinformationen sowie Textanalyse. In den letzten Monaten hatten diesbezüglich einige Suchespezialisten wie IBM, Google und SAP Kooperationen mit Business-Intelligence-Anbietern wie Cognos, SAS Institute oder Hyperion vereinbart, um deren Repositories mit ihren Produkten indizieren zu können (siehe „BI-Hersteller öffnen sich für Google“).

Über diese neuen Themen dürfe man aber nicht den Endanwender vergessen, für den ausgereifte Suchtechnik weiterhin zu komplex ist, mahnte McPherson. Ein Ziel in der Produktentwicklung sei deshalb eine „radikale Vereinfachung“. Diese betreffe sowohl die Installation und Konfiguration der Produkte, die weitgehend automatisiert ablaufen soll, als auch ihr Nutzen: „Benutzer sollten künftig nur noch „wirklich relevante“ Suchergebnisse angezeigt bekommen“. (as)