IBM treibt Entwicklung von Suchtechnik voran

24.11.2006
Der Hersteller paktiert mit Oasis und der Apache Software Foundation.

Zur Verbreitung und Standardisierung seiner Unstructured Information Management Architecture (UIMA) für die semantische Suche und Content-Analyse sucht IBM die Nähe zur Open-Source-Community. So wurde jetzt vereinbart, architektonische Spezifika an Oasis zu übergeben, die diese in einem eigens gegründeten technischen Komitee prüfen will. Ferner erhält die Apache Software Foundation den Quellcode der Version 2.0 von UIMA, um auf dessen Basis im Rahmen eines "Inkubator"-Projekts UIMA-fähige Software zu entwickeln.

Weitere Informationen und eine Community zu UIMA bietet das Carnegie Mellon University Language Technology Institute auf seiner Website. Dort finden sich unter anderem Angaben zu frei verfügbaren Komponenten und Tools. Zu Letzteren zählen solche von General Architecture for Text Engineering (Gate) und OpenNLP. Kommerzielle Werkzeuge gibt es neben IBM auch von Anbietern wie Attensity, Clearforest, Temis und Nstein.

Das Engagement im Open- Source-Umfeld mit UIMA oder dem Apache-Jakarta-Projekt "Lucene" sind indes nur zwei Arbeitsfelder von IBM beim Thema Suchtechnik. So gebe es eine ganze Reihe von Trends, die man in den Produkten "Omnifind Enterprise Edition" und "Omnifind Discovery Edition" (vormals "Websphere Content Discovery Server) berücksichtigen wolle, berichtete kürzlich John McPherson, Distinguished Engineer und Spezialist für Suchtechnik, auf der Konferenz "Information on Demand" im kalifornischen Anaheim. Ein weites Arbeitsgebiet sei weiterhin die semantische Suche. Hierzu gehöre beispielsweise die Entwicklung von Technik, die Anwendern genauere und erschöpfende Suchergebnisse liefere. So sei beispielsweise die aktuelle Version 8.4 von Omnifind in der Lage, Zeichenketten als Telefonnummern zu erkennen.

Den Endanwender beachten

Ebenso müsse die Entwicklung von Suchtechnik künftig stärker auf Web-Trends wie "Social Software" reagieren. Schon heute lasse sich mit Omnifind in Blogs und Wikis suchen. Mit dem Projekt "Dogear" erprobe man ferner seit längerem "social bookmarking" und setze dabei auch auf Suchtechnik. Ein neues Anwendungsgebiet entstehe zudem mit dem, was McPherson "The new BI" nennt. Es geht um die Suche in strukturierten und unstrukturierten Geschäftsinformationen sowie Textanalyse. In den letzten Monaten hatten diesbezüglich einige Suchespezialisten wie IBM, Google und SAP Kooperationen mit Business-Intelligence-Anbietern wie Cognos, SAS Institute oder Hyperion vereinbart, um deren Repositories mit ihren Produkten indizieren zu können.

Über diese neuen Themen dürfe man aber nicht den Endanwender vergessen, für den ausgereifte Suchtechnik weiterhin zu komplex ist, mahnte McPherson. Ein Ziel in der Produktentwicklung sei deshalb eine "radikale Vereinfachung". Diese betreffe die Installation und Konfiguration der Produkte, die weitgehend automatisiert ablaufen müsste und ihren Nutzen: "Benutzer sollten nur noch wirklich relevante Suchergebnisse angezeigt bekommen."