IBM treibt die Entwicklung seiner Suchtechnik voran

15.11.2006
Der Hersteller gewinnt die Organisationen Oasis und Apache Software Foundation für sein quelloffenes UIMA-Framework und schmiedet viele Pläne für seine Suchmaschinen.

Zur Verbreitung und Standardisierung seiner Unstructured Information Management Architecture (UIMA) für die semantische Suche und Content-Analyse sucht IBM die Nähe zur Open-Source-Community. So wurde jetzt vereinbart, architektonische Spezifika an OASIS zu übergeben, die diese in einem eigens gegründeten technischen Komitee prüfen will. Ferner erhält die Apache Software Foundation den Quellcode der Version 2.0 von UIMA, um auf dessen Basis im Rahmen eines „Inkubator“-Projekts UIMA-fähige Software zu entwickeln (ausführlich zu UIMA siehe „UIMA - freie Software für die Textanalyse“).

Weitere Informationen und eine Community zu UIMA bietet das Carnegie Mellon University Language Technology Institute auf seiner Website. Do finden sich unter anderem Angaben zu frei verfügbaren Komponenten und Tools. Zu Letzteren zählen solche von General Architecture for Text Engineering (GATE) und OpenNLP. Kommerzielle Werkzeuge gibt es neben IBM auch von Anbietern wie Attensity, Clearforest, Temis und Nstein.

Das Engagement im Open-Source-Umfeld mit UIMA oder dem Apache-Jakarta-Projekt „Lucene“ sind indes nur zwei Arbeitsfelder von IBM beim Thema Suchtechnik. So gebe es eine ganze Reihe von Trends, die man in den Produkten „Omnifind Enterprise Edition“ und „Omnifind Discovery Edition“ (vormals „Websphere Content Discovery Server) berücksichtigen wolle, berichtete kürzlich John McPherson, Distinguished Engineer und Spezialist für Suchtechnik, auf der Konferenz „Information on Demand“ im kalifornischen Anaheim. Ein weites Arbeitsgebiet sei weiterhin die semantische Suche. Hierzu gehöre beispielsweise die Entwicklung von Technik, die Anwendern genauere und erschöpfende Suchergebnisse liefere. So sei beispielsweise die aktuelle Version 8.4 von Omnifind in der Lage, Zeichenketten als Telefonnummern zu erkennen.