IBM setzt Textanalyse-Standard

10.08.2005
Omnifind wird erste Implementierung von UIMA.

Für die unternehmensweite Suche und Analyse unstrukturierter Informationen etwa in E-Mails oder Word-Dokumenten will IBM eine als "Unstructured Information Management Architecture" (UIMA) bezeichnete Technik forcieren. Das Framework soll sich als Integrationsstandard etablieren, über den Drittanbieter Textanalyse- und Business-Intelligence-Tools einklinken können. Für diesen Zweck umfasst die Architektur Schnittstellendefinitionen und ein Software Development Kit (SDK), mit dessen Hilfe Entwickler UIMA-kompatible Analysemodule, so genannte Annotators, bauen können. Ein gemeinsames Datenmodell sorgt dafür, dass diese Annotators miteinander kommunizieren können. Im Prinzip geht es darum, dass Tools zur Textanalyse nicht nur untereinander interoperabel sind, sondern auch in eine breite Palette von Suchmaschinen und Business-Intelligence-Applikationen eingebaut werden können. Das Problem sei, dass aktuelle Produkte nur Punktlösungen seien und deshalb ein begrenztes Einsatzgebiet hätten, erklärt Marc Andrews, Chefstratege von IBMs Information Integration Solutions Group.

Eine eigene Implementierung von UIMA hat IBM jetzt in der neuen Version 8.2.2 der "Websphere Information Integration Omnifind Edition" vorgenommen. Die Software soll Suchfähigkeiten bieten, die deutlich über die bislang übliche Verwendung von Schlüsselbegriffen hinausgehen. Kern des Produkts ist eine Engine, die von diversen Annotators getrieben in der Lage ist, zahlreiche Textanalyse-Prozesse zu erzeugen und zu verwalten. Die Suchmaschine von Omnifind setzt direkt auf den Resultaten der Analyse auf.

Das SDK für UIMA steht auf der Entwickler-Site Alphaworks des Konzerns zur Verfügung. Außerdem soll das Framework zur weiteren Ausgestaltung gegen Jahresende an die Open-Source-Community von Sourceforge übergeben werden. Um jedoch mit der Technik einen Standard setzen zu können, ist IBM auf die Unterstützung von kommerziellen Partnern angewiesen. Hier sollen bereits 15 einflussreiche Hersteller ihr Interesse bekundet haben, die IBM in drei Kategorien unterteilt: Content Delivery (Factiva), Textanalyse (SAS Institute und SPSS) sowie Applikationen mit eingebauten Analyse- und Suchfunktionen (Cognos, Kana und Siebel).

Auf Omnifind beziehungsweise UIMA aufsetzende Projekte laufen derzeit zum Beispiel in der Automobilindustrie, wo ein Qualitätskontroll- und Frühwarnsystem aufgebaut wird. Andere Vorhaben konzentrieren sich auf Call-Centern und auf ein Informationssystem zur Terrorismusbekämpfung. (ue)