IBM stellt Code für Content-Analyse Open Source

24.01.2006
Mit der Offenlegung der Unstructured Information Management Architecture sollen Entwickler gelockt werden.

Ein großer Teil der in Unternehmen gespeicherten Informationen liegt in Form von unstrukturierten Dokumenten vor. Die Suche in solchen Daten-Pools ist mit traditionellen Content-Management-Systemen nur eingeschränkt etwa nach Schlagwörtern möglich. Wer ganze Inhalte oder Beziehungen zwischen Dokumenten analysieren will, muss auf Spezialapplikationen zugreifen, die sich jedoch oft nur schwer mit den Abfragemechanismen der vorhandenen Applikationen integrieren lassen. IBM möchte jetzt über die Öffnung des Frameworks "Unstructured Information Management Architecture" (UIMA) eine Standardplattform für Applikationen zur komplexen Content-Analyse schaffen. Der dafür an SourceForge übergebene Quellcode ist Auftakt eines Entwicklungsprojekts, in dessen Rahmen einheitliche Schnittstellen entstehen sollen, über die unabhängige Softwarehäuser ihre einschlägigen Anwendungen nach dem Plug-and-Play-Prinzip koppeln können. Namhafte Business-Intelligence-Hersteller wie SAS und Cognos haben bereits im vergangenen Jahr zugesagt, die UIMA mit ihren Textanalyse-Modulen unterstützten zu wollen. IBM selbst hat das Framework zur Grundlage seiner "Omnifind"-Edition von Websphere Information Integrator gemacht. (ue)