UIMA - freie Software für die Textanalyse

11.07.2006
Von Can Unal

Omnifind liefert einige vordefinierte generische Annotations, wie die Erkennung der geschriebenen Sprache, mit. Seit der Übergabe von UIMA an ein Open-Source-Projekt hat sich hier einiges getan und es entstanden eine Reihe weitere Bausteine, etwa für die Erkennung von Personentiteln, das Auffinden von Datumsfeldern oder Telefonnummern. Eine gute Übersicht über derartige Komponenten gibt es auf der Webseite http://uima.lti.cs.cmu.edu. (ws)

Hintergrund

Mit der "Unstructured Information Management Architecture" (UIMA) übergab die IBM vor rund einem Jahr eine Such- und Analysetechnik an die Open-Source-Community. Ähnlich wie mit anderen freien Projekten (Eclipse, Apache Derby), möchte die IBM auch damit Partner und Kunden animieren, auf Basis dieses Frameworks eigene Applikationen und Lösungen zu programmieren.

Entwickelt wurde UIMA von IBM Research am Thomas Watson Research Center in Yorktown Heights mit Unterstützung der Defense Advanced Research Projects Agency (DARPA), der zentralen Forschungseinrichtung des US-Verteidigungsministerium sowie von den Universitäten Carnegie Mellon, Columbia, Stanford und Massachusetts Amherst.

Ähnlich wie Eclipse, das mittlerweile als Fundament für diverse IBM-Entwicklungsumgebungen dient (beispielsweise "Rational Developer" und "Rational Software Architect"), sollen auch die IBM-eigenen Tools für Datensuche und -analyse auf diesen offenen Software-Frameworks aufsetzen. Die als Produkt vertriebene Version von UIMA heißt bei der IBM "WebSphere Information Integrator OmniFind Edition". Fragmente des Frameworks werden aber auch innerhalb des "Websphere Portal Server" und "Lotus Workplace" eingesetzt.