UIMA - freie Software für die Textanalyse

11.07.2006
Von Can Unal

Pipelining von Komponenten

Annotatoren können hintereinander geschaltet werden und jeweils die Ergebnisse der zuvor aktiven Komponenten weiterverarbeiten. Beispielsweise filtert der Annotator "Spracherkennung" die Texte nach ihrer natürlichen Sprache, so dass nachfolgende Bausteine etwa nur mehr englische Texte bekommen. Aktuell unterstützt dieser IBM-Annotator über 20 Sprachen. Die Aufgabe des Frameworks besteht darin, einen effizienten Weg zu errechnen, in welcher Reihenfolge diese Module durchlaufen werden müssen.

Das UIMA-Framework kann einzelne Textanalysemodule in einer Pipeline hintereinanderschalten.
Das UIMA-Framework kann einzelne Textanalysemodule in einer Pipeline hintereinanderschalten.

Weitere Annotatoren sind beispielsweise der "Categorizer", der fachspezifische Suchbegriffe zusammenfasst und diese separat dem Anwender zur Verfügung zu stellt. Eigene Annotatoren, können mit Hilfe von Eclipse-Plugins programmiert werden.

UIMA legt dabei für jede Verarbeitungsstufe zusätzliche Metadaten an, um mit deren Hilfe den Inhalt noch weiter aufzuschlüsseln. Das dafür verantwortliche Modul heißt "Text Analysis Engine" (TAE), wobei die Möglichkeit besteht, mehrere TAE's hintereinander zu schalten, um eine optimale Inhaltsanalyse zu erreichen.