UIMA - freie Software für die Textanalyse

11.07.2006
Von Can Unal

Nach jeder Inhaltsanalyse existieren zu dem Originalinhalt entsprechende Metadaten, die für die weitere Untersuchung weiterverwendet werden können. UIMA fasst sie deswegen zu einem einzigen logischen Objekt zusammen. Dieses liefert nicht nur den Inhalt, sondern die Struktur, Sprache, Index, oder Zugriffe und werden Common Analysis System (CAS) genannt. Diese neuen Objekte können natürlich wieder als Datenquellen weiterbenutzt werden, sogar von anderen CAS-Objekten.

Nach der Analysephase werden die aufbereiteten Daten an das nächste Modul, der so genannten "Collection Processing Engine" (CPE) weitergeleitet, quasi die Management-Console der UIMA. Mit Hilfe der CPE lassen sich die Abläufe der Informationsaufbereitung steuern, beispielsweise eine Teilmenge nach bestimmten Mustern ("Patterns") herausfiltern oder der Gesamtprozess zentral überwachen.