UIMA - freie Software für die Textanalyse

11.07.2006
Von Can Unal
Mit der Unstructured Information Management Architecture (UIMA) möchte die IBM einen Standard für maschinelle Verarbeitung von Dokumenten setzen.

Die Unstructured Information Management Architecture (UIMA) ist eine Analysesoftware, die Texte in Dokumenten und anderen Quellen aufspürt, analysiert und verarbeitet. Sie soll die versteckte Bedeutung, die Beziehungen und zugehörige Fakten zu einem Suchbegriff verstehen. UIMA bedient sich mehrerer Analysetechniken, wie etwa der statistischen und rollenbasierten Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), Information Retrieval (IR), Maschinen basierendes Lernen und Ontologien. Außerdem kann sie diese Prozesse mit Datenquellen, beispielsweise Datenbanken und Suchmaschinen, verknüpfen.

Eine UIMA-Anwendung durchläuft die Phasen Analysieren und Erzeugen.
Eine UIMA-Anwendung durchläuft die Phasen Analysieren und Erzeugen.

Damit könnte das Framework den heute bestehenden Graben zwischen Suchmaschinen und Business Intelligence überbrücken. Suchmaschinen sind auf Basis eines Begriffs nicht in der Lage, die Ergebnisse miteinander zu verknüpfen (sie bieten keine Möglichkeit, Objekte zu definieren und ihnen Attribute zuzuordnen). Umgekehrt können BI-Tools die in Texten enthaltenen Daten in der Regel nicht aufspüren.