Smart Semantics

Fraunhofer und IBM entwickeln semantische Suche

06.05.2009
Von Richard Knoll
Das Fraunhofer-Institut IAIS hat die intelligente Suchtechnologie "Smart Semantics" vorgestellt. Durch die Verknüpfung mit IBMs UIMA-Framework sollen nun auch kleine und mittelständische Unternehmen vom Einsatz der hocheffizienten Suche profitieren können.

Die intelligenten Softwarekomponenten von Smart Semantics sind laut dem Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) auf die Verarbeitung unstrukturierter Daten (Websites, Dokumente) durch modellbasierte Inhaltsanalysen ausgelegt. Im Gegensatz zu stichwort- oder regelbasierten Verfahren, wie sie die meisten Internet-Suchmaschinen nutzen, verwenden Smart Semantics lernende und mustererkennende Verfahren. Sie ersparen dem Nutzer somit aufwändiges Filtern seiner Suchergebnisse. Smart Semantics sind für die von IBM initiierte Architektur UIMA (Unstructured Information Management Architecture) verfügbar. Die Smart-Semantic-Komponenten können als Plug-Ins auf UIMA basierenden Technologien wie der IBM-Suchlösung "Omnifind" eingebunden werden. UIMA ist ein offener OASIS-Standard und auch als Open-Source-Implementierung auf Apache einsetzbar.

Smart Semantics holt Informationen aus unstrukturierten Daten

"Gerade kleine und mittelständische Unternehmen konnten in der Vergangenheit aus Zeit- und Kostengründen nicht oder nur unzureichend Informationen aus unstrukturierten Daten berücksichtigen", erklärt Andreas Schäfer, Business Development Manager am Fraunhofer-Institut IAIS. Mit Smart Semantics für UIMA wolle das Institut mit einem starken Technologie-Partner wie IBM diese Herausforderung angehen.

Ab Herbst 2009 stehen drei Smart-Semantic-Komponenten zur Verfügung. Der "Site-Classifier" erlaubt die maschinelle Klassifikation ganzer Dokumente wie etwa Web-Seiten. Der "Named-Entity-Recognizer" identifiziert benannte Entitäten wie Personen, Organisationen, Orte und ermöglicht dadurch die Filterung von Dokumenten nach bestimmten Vorgaben. Der "Keyword-Extractor" ist eine Komponente, die statistisch signifikante Wörter aus Dokumenten extrahiert und diese etwa für Wortvorschläge bei Suchanfragen oder als Zusatzinformationen in der Suchergebnisdarstellung bereitstellt. Weitere Komponenten seien bereits in Planung.