Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Information Extraction

Information Extraction (IE) versucht, relevantes Wissen möglichst effizient aus einer Dokumentensammlung zu ziehen. Auf Basis von definierten Regeln analysieren IE Systeme Texte einer Dokumentsammlung und extrahieren spezifische Wörter bzw. Textteile. Dies ist besonders dann sinnvoll, wenn die Anzahl der Dokumente sehr hoch ist und die benötigten Informationen nicht mehr ?in Handarbeit? extrahiert werden können.

Unstrukturierte Texte werden durch IE in eine tabellarische Form überführt und in der Regel in einer Datenbank gespeichert. Die zu extrahierenden Elemente werden klar definiert und sind auf einen bestimmten Informationsbedarf hin ausgerichtet. Derartige Elemente können z.B. Name, Ortschaft, Datum für die Auffindung von Veranstaltungen oder Name, Telefonnummer, Adresse für die Sammlung von Adressen sein.

Doch ohne Vorarbeit geht es auch bei der automatischen Wissensextraktion nicht. So ist ein relativ hoher Vorverarbeitungsaufwand erforderlich, um die gewünschten Daten bzw. Textteile zu beschreiben. Meist erfolgt dies durch die Erstellung von formalen Regeln. Eine weitere Möglichkeit ist, die gewünschten Wörter bzw. Phrasen in einem ersten Schritt manuell auszuzeichnen. Anschließend werden daraus automatisch Regeln generiert, die auf weitere Dokumente angewendet werden können.