Extraktion von Metadaten

26.07.2007

Die National Library of New Zealand hat ein Open-Source-Werkzeug freigegeben, mit dem sich Metainformationen aus einer Reihe von Dateitypen auslesen lassen. Das "Metadata Extraction Tool" kann beschreibende Informationen sowohl aus diversen Dokumentformaten als auch aus Grafiken oder Sound-Dateien auslesen. Bei diesen Metadaten handelt es sich zumeist um Angaben zum Autor, Urheberrecht, Entstehungsdatum oder um Schlagwörter. Das Tool der Neuseeländischen Nationalbibliothek unterstützt unter anderem MS-Office-Dokumente, PDF, MP3, WAV und HTML.

Der ursprüngliche Zweck der Software bestand darin, archivierungswürdige Metainformationen auszulesen und in einem XML-Format zu speichern. Es lässt sich aber überall dort einsetzen, wo derartige Daten in großen Mengen, etwa auch in der Batch-Verarbeitung, extrahiert werden müssen. Das gilt zum Beispiel für Dokumenten-Management-Projekte.

Die Software ist in Java geschrieben und läuft unter Windows und Unix. Für das Microsoft-System steht eine grafische Benutzerführung zur Verfügung, für Unix ein Kommandozeilen-Tool. (ws)