Tool zur Extraktion von Metadaten wird Open Source

18.07.2007
Die National Library of New Zealand hat ein Werkzeug freigegeben, mit dem sich Metainformationen aus eine Reihe von Dateitypen auslesen lassen. Es soll besonders bei der Archivierung von Daten nützlich sein.

Das Metadata Extraction Tool kann beschreibende Informationen sowohl aus diversen Dokumentformaten als auch aus Grafiken oder Sound-Dateien auslesen. Bei diesen Metadaten handelt es sich zumeist um Angaben zum Autor, Urheberrecht, Entstehungsdatum oder um Schlagwörter. Einige Grafikformate wie JPEG oder PNG sind ebenfalls in der Lage, beschreibende Informationen aufzunehmen, beispielsweise auch vollständige Bildunterschriften. Das Tool der Neuseeländischen Nationalbibliothek unterstützt unter anderem MS-Office-Dokumente, PDF, MP3, WAV und HTML.

Der ursprüngliche Zweck des Tools bestand darin, archivierungswürdige Metainformationen auszulesen und in einem XML-Format zu speichern. Es lässt sich aber überall dort einsetzen, wo derartige Daten in großen Mengen, etwa auch in Batch-Verarbeitung, extrahiert werden müssen. Das gilt etwa für Dokumenten-Management-Projekte.

Die Software ist in Java geschrieben und läuft unter Windows und Unix. Für das Microsoft-System steht eine grafische Benutzerführung zur Verfügung, für Unix ein Kommandozeilen-Tool. (ws)