Aus PDF-Texten wird Unicode

08.07.2005

Die Münchner PDFlib GmbH hat die zweite Version des "Text Extraction Toolkit" (TET) herausgegeben, mit dem sich PDF-Dokumente als Unicode extrahieren lassen. Es wandelt nicht nur den Text um, sondern liefert auch Informationen über Fonts, einzelne Zeichen und Inhalte. TET ist eine Entwicklersoftware und kann als Komponente anderer Programme oder als Kommandozeilen-Tool eingesetzt werden. (ls)