Document Parsing

Texte extrahieren in der Public Cloud

14.12.2021
Von 
Martin Heller schreibt als freier Autor für die Schwesterpublikation InfoWorld.
Amazon Textract, Azure Form Recognizer und Google Document AI sind Tools für das Document Parsing. Sie helfen, Informationen aus diversen Dokumentformaten zu extrahieren.
AWS, Microsoft Azure und Google Cloud bieten jeweils Lösungen an, um Rechnungen, Visitenkarten, Akten oder sonstige Dokumente gezielt auszulesen beziehungsweise Informationen für die Weiterverarbeitung zu extrahieren.
AWS, Microsoft Azure und Google Cloud bieten jeweils Lösungen an, um Rechnungen, Visitenkarten, Akten oder sonstige Dokumente gezielt auszulesen beziehungsweise Informationen für die Weiterverarbeitung zu extrahieren.
Foto: sophiecat - shutterstock.com

Seit Tausenden von Jahren werden Informationen schriftlich festgehalten: in vielen Schriften und auf unterschiedlichsten Medien. Ton-, Stein- und Wachstafeln, Papyrus, Pergament und Papier sind die Vorläufer der digitalen Medien. Unter dem Druck, schnell von Papier auf digitale Medien umzusteigen, haben wir uns selbst darin übertroffen, Papier einzuscannen und als PDF-Dokumente abzulegen. Der Nachteil ist, dass hier im Wesentlichen unstrukturierte Daten zugrunde liegen.

Was Unternehmen zum Rationalisieren ihrer Prozesse aber benötigen, sind strukturierte Daten. Doch der Übergang von unstrukturierten zu strukturierten Dokumenten ist zeitaufwändig und beschäftigt immer noch die meisten Betriebe. Es gibt jede Menge Produkte und Dienstleistungen rund um optische Zeichenerkennung (OCR) und Text Mining, ohne dass es einen dominierenden Anbieter in diesem Bereich gäbe. Zirka 80 bis 90 Prozent der heute vorhandenen Daten liegen unstrukturiert vor, das Volumen wird schon bald in Hunderte von Zettabytes gehen (ein Zettabyte entspricht einer Milliarde Terabyte).

Document Parsing - das gehört dazu

  • das Segmentieren jeder einzelnen Seite,

  • die Anwendung von OCR (häufig unter Verwendung eines Convolutional Neural Networks),

  • die Identifizierung des Layouts,

  • die Extraktion des gewünschten Textes und

  • die Umwandlung von Ziffern in numerische Werte.

Einige Dienste gehen auch weiter, indem sie Entitäten extrahieren und zum Beispiel aus ausgewählten Textfeldern - etwa Kommentaren oder Bewertungen - auf die zugrundeliegende Stimmung schließen (Sentiment-Analyse).

In diesem Beitrag konzentrieren wir uns auf die Parsing- und Segmentierungs-Dienste für Dokumente, die von den drei großen Public-Cloud-Anbietern Amazon Web Services (AWS), Microsoft Azure und Google Cloud angeboten werden. Zu den Anwendungsfällen, die diese Services unterstützen, gehört das Extrahieren von Text und getaggten Werten aus Kredit- und Beschaffungsdokumenten, Verträgen, Führerscheinen und Pässen.

Das können die Parsing-Tools von AWS

AWS bietet vier Dienste an: Amazon Textract implementiert die Textextraktion aus JPEG-, PNG-, TIFF- und PDF-Dateien in Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch. Für die Sprachverarbeitung ist Amazon Comprehend zuständig und Amazon Augmented AI (A2I) unterstützt die Überprüfung von Machine-Learning-Ergebnissen durch Menschen. Die Amazon Document Understanding Solution nutzt die genannten Services, um eine End-to-End-Dokumentenanalyse zu implementieren. Aber der Reihe nach:

Mit Amazon Textract lassen sich automatisiert gedruckte oder handschriftliche Texte sowie bestimmte Daten aus Dokumenten extrahieren. Die Lösung stellt dazu drei APIs zur Verfügung:

  • eine Texterkennungs-API, die OCR-Technologie verwendet, um bestimmte Texte oder handschriftliche Passagen aus einem bereitgestellten Dokument herauszuziehen,

  • die API für Dokumentenanalyse, die für Formulare und Tabellen nutzbar ist und

  • die Analyze Expense API, die Daten aus Rechnungen und Quittungen extrahiert.Amazon Textract wird nach dem Pay-as-you-go-Prinzip abgerechnet und unterstützt das AWS Free Tier für neue Konten.

Zu den Vorzügen von Amazon Textract gehört die relativ schnelle und genaue Datenextraktion. Die Dokumentenverarbeitung ist mit 1,50 Dollar pro 1.000 Seiten nicht sehr teuer und, weil die Machine-Learning-Modelle vortrainiert sind, gibt es keinen Pflegeaufwand für Code oder Templates. Mit A2I lassen sich unterstützende Reviews durch Menschen einfach umsetzen und auch die Skalierbarkeit der Dokumentenanalyse überzeugt. Weitere Features sind die Extraktion von Schlüssel-Wert-Paaren und Tabellen, das Erkennen von Handschriften, das Verarbeiten von Rechnungen und Quittungen, die Extraktion von Bounding-Boxes und - für die menschliche Überprüfung - das Bewerten der Vertrauenswürdigkeit von Ergebnissen anhand einstellbarer Schwellenwerte.

An seine Grenzen stößt Textract, wo Dateitypen und -größen nicht mehr unterstützt oder Limitierungen in Bezug auf Seitenanzahl und Textausrichtung erreicht werden. Zudem werden PDF-Dateien nur von asynchronen Operationen unterstützt, während sowohl synchrone als auch asynchrone Operationen mit JPEG-, PNG- und TIFF-Dateien zurechtkommen. Textract kann nicht mit einer vertikalen Textausrichtung innerhalb des Dokuments umgehen, wohl aber mit allen Dokumentendrehungen innerhalb der Ebene.

Zu den Use Cases für Textract gehören das Erstellen von Suchindizes für Dokumentenbibliotheken, die intelligente Textextraktion für die anschließende Verarbeitung natürlicher Sprache, die Extraktion von Text aus heterogenen Dokumenten für Recherche und Due Diligence sowie die Extraktion von strukturiertem Text aus Formularen zur Beschleunigung von Arbeitsabläufen (intelligente Automatisierung).

Amazon Comprehend ist ein Service für Natural Language Processing (NLP). Er nutzt maschinelles Lernen, um Erkenntnisse und Zusammenhänge in Texten aufzuspüren. Comprehend bietet unter anderem APIs für das Extrahieren von Keywords, Sentiment-Analyse, Entity-Erkennung, Themenmodellierung und Spracherkennung. Der Output des Textract-Dienstes wird üblicherweise zur Analyse an Comprehend weitergesandt. Comprehend benötigt Textdokumente in der UTF-8-Zeichenkodierung.

Amazon Augmented AI (A2I) implementiert auf einfache Weise den Prozess der Überprüfung von Machine-Learning-(ML-)Ergebnissen durch den Menschen. Im Wesentlichen nimmt A2I dafür das Eingabedokument und den extrahierten Text und generiert eine Schnittstelle, die der menschliche Prüfer zur Korrektur der Ausgabe verwenden kann. A2I übernimmt dabei die Entscheidung, wie oft Formulare auf der Grundlage von Prozentangaben oder eines festgelegten Vertraulichkeitsniveaus stichprobenhaft von Menschen überprüft werden. Nutzer können eine AWS Lambda-Funktion schreiben, um diesen Workflow zu steuern.

Die Amazon Document Understanding Solution schließlich ist eine trainierbare End-to-End-Lösung zur Dokumentenanalyse, die Amazon Textract, Amazon Comprehend und Amazon Augmented AI einbezieht. Dieser Dienst kann in verschiedenen Varianten je nach Anwendungszweck bereitgestellt werden, zum Beispiel als Website für die Unternehmenssuche, als Service für die Dokumentendigitalisierung oder als Dienst, um in Massendokumenten Passagen unlesbar zu machen.

Das können die Parsing-Tools von Microsoft Azure

Microsofts Azure Formularerkennung (Azure Form Recognizer) wendet Advanced Machine Learning an, um Texte, Schlüssel-Wert-Paare, Tabellen und Strukturen aus Dokumenten zu extrahieren. Anhand von Beispielen können Anwender die Formularerkennung an den eigenen Dokumentenbestand anpassen - sowohl on Premises als auch in der Cloud.

Microsoft Research beschäftigt sich seit Jahren mit KI im Dokumenten-Management. 2019 veröffentlichte das Unternehmen zwei Benchmark-Datensätze für das automatisierte Erkennen von Tabellen und Seitenobjekten, zwei weitere für die Erkennung der korrekten Lesereihenfolge und das Verstehen mehrsprachiger Formulare kamen kürzlich dazu. Außerdem wurden drei multimodale Pre-Training-Frameworks veröffentlicht, die für Microsoft-eigene und fremde Produkte und Anwendungen in Azure KI verfügbar sind.

Derzeit sind zwei Versionen der Azure Formularerkennung verfügbar, v2.1 (GA) und v3.0 (als Preview). Form Recognizer v2.1 unterstützt die Modelle Rechnung, Quittung, Ausweisdokument und Visitenkarte. Form Recognizer v3.0 fügt ein allgemeines Dokumentenmodell hinzu, außerdem ein Layoutmodell, Form Recognizer Studio und zusätzliche Funktionen für Quittungen, ID-Dokumente und benutzerdefinierte Modelle.

Zu den unterstützten Dateiformaten gehören JPEG, PNG, BMP, TIFF und PDF, wobei PDFs mit eingebettetem Text besser als gescannte PDFs geeignet sind, um Fehler beim Extrahieren und Lokalisieren von Buchstaben auszuschließen. Die Formularerkennung unterstützt sieben natürliche Sprachen in Handschrift und etwa 100 gedruckte natürliche Sprachen für Layout- und benutzerdefinierte Modelle sowie Englisch für andere Modelle. Die APIs unterstützen bis zu sieben Programmiersprachen-SDKs.

Als Preview liegt zudem die Studio-Version der Azure Formularerkennung vor, ein Online-Tool zum visuellen Erforschen und Verstehen der Lösung und zum Integrieren von Funktionen des Services in eigene Anwendungen. Die Studio-Version soll also das Erlernen des Service und seine Integration in die Formularverarbeitung einfacher machen.

Mit der Schnellstartfunktion von Form Recognizer Studio können Anwender gleich mit vortrainierten Modellen in die Analyse von Dokumenten einsteigen. Ebenso können sie benutzerdefinierte Formularmodelle erstellen und in ihren Anwendungsumgebungen ausprobieren. Dafür stehen eine Python-SDK-Preview und andere Quickstart-Möglichkeiten bereit. Darüber hinaus hilft die Studioversion der Formularerkennung Anwendern mit Layoutmodellen und Labeln.

Mit dem allgemeinen Dokumentenmodell (verfügbar in der Preview-API v3.0) kombiniert Microsoft zudem OCR-Funktionen mit Deep-Learning-Modellen für das Extrahieren von Schlüssel-Wert-Paaren und Entitäten aus Dokumenten. Der Dienst unterstützt strukturierte, halbstrukturierte und unstrukturierte Daten. Microsoft plant, das allgemeine Dokumentenmodell regelmäßig an neuen Daten zu trainieren, um seine Abdeckung und Genauigkeit zu verbessern. Ziel ist es, dass Anwender für viele gängige Formulare keine eigenen Modelle mehr erstellen müssen. So hofft das Unternehmen, seinen Formularerkenner wettbewerbsfähiger gegenüber Google Document AI und Amazon Textract machen zu können.

Die Layout-API der Azure-Formularerkennung extrahiert Text, Tabellen, Auswahlmarkierungen und Strukturinformationen aus Dokumenten (PDF, TIFF) und Bildern (JPG, PNG, BMP). Das Layout-Modell kombiniert dazu erweiterte OCR-Funktionen mit Deep-Learning-Modellen. Es erkennt Tabellen mit wenigen Einschränkungen und erlaubt verschmolzene Zellen, umrandete und randlose Layouts sowie ungerade Winkel. Das API erkennt Überschriften und Auswahlmarkierungen wie etwa Kontrollkästchen und kann mehrere Farben verarbeiten. Anwender können eine Lesereihenfolge festlegen, die mehrspaltige Layouts in lateinischen Sprachen verarbeiten kann. Das Modell kann handgeschriebene Sprachen lesen, und Nutzer können angeben, welche Seiten für die Textextraktion verwendet werden sollen.

Zudem bietet Microsoft APIs für spezifische Aufgaben der Formularerkennung. Das Modell für Rechnungen etwa dient dazu, bestimmte Felder aus Rechnungen zu analysieren und auszulesen. Angaben wie Händlername, Telefonnummer, Transaktionsdatum, Steuernummer oder Transaktionssumme werden dabei erkannt. Die bearbeiteten Quittungen können verschiedene Formate und Qualitätsniveaus haben, egal ob es sich um gedruckte oder handgeschriebene Quittungen handelt.

US-Führerscheine und internationale Reisepässe lassen sich mit dem ID-Dokumentmodell bearbeiten. Die API analysiert die Identitätsdokumente und extrahiert Schlüsselinformationen wie Vorname, Nachname, Adresse und Geburtsdatum. Auch für das Auslesen von Visitenkarten gibt es eine API, die Schlüsselinformationen wie Vor- und Nachname, Firma, E-Mail-Adresse und Telefonnummer extrahiert und eine strukturierte JSON-Datendarstellung zurückgibt.

Mit seiner Azure-Formularerkennung unterstützt Microsoft auch benutzerdefinierte Modelle, mit denen Anwender individuell Daten aus Formularen und Dokumenten auslesen können. Zudem lassen sich zusammengesetzte Modelle (Composed Models) erstellen, indem mehrere benutzerdefinierte Modelle zu einem verdichtet werden, das alle Formulartypen des Anwenders umfasst. Wird dann ein Dokument an ein zusammengesetztes Modell übermittelt, führt der Dienst eine Klassifizierung durch, um zu entscheiden, welches benutzerdefinierte Modell das zur Analyse vorgelegte Formular genau darstellt.

Die benutzerdefinierten Modelle der Azure-Formularerkennung können mit nur sechs Exemplaren jedes Formulartyps trainiert werden, was das Vorbereiten von Modellen für gängige Formulare, wie zum Beispiel für die Steuererklärung, erheblich vereinfacht. Benutzerdefinierte Modelle können auch erkennen, ob Unterschriften vorhanden sind, allerdings können sie die Unterschriften nicht auf ihre Gültigkeit überprüfen.

Document Parsing mit Google Cloud Document AI

Document AI (DocAI) ist der Formularerkennungs-Dienst in der Google Cloud. Es umfasst allgemeine Modelle sowie branchenspezifische Modelle für Verträge, Kreditvergabe, Beschaffung, Führerscheine, Pässe und Personalausweise. Doc AI unterstützt auch Human-in-the-Loop-Workflows (HITL), um für eine höhere Genauigkeit bei Bedarf menschliche Betrachter einzubinden. DocAI ist seit April 2021 allgemein verfügbar, obwohl die meisten Dienste derzeit nur begrenzt zugänglich sind.

Hinter DocAI stecken Googles langjährig bekannten Technologien für Maschinelles Sehen (einschließlich OCR) und Natural Language Processing (NLP), mit denen sich vortrainierte Modelle für Dokumente mit hohem Volumen erstellen lassen. DocAI hat bereits mehrere Milliarden Seiten aus den Bereichen Kreditvergabe, Versicherung, Behörden und anderen Branchen verarbeitet.

DocAI bietet eine einheitliche Konsole beziehungsweise Plattform für die Dokumentverarbeitung, über die Anwender auf eine Vielzahl von Parsern und Tools zugreifen können. Herstellerangaben zufolge lassen sich damit die Dokumentenverwaltung automatisieren und validieren sowie Workflows optimieren, wobei Daten fehlerfrei und konform den Regularien bleiben sollen.

Für einen möglichst perfekten Service bringt Google auch seine Suche ins Spiel: Mit dem Google Knowledge Graph können Anwender die geparsten Informationen validieren und anreichern, indem sie Firmennamen, Adressen, Telefonnummern und andere Details mit Entitäten im Internet abgleichen. (hv)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.com.