Semantische Videoanalyse

Effizientes Suchen mit künstlicher Intelligenz

Christoph Meinel (Univ.-Prof., Dr. sc. nat., Dr. rer. nat., *1954) ist CEO und Wissenschaftlicher Direktor des Hasso-Plattner-Instituts für Softwaresystemtechnik GmbH (HPI). Außerdem ist er ordentlicher Professor (C4) für Informatik am HPI und an der Universität Potsdam und hat einen Lehrstuhl für „Internet-Technologien und -Systeme“ inne. Seine Forschungsschwerpunkte liegen in den Bereichen Security Engineering, Knowledge Engineering und Web 3.0 sowie Semantic, Social, Servcie-Web und Design Thinking. Christoph Meinel ist Mitglied der Deutschen Akademie der Technikwissenschaften acatech, Gastprofessor an der TU Peking und in zahlreichen wissenschaftlichen Gremien und Aufsichtsräten tätig.
Auf Youtube werden täglich pro Minute Videos mit einer Gesamtlaufzeit von circa 300 Stunden hochgeladen. Für das Auffinden von bestimmten Filmchen hat das Hasso-Plattner-Institut verschiedene Mechanismen entwickelt, die sogar Texterkennung in Videos unterstützen.

In den letzten zehn Jahren sind digitale Bibliotheken und Internet-Video-Portale immer populärer geworden. Die automatische Aufzeichnung und Bereitstellung im World Wide Web (WWW) führten ex­trem schnell zu großen multimedialen Datenmengen.

Laut des offiziellen Statistikberichts des populären Video-Portals YouTube, werden täglich - allein auf YouTube - Videos mit einer Gesamtdauer von mehreren 100 Millionen Stunden wiedergegeben, Milliarden Aufrufe generiert und circa 300 Stunden Video pro Minute hochgeladen.

Deshalb ist die Entwicklung von effizienten Suchmechanismen in Videodaten über das Internet oder innerhalb eines großen Video-Archivs heute eine der wichtigsten Herausforderungen für die Informatikforschung.

Intelligentes Suchen durch Deep Learning

Deep Learning (DL) ist eine revolutionäre Technologie im maschinellen Lernen. DL ist die Wiederbelebung der Technik der neuronalen Netze. Die hier entwickelten und untersuchten maschinellen Lernverfahren orientieren sich grob an der Arbeitsweise des Gehirns und simulieren dazu ein dicht verwobenes Netz aus einfachen Nervenzellen.

Ein hierarchisches neuronales Netz mit mehr als zwei intermediären Schichten nennt man "Deep Neuronal Net". Mit Hilfe enormer Datenmengen und massiver Rechenpower hat "Deep Neuronal Net" erhebliche Fortschritte im Forschungsumfeld der Künstlichen Intelligenz erzielt und wurde auch schon in einer Reihe innovativer IT Produkte eingesetzt, zum Beispiel hat Google mit auf DL basierender Spracherkennungstechnik sein Android-Betriebssystem ausgestattet, wodurch die Fehlerquote um 25 Prozent reduziert werden konnte.

Dieses Potential inspiriert auch die Anwendung von Deep Learning Techniken in der aktuellen Forschungsarbeit der Multimedia Analyse Gruppe am Hasso-Plattner-Institut, z.B. bei der automatischen Texterkennung aus multimedialen Daten (Videos und Alltagsszenen).

DL-Technologien können Maschinen befähigen, in Videos oder Bildern Textinhalte zu erkennen und zu "verstehen". Damit wird eine wertvolle Quelle für die automatische Videoindizierung, also die Beschreibung von Videoszenen durch Metadaten, erschlossen, die die Grundlage für die inhaltsbasierte Suche in Video-Portalen und digitalen Video-Bibliotheken bildet.

Texterkennung in Videos

Texterkennung (in der Fachsprache OCR - Optical Character Recognition) in Videos stellt gegenüber der heute gut etablierten Print OCR eine große Forschungsherausforderung dar. Während in der Print OCR hochauflösend eingescannte Druckwerke in sehr guter Qualität vorliegen, müssen in der Video OCR zunächst zahlreiche aufwändige Vorverarbeitungsschritte durchgeführt werden.

So muss in der Video OCR z.B. zwischen nachträglich in das Videobild eingebrachtem Text (z.B. Untertitel) und bei der Videoaufnahme aufgenommenem Text (Szenentext) unterschieden werden. Da Video ein zeitabhängiges Medium ist, kann sich die Position eines Textes, ebenso wie eventuelle Verdeckungen und Abschattungen, über die Zeit verändern. Auch ist der Kontrast im Video geringer und Szenentext kann beliebig im Raum stehen und dadurch geometrisch verzerrt vorliegen.

Auch verursachen schnelle Bewegungen Bewegungsunschärfe im aufgenommenen Text. Insbesondere Videos im Internet liegen oft nur in niedrig aufgelöstem Bildformat und hochkomprimiert vor. Dadurch entstehen Kompressionsartefakte, die die Qualität der im Video abgebildeten Schrift stark beeinträchtigen und so die Texterkennung behindern. All diese Probleme müssen bei der Video OCR im Rahmen der Vorverarbeitung berücksichtigt werden.

Reaktionszeiten wie bei einem Menschen

In unserer Forschungsarbeit haben wir "Convolutional Neural Networks" (CNN) für die Textklassifizierung verwendet. Dazu mussten ein paar Million Bildern vorgegeben untersucht werden, um das CNN zu trainieren. Neben einer im Vergleich zu anderen Ansätzen höheren Genauigkeit ist unser Video OCR System echtzeitfähig. Die Reaktionszeit des Systems ist vergleichbar mit der des Menschen, d.h. das System kann auch in interaktiven Anwendungsszenarios eingesetzt werden, wie z.B. persönliche ID-Erkennung in Echtzeit über eine Webcam.

Neben der Texterkennung werden weitere Forschungsthemen in unserer Gruppe bearbeitet, wie z.B. die automatisierte Videoklassifikation, Multimodal Multimedia Indexierung und semantische Video-Aktivitätserkennung.

Eine starke Motivation für diese Anstrengungen in der Forschung sind die zahlreichen Anwendungsmöglichkeiten der erzielten Ergebnisse. So befördern die Forschungsergebnisse den Bau von inhaltsbasierten Video-Suchmaschinen, ermöglichen Texterkennung für Fahr-Assistent-Systeme oder andere Robotic Systeme, die Violence Detection in Überwachungsvideos, Commercial Detection in multimedialen Daten oder die automatisierte Kategorisierung von Videos, den Einbau von Werbe-Empfehlungen in Video-Portale und vieles anderes mehr.