Was ist Computer Vision?

25.09.2021 von Martin Heller

Computer-Vision-Systeme können es längst mit dem menschlichen Auge aufnehmen. Das sollten Sie zum Thema wissen.

Die visuellen Fähigkeiten von Computersystemen verbessern sich immer weiter. Das müssen Sie über Computer Vision wissen.
Foto: adike - shutterstock.com

Autonomes Fahren, Virtual Reality und Augmented Reality sind nur einige der Anwendungsgebiete für Computer Vision.

Computer Vision - Definition

Computer Vision (dt.: computerbasiertes Sehen) bezeichnet Systeme, die Objekte in digitalem Stand- und Bewegtbildmaterial erkennen und entsprechend verarbeiten. Das Feld der Computer Vision hat sich im Laufe der vergangenen zwanzig Jahre entscheidend weiterentwickelt: Heutige Computer-Vision-Systeme erreichen eine Genauigkeit von 99 Prozent und laufen inzwischen auch auf mobilen Devices.

Um die Bildverarbeitung durch den visuellen Kortex zu abstrahieren, setzen Forscher in Sachen Computer Vision insbesondere auf künstliche neurale Netze. Mit Yann LeCuns LeNet-5 (einem siebenstufigen Convolutional Neural Network, das handgeschriebene Zahlen in digitalisierten Bildern mit einer Auflösung von 32x32-Pixeln erkennt) gelang im Jahr 1998 der Durchbruch. Dieses Modell wurde zielstrebig erweitert: Heutige Image-Classification-Systeme erkennen ganze Objektkataloge in HD-Auflösung und in Farbe.

Neben neuralen Netzen setzen Experten in Sachen Computer Vision auch auf Hybrid-Vision-Modelle, die Deep Learning mit klassischen Machine-Learning-Algorithmen kombinieren.

Computer Vision - Trainingsdaten

Um Computer-Vision-Modelle zu trainieren, stehen diverse öffentliche Bilddatenbanken zur Verfügung:

MNIST ist eine der simpelsten und ältesten Datenbanken und enthält ca. 70.000 handgeschriebene Zahlen in zehn verschiedenen Klassen. Das MNIST-Datenset lässt sich ohne Probleme in ein Modell überführen - selbst mit einem Laptop ohne Hardwarebeschleunigung.
COCO bietet ein großes Datenset - beispielsweise zur Objekterkennung und Bildsegmentierung. Mehr als 330.000 Bilder in 80 Objektkategorien stehen zur Verfügung.
ImageNet enthält circa 1,5 Millionen Bilder inklusive Labels und Begrenzungsrahmen.
Open Images beherbergt die URLs zu circa neun Millionen Bildern - ebenfalls inklusive Labels.
Google, Azure und AWS haben jeweils eigene Computer-Vision-Modelle, die mit großen Datensets trainiert wurden. Diese können entweder direkt eingesetzt werden oder per Transfer Learning mit eigenen Bilddatensätzen trainiert werden. Das spart im Vergleich zum grundlegenden Neuaufbau eines Modells extrem viel Zeit.

Computer Vision - Use Cases

Computer Vision ist nicht perfekt, aber die Systeme sind genau genug, um in verschiedenen Branchen zum praktischen Einsatz zu kommen.

Automotive

Waymo - ehemals Googles Vorzeigeprojekt in Sachen autonomes Fahren - hat seine Fahrzeugsoftware nach eigener Aussage mit Daten aus sieben Millionen zurückgelegten Kilometern trainiert. Bisher ist mindestens ein Unfall eines Waymo-Vans bekannt, allerdings soll die Software dafür nicht ursächlich gewesen sein.

Die Tesla-Modelle bieten bekanntermaßen ebenfalls Möglichkeiten, sich autonom fortzubewegen und setzen dabei auf Computer Vision. Nach einem tödlichen Unfall wurde die Fahrzeugsoftware so angepasst, dass sich die Hände des Fahrers in jedem Fall auf dem Lenkrad befinden müssen.

Handel

Amazon setzt in seinen Go Stores auf Self-Service und Computer Vision: Das System erkennt, wenn ein Kunde Produkte aus dem Regal nimmt oder zurückstellt, identifiziert und abgerechnet werden die Einkäufe über eine Smartphone-App. Sollte der Amazon Go Software dabei ein Produkt entgehen, ist es für den Kunden kostenlos - für fälschlicherweise berechnete Produkte erhält er eine Gutschrift.

Healthcare

Auch im Gesundheitswesen kommt Computer Vision regelmäßig zum Einsatz, etwa wenn es um Röntgenaufnahmen und andere medizinische Bildsysteme geht.

Finanzsektor

Im Bankenwesen kommt Computer Vision beispielsweise zur Betrugserkennung oder der Authentifizierung von Dokumenten zum Einsatz.

Landwirtschaft

Geht es um Landwirtschaft 4.0, kommt Computer Vision ins Spiel - beispielsweise, wenn es um das Monitoring von Ackerflächen geht.

Kontroverse Einsatzzwecke

Auch Computer Vision wird zu kontroversen Zwecken zum Einsatz gebracht. Insbesondere Techniken zur Gesichtserkennung stehen (nicht nur) bei Autokratien hoch im Kurs. Auch Deepfakes und Trainings-Bias sind vielfach beschriebene Problemfelder.

Computer Vision - Frameworks & Modelle

Die meisten Deep Learning Frameworks bieten umfassenden Support für Computer Vision, zum Beispiel die Python-basierten Frameworks TensorFlow, PyTorch oder MXNet.

Der Videoanalyse-Service Amazon Rekognition kann Objekte, Menschen, Texte und Aktivitäten erkennen - auch Gesichter und Custom Labels.
Der vortrainierte Analyserservice Google Cloud Vision API ermöglicht die Detektion von Objekten und Gesichtern, liest gedruckten und geschriebenen Text und versieht Bilderkataloge mit Metadaten. Mit Google AutoML Vision können auch Custom Image Models trainiert werden.
Microsofts Computer Vision API kann ebenfalls Objekte erkennen. Die Azure Face API steht in der Cloud oder auch als Container-Lösung am Netzwerkrand zur Verfügung und kann neben Gesichtern auch Emotionen erkennen.
IBM Watson Visual Recognition klassifiziert Bilder auf Grundlage eines vortrainierten Modells und ermöglicht darüber hinaus Transfer Learning, Objekt-Detektion und -Zählung. Die IBM-Lösung läuft in der Cloud oder über iOS Devices mit Core ML.
MathWorks hat mit Matlab ebenfalls ein Analyse-Paket im Angebot, dass die Bilderkennung auf Grundlage von Machine und Deep Learning beherrscht.
Das Apple Vision Framework erkennt Gesichter, Text oder auch Barcodes. Zu Zwecken der Bild-Klassifizierung oder Objekterkennung können auch eigene CoreML-Modelle eingesetzt werden.

Computer-Vision-Modelle haben sich seit LeNet-5 rasant weiterentwickelt - die meisten dieser Modelle sind künstliche neurale Netze:

AlexNet (2012)
VGG16/OxfordNet (2014)
GoogLeNet/InceptionV1 (2014)
Resnet50 (2015)
InceptionV3 (2016)
MobileNet (2017/2018)

Computer Vision wird immer präziser und zuverlässiger und kann es bereits jetzt in vielen Fällen mit dem menschlichen visuellen Kortex aufnehmen. Durch die Weiterentwicklung von Frameworks und Modellen sowie die Möglichkeit des Transfer Learning braucht man inzwischen auch keinen Doktortitel mehr, um Computer Vision zum Einsatz zu bringen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.