Web

Stanford und Google

Neue Software "erkennt", was auf Fotos zu sehen ist

18.11.2014
Von 
Thomas Cloer war Redakteur der Computerwoche.
Mit dem "Sehen" von Computern war es bis dato nicht wirklich weit her. Neue, von zwei Forscherteams unabhängig voneinander entwickelte Software könnte das nun ändern.

Die an der Stanford University und bei Google entwickelten Programme können einem Bericht der "New York Times" zufolge viel besser als jemals zuvor den Inhalt von Fotos und Videos erkennen und treffend beschreiben. Bis dato beschränkte sich die "Computer Vision" auf das Erkennen einzelner Objekte. Die neuen Algorithmen identifizieren hingegen ganze Szenen - zum Beispiel eine Gruppe junger Männer, die Frisbee spielen, oder eine Herde Elefanten auf ihrem Marsch durch die Savanne.

Mit solcher Software lassen sich möglicherweise die Milliarden Fotos und Stunden von Videomaterial im Netz besser katalogisieren (natürlich stellt sich auf der anderen Seite die Frage, was sie in Händen von NSA und Co anrichten mag). Suchmaschinen wie Google sind dabei bislang primär auf schriftliche Metadaten wie Tags und Beschreibungen angewiesen. "Die Pixeldaten in Bildern und Videos sind für mich die 'dunkle Materie' des Internets", sagt Fei-Fei Li, Direktor des Artificial Intelligence Laboratory in Stanford, der die dortige Forschung gemeinsam mit dem Nachwuchswissenschaftler Andrej Karpathy betrieben hatte. "Wir fangen jetzt an, sie zu erhellen."

Professor Li und Karpathy haben ihre Ergebnisse in einem technischen Report der Uni Stanford publiziert; das Google-Team hat sein Paper auf der Open-Source-Seite arXiv.org der Cornell University veröffentlicht. Eine allgemeinverständlichere Kurzfassung gibt es im Google Research Blog.