Machine-Learning

NeuralTalk: Programm beschreibt Bild wie ein Mensch
Kommentare

Die Stanford University hat mit NeuralTalk ein Programm entwickelt, das den Inhalt eines Bildes ähnlich wie ein Mensch mit Worten zusammenfasst. Manche Beschreibungen erinnern noch an die eines Kindes, doch das Programm lernt dazu. Big Data könnte zukünftig auch durch Bilderkennungsprogramme verwaltet werden.

Google hat es mit der Gesichtserkennung Deep Face und jüngst mit dem Kunstbildgenerator Deep Dream vorgemacht; Facebook rückte mit der Weiterentwicklung der Personen- und Gegenstandserkennung nach. Nun hat auch die Stanford University im Silicon Valley mit NeuralTalk ein Maschine-Learning-Projekt vorgestellt, dass es mit den Bilderkennungs-Algorithmen der führenden Tech-Unternehmen aufnehmen kann. Das Programm ist in der Lage, den Inhalt eines Bildes so mit Worten zu beschreiben, wie es auch ein Mensch oder zumindest ein Kind tun würde. Entscheidend ist hieran, dass nur der relevanteste Bildinhalt durch das Programm erfasst und durch einen Satz ausgedrückt wird. Ein Foto, das einen Surfer auf einer Welle zeigt, wird beispielsweise so durch das Programm wiedergegeben: „Mann im blauen Wetsuit surft auf einer Welle.“ Um die jeweilige Bild-Semantik zu erfassen, wurde das Programm zuvor regelrecht mit Bild-Informationen gefüttert – also mit Bildern, die jeweils die einzelnen Gegenstände aus verschiedenen Perspektiven und Abwandlungen zeigen. Aus den Ähnlichkeiten (Wahr-Falsch-Relationen) kann das Programm dann letztlich nach dem Ausschlussverfahren erfassen, was zu sehen ist. Erkennt es beispielsweise zunächst nur einen Menschen und eine Welle, so kann es schlussfolgern, dass es sich bei der Bekleidung zu einer gewissen Wahrscheinlichkeit nur um einen Wetsuit handeln kann und um ein Surfbrett, das den Menschen mit der Welle verbindet.

Beispielbilder, die Neutraltalk mit Worten beschrieben hat. Screenshot: http://cs.stanford.edu/people/karpathy/deepimagesent/

Beispielbilder, die NeuralTalk mit Worten beschrieben hat.
Screenshot: http://cs.stanford.edu/people/karpathy/deepimagesent/

NeuralTalk erkennt Relevanz und Aktion

Dass aus der Menge an Bildinformationen jedoch auch immer der richtige Schluss gezogen wird, ist noch nicht immer der Fall. So schlussfolgert das Programm mitunter tatsächlich noch wie ein Kind: Auf einem Foto, das ein Frettchen zeigt, das den Kopf auf eine Fernbedienung legt, sieht das Programm eine Katze – wie ein Kind zieht es mangels Erfahrung noch den falschen Schluss aus der Ähnlichkeit zu einer Katze. Doch auch das Programm lernt hinzu, je mehr Informationen es bekommt. Dass es ein zweites Mal ein Frettchen nicht erkennt, wird, je öfter es eines sieht, immer unwahrscheinlicher. Das Besondere von NeuralTalk ist nicht allein, dass es Gegenstände in einem Bild erkennt, sondern dass das Programm auch die Relevanz ermessen kann und aus einem ruhenden Bild die Tätigkeit einer Person oder eines Tieres versteht. Gemeint ist, dass nicht das Wasser im Mittelpunkt der Beschreibung steht und das Surfen als Tätigkeit erkannt wird, obwohl das Bild mehr Wasser als Surfer enthält und sich in einem ruhenden Zustand befindet. Der semantische Abgleich des Programms ist damit das Besondere.

Was können Bilderkennungsprogramme leisten?

In Zeiten von Big Data könnten Bilderkennungsprogramme künftig nicht nur dabei helfen, Informationen aus ökonomischer Sicht besser zu verschlagworten und zu kategorisieren, sondern auch Überwachungsmechanismen weiter zu automatisieren. Über bestimmte Bildinhalte könnten Programme so etwa über eine Plattform wie Twitter oder Facebook nicht jugendfreie, gewalttätige und anderweitig nicht erwünschte Inhalte schneller erkennen und verbannen. Video-Inhalte sind dabei der nächste logische Schritt. Die Informationslage an Bildern und Videos ist im Netz unüberschaubar groß – für einzelne Menschen zu groß, nicht aber für einen rechenleistungsstarken Computer mit dem nötigen Know-How.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -