Show and Tell hilft beim Erstellen von Bildunterschriften

Google stellt Image-Captioning-Modell in TensorFlow Open Source
Kommentare

Das Google-Team rund um das Machine-Learning-System TensorFlow hat einen weiteren Bestandteil seiner Bilderkennungssoftware Open Source gestellt: das Image-Capturing-Modell Show and Tell.

Das Deep-Learning-Modell Inception v3 ist aus dem Bereich der Bilderkennung bekannt, in dem es bereits erstaunliche Resultate lieferte: So kann das Modell etwa ein Bild aus 1.000 verschiedenen Kategorien erkennen und klassifizieren. Die Fehlerquote kommt dabei der menschlicher Leistung gleich.

Jetzt wird das Modell darauf trainiert, die passende Bildunterschrift zu liefern und wird im Image-Captioning-System Show and Tell eingesetzt. Damit steht nun ein weiterer Teil von TensorFlow Open Source.

Image Captioning mit Show and Tell

Forscher des Google Brain Teams arbeiten bereits seit 2014 an einem Machine-Learning-System, das automatisch Legenden liefert, die das Bild genau beschreiben. Durch stetige Weiterentwicklung konnte das System bei der Microsoft COCO 2015 Image Captioning Challenge den ersten Platz belegen. Jetzt wurde das Image-Captioning-Modell Show and Tell veröffentlicht, das die Computervisionskomponente deutlich verbessert, schneller zu trainieren sein soll und zudem wesentlich genauere Beschreibungen im Vergleich zum Ursprungsmodell liefert.

Quelle: https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

Automatisch von Show and Tell generierte Bildunterschrift, Quelle: https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

Show and Tell erreicht dank Inception v3 eine Genauigkeit von 93,9 Prozent. Das Image-Captioning-System erreicht dank des neuen Visionsmodells ein besseres Verständnis der abgebildeten Objekte und kann so detailliertere und genauere Beschreibungen anfertigen.

Eine weitere Verbesserung konnte durch das Feintuning des Image-Modells erreicht werden: Das Inception-v3-Modell ist darauf ausgelegt, Objekte in Bildern zu klassifizieren, während das Ziel eines Captioning-Systems das Beschreiben der Objekte ist. Um Show and Tell daraufhin zu optimieren, wurden seine „Vision“ und das Sprachverständnis über von Menschen erstellte Bildunterschriften trainiert. So kann das System einen vollständigen beschreibenden Satz erstellen und nicht nur benennen, was es im Bild erkennt:

https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

Kombination von Vision- & Language-Framework, Quelle: https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

Show and Tell kann nicht nur Bildbeschreibungen reproduzieren, sondern auch eigenständig neue entwickeln. Werden dem System unbekannte Szenarien präsentiert, ist es in der Lage, die Objekte und die Situation zu erfassen und in natürlich klingenden Sätzen wiederzugeben.

https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

Selbstständig kreierte Bildunterschrift, Quelle: https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

Ein weiterer Vorteil des neuen Systems ist, dass es viel schneller trainiert werden kann – vor allem viel schneller als ältere Systeme wie etwa DistBelief. Die TensorFlow-Implementation erreicht denselben Grad an Genauigkeit in wesentlich schnellerem Tempo: die Zeit pro Trainingsschritt auf einer Nvidia-K20-GPU beträgt nur 0,7 Sekunden, während DistBelief drei Sekunden benötigt. Somit beträgt die Gesamttrainingszeit nur 25 Prozent der vorher benötigten Zeit.

Wer direkt mit Show and Tell loslegen möchte, findet im Google-Research-Blog weitere Informationen sowie detaillierte Anleitungen. Noch mehr Infos bietet die Modell-Homepage.

Was ist TensorFlow?

Das Machine-Learning-System TensorFlow basiert in Teilen auf der Deep-Learning-Infrastruktur DistBelief, wurde an vielen Stellen aber mit umfangreichen Verbesserungen – insbesondere, was die Geschwindigkeit angeht – versehen. TensorFlow zeichnet sich durch seine Flexibilität, leichte Bedienbarkeit und Skalierbarkeit aus. Google selbst nutzt TensorFlow unter anderem für die Spracherkennung in der Google-App, das Smart-Reply-Feature in Inbox oder die Bildersuche in Google Photos.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -