Microsoft-Research-Team und Carnegie Mellon Universität arbeiten an gemeinsamem Projekt

Neues Machine-Learning-System beantwortet Fragen zu Bildern wie ein Mensch
Kommentare

Das Microsoft-Research-Team arbeitet an einem neuen System, das dazu in der Lage sein soll, Bilder zu analysieren und Fragen dazu auf die gleiche Weise zu beantworten, wie ein Mensch.

Beim Microsoft-Research-Team drehen sich alle Projekte rund um maschinelle Intelligenz. Da wären zum Beispiel Cortana, der digitale Sprachassistent von Microsoft und Project Oxford, ein KI-Cloud-Dienst, der unter anderem in der Lage ist das Alter und die Gefühlslage von Menschen auf Bildern zu erkennen. Aktuell arbeitet das Team an einem ganz ähnlichen Projekt: Einer Software, um Bilder noch tiefer zu analysieren und dabei beinahe an die Fähigkeiten von Menschen heranzukommen.

System soll Fragen zu Bildern beantworten können, wie ein Mensch

Wird ein Mensch nach Informationen zu einem Foto befragt, bezieht er in der Regel jede Menge Details mit ein und prüft ihre Relevanz dahingehend, eine passende Antwort auf die Frage zu finden – die unter Umständen auch sehr wortreich ausfallen kann. In Zusammenarbeit mit der Carnegie Mellon Universität will das Microsoft-Research-Team genau diese Fähigkeiten jetzt einem System einhauchen, das auf Computer-Vision-, Deep-Learning- und Language-Understanding-Technologien basiert.

Der bisherige Entwicklungsstand basiert auf einem früheren Projekt, bei dem es darum ging ein System zu entwickeln, das Bilder automatisch mit Bildunterschriften versieht. Hierbei war allerdings nur vorgesehen, dass das System einzelne Bildelemente erkennt und in der Lage ist, die dargestellten Szenen zu beschreiben. Damit kann das System allerdings noch nicht abschätzen, welche Informationen auf einem Bild für Menschen tatsächlich relevant sind. Nach Ansicht des Microsoft-Research-Teams war das Projekt allerdings ein wichtiger erster Schritt, um Maschinen dahingehend zu trainieren, Bilder auf menschenähnliche Weise zu verstehen.

Die neue Technologie geht noch einen Schritt weiter: Das System soll dazu in der Lage sein, Bilder zu analysieren und Fragen dazu auf die gleiche Weise zu beantworten, wie es auch ein Mensch tun würde. Es soll einzelne Elemente auf Fotos nicht nur erkennen, sondern sie auch in Beziehung zueinander stellen können.

Sollte das gelingen, könnte es sich um einen echten Durchbruch handeln, denn die Entwicklung entsprechender Artificial-Intelligence-Tools stellt bisher eine große Herausforderung dar.

Bilderbetrachtung mehrstufiger Prozess: „We’re using deep learning in different stages“

Entwickelt wurde das Modell von Xiadong He Li Deng und Jianfeng Gao – Researchers des Deep Learning Technology Centers von Microsoft Research – und Zichao Yang und Alex Smola von der Carnegie Mellon Universität. Besonderen Fokus legen sie bei ihrer Arbeit auf den mehrstufigen Prozess, den die Beantwortung von Fragen zu Bildern erfordert.

Nehmen wir beispielsweise das nachfolgende Bild: In Hinblick auf die Frage, was sich im Korb am Fahrrad befindet, nimmt man zunächst die erste Informationsebene wahr: man registriert also das Rad, den Korb, und was sich darin befindet. Auf zweiter Informationsebene wird dann der Korb näher betrachtet und analysiert, was genau sich darin befindet. Die Antwort: Hunde.

machine learning dog

© Microsoft

Deng zufolge fokussieren sich Menschen vor allem auf den Bereich auf Fotos, der benötigt wird, um die Frage dazu zu beantworten. Mithilfe neuronaler Netzwerktechnologie soll sich auch das System diese Fähigkeit aneignen, um wichtige von unwichtigen Informationen unterscheiden zu können. Das System soll Informationen aufnehmen, wie es menschliche Augen und das menschliche Gehirn tun würden: also das Geschehen auf dem Bild betrachten und eine Beziehung zwischen den verschiedenen visuellen Elementen herstellen. Deng kommentiert dazu:

We’re using deep learning in different stages: to extract visual information, to represent the meaning of the question in natural language, and to focus the attention onto narrower regions of the image in two separate steps in order to seek the precise answer.

Vor einigen Jahren wäre eine solche Technologie nach Ansicht von Deng noch nicht denkbar gewesen, jetzt mache man aber deutliche Fortschritte.

Anwendungsbeispiel

Die Technologie könnte in den verschiedensten Anwendungen zum Einsatz kommen, etwa in der Medizin, für fahrerlose Autos und Drohnen oder als Warnsystem für Radfahrer.

Stellt man sich beispielsweise in Rad vor, an dem eine Kamera montiert ist, die kontinuierlich Bilder von der Umgebung des Radfahrers macht, könnte das System seine Funktionen ausspielen, indem es sich selbst Fragen stellt wie: „Was befindet sich auf der linken Seite hinter mit“, oder „ Gibt es andere Räder, die mich von links überholen wollen?“. Die Antworten könnten dann automatisch übersetzt und dem Radfahrer via Sprachsynthesizer als Empfehlungen übermittelt werden – beispielsweise könnte das System vorschlagen, welche Richtung er bestenfalls einschlagen muss, um einen Crash mit einem anderen Radfahrer zu vermeiden.

Research Paper veröffentlicht

Einen tiefen Einblick in das Projekt und die dahinterstehende Technologie gibt das Team im Research Paper – ein Blick darauf lohnt sich für alle, die sich für Machine Learning und Natural Language Processing interessieren. Alle weiteren Details zum Projekt gibt es im Microsoft-Blog.

Aufmacherbild: Cybernetic Eye  von Shutterstock/ Urheberrecht: kentoh

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -