Außerdem: Googles DeepMind lernt Lippen lesen

KI: Google stellt Übersetzungserweiterung für GNMT vor
Keine Kommentare

Im September stellte Google sein Google-Neural-Machine-Translation-System (GNMT) vor, das dank künstlicher Intelligenz wesentlich akkurater als der Vorläufer Google Translate ist. Während die Übersetzungsqualität immens anstieg, war das Übertragen dieser Resultate auf alle 103 unterstützten Sprachen eine ziemliche Herausforderung. Mit der Methode „Zero-Shot Translation“ soll GNMT nun in der Lage sein, von einer Sprache in eine andere zu übersetzen – ohne dass die entsprechenden Sprachpaare zuvor vom System einander zugeordnet wurden.

Das bereits im September vorgestellte Google-Neural-Machine-Translation-System soll um bis zu 85 Prozent genauer sein als das bekannte Google Translate. Das neue Tool nutzt dafür neurale Netzwerke, die nicht nur Google Translate weit hinter sich lassen, sondern sogar fast die Trefferquote menschlicher Übersetzer erreichen.

GNMT wurde zuerst darauf trainiert, Übersetzungen vom Chinesischen ins Englische anzufertigen. Dafür schaut es sich den Satz als Ganzes an und behält dabei die einzelnen Bestandteile wie Wörter und Phrasen im Blick. Dank Machine Learning konnte so eine erhebliche Reduktion des Berechnungsaufwands für die Verarbeitung solcher Übersetzungsaufgaben sowie eine Verkürzung der Rechenzeit erreicht werden.

Maschinelles Übersetzen per Zero-Shot

Jetzt hat Google eine Erweiterung seines Google-Neural-Machine-Translation-Systems vorgestellt, die eine Anwendung von GNMT auf weitere Sprachpaare möglich macht. Dank Zero-Shot Translation soll ein einzelnes System Übersetzungen von einer Sprache in viele andere anfertigen können. Dafür wird die Architektur von GNMT nicht verändert, sondern vielmehr ein zusätzlicher Token am Anfang der Satzeingabe genutzt, um die geforderte Zielsprache zu spezifizieren.

Hierdurch wird nicht nur erneut die Übersetzungsqualität gesteigert, sondern auch eine sogenannte Zero-Shot Translation ermöglicht – eine Übersetzung zwischen Sprachpaaren, die das System zuvor noch nie gesehen hat. Laut Google ist es das erste Mal, dass diese Art von Transfer Learning bei maschinellem Übersetzen funktioniert.

Zero-Shot Translation in GNMT

Zero-Shot Translation in GNMT

Und so funktioniert das Ganze: Ein mehrsprachiges System wird beispielsweise mit Japanisch⇄Englisch- und Koreanisch⇄Englisch-Beispielen trainiert (die dicken blauen Linien im Bild). Das System teilt daraufhin seine Parameter, um zwischen den vier verschiedenen Sprachpaaren hin und her übersetzen zu können. Auf diese Weise ist es möglich, die „translation knowledge“ von einem Sprachpaar auf die anderen zu übertragen. Durch das Transfer Learning und die Notwendigkeit, zwischen mehreren Sprachen zu übersetzen, wird das System dazu gezwungen, seine Modelling-Power besser einzusetzen.

Dieser Punkt brachte das Google-Team zu folgender Frage: Ist es möglich, eine Übersetzung zwischen einem Sprachpaar anzufertigen, welches das System nicht kennt? Ein Beispiel dafür ist in diesem Fall eine Übersetzung zwischen Koreanisch und Japanisch, bei der Koreanisch⇄Japanisch-Beispiele dem System zuvor nicht gezeigt wurden. Erstaunlicherweise heißt die Antwort ja – Koreanisch⇄Japanisch-Übersetzungen sind so möglich. Google nennt diese Methode eine Zero-Shot-Übersetzung (im Bild durch die gepunkteten gelben Linien zu sehen).

Machine Learning für alle

Das beschriebene Multilingual-Google-Neural-Machine-Translation-System steht ab sofort allen Google-Translate-Nutzern zur Verfügung. Mehrsprachige Systeme werden derzeit für eine Übersetzung zwischen zehn der aktuell verfügbaren 16 Sprachpaare eingesetzt.

Ausführliche Informationen zur Zero-Shot Translation finden sich im Google-Research-Blog sowie im zugehörigen Paper “Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation”.

Python Summit 2018

Advanced Flow Control in Python

mit Oz Tiram (derico – web development & consulting)

Azure in Action: Pragmatische Cloud-Lösungen für alle

mit Thorsten Hans und Christian Weyer (Thinktecture AG)

Googles DeepMind lernt Lippen lesen

Dank Machine Learning könnten taube und hörgeschädigte Menschen bald deutlich besser verstehen, was andere Leute sagen. Denn Forscher von Google DeepMind haben sich mit der Oxford University zusammengetan, um ein KI-System zu entwickeln, das beinahe perfekt Lippen lesen kann.

Die künstliche Intelligenz wurde dazu mit 5.000 Stunden Material von sechs verschiedenen TV-Sendungen (Ausstrahlung zwischen 2010 und 2015) gefüttert, insgesamt waren 118.000 Sätze und 17.500 Wörter zu lernen. Daraufhin testeten die Forscher die Performance der KI an Sendungen, die zwischen März und September 2016 liefen. Das System war allein anhand der Lippenbewegungen in der Lage, ganze Sätze zu dechiffrieren, inklusive Sätzen wie „According to the latest figures from the Office of National Statistics”.

l3

l4

Oben: Beispiel aus der Datenbank ohne Untertitel, Unten: Derselbe Clip mit von der KI generierten Untertiteln

Die künstliche Intelligenz übertraf bei den Tests sogar einen professionellen Lippenleser, der bei einer Auswahl von 200 Clips nur auf eine Erfolgsquote von 12,4 Prozent kam. Die KI hingegen erkannte 46,8 Prozent aller Wörter in den zufällig ausgewählten Clips ohne Fehler. Zudem waren viele der Fehler Kleinigkeiten wie ein vergessenes S am Wortende.

We believe that machine lip readers have enormous practical potential, with applications in improved hearing aids, silent dictation in public spaces (Siri will never have to hear your voice again) and speech recognition in noisy environments. – Yannis Assael, University of Oxford

Unsere Redaktion empfiehlt:

Relevante Beiträge

X
- Gib Deinen Standort ein -
- or -