Tool WaveNet hilft Computern beim Sprechen

KI DeepMind: Bessere menschenähnliche Sprache dank neuraler Netzwerke
Kommentare

Computer werden immer besser darin, menschliche Sprache zu verstehen. Grund dafür sind Deep Learning und neurale Netzwerke. Googles DeepMind-Abteilung beschreitet jetzt einen anderen Weg und wendet die bestehenden Tools auf das umgekehrte Problem an: Computer dazu zu bringen, mit Menschen wie ein Mensch zu kommunizieren.

Genauer gesagt: DeepMind arbeitet an WaveNet, einem hochentwickelten Text-zu-Sprache-Synthese-Tool, das auf neurale Netzwerke zurückgreift und besser als alle bestehenden Text-zu-Sprache-Systeme funktionieren soll.

Bislang waren die Methoden der Sprachsynthese relativ beschränkt: Die meisten Programme nutzen vorab aufgenommene Töne, die geschnitten und zu Wörtern und Sätzen zusammengepackt werden. Aus diesem Grund hören sich viele Sprachprogramme meist kalt und roboterartig an.

This makes it difficult to modify the voice (for example switching to a different speaker, or altering the emphasis or emotion of their speech) without recording a whole new database.

WaveNet: Computer lernen sprechen

DeepMind setzt nun auf eine völlig andere Methode: Durch den Einsatz von neuralen Netzen lassen sich die richtigen Tonkombinationen bestimmen, um individuell gesprochene Texte zu generieren. Im Gegensatz zur recht limitierten Sprachsynthese in bestehenden Text-zu-Sprache-Softwares wie Cortana oder Siri ist durch den Rückgriff auf neurale Netzwerke und WaveNet selbst eine größere Bandbreite an Tönen und Stimmen möglich, so das DeepMind-Team.

WaveNet analysiert dazu die Wellenformen der menschlichen Sprache und ist in der Lage, Muster zu erkennen. Diese werden dann eingesetzt, um geschriebene in gesprochene Sprache umzusetzen. Um WaveNet zu trainieren, wurden im Vorfeld einige Tests durchgeführt:

Dafür ließ das DeepMind-Team hunderte von Menschen, WaveNet und anderen Text-zu-Sprache-Systemen gesprochene Testsätze durch Menschen beurteilen. WaveNet erreichte beim Englischen einen Wert von 4,21 auf einer Skala von 1-5. Das beste andere Text-zu-Sprache-System erreichte 3,86, während die von Menschen gesprochenen Sätze einen Wert von 4,55 erzielten.

Künstliche Intelligenz & DeepMind

Dass Google bereits seit längerer Zeit im Bereich der künstlichen Intelligenz forscht, ist spätestens seit der Übernahme von DeepMind kein Geheimnis mehr: 2015 veröffentlichte das Unternehmen die Ergebnisse eines Forschungsprojektes, bei der die künstliche Intelligenz alte Atari-Spieleklassiker selbstständig erlernen sollte. Nach Angaben von Google DeepMind gelang es der KI, sowohl die Spielregeln zu erlernen als auch Erfolgstaktiken selbstständig zu entwickeln.
Mit dem Programm AlphaGo, hervorgegangen aus den DeepMind-Forschungen, ist Google ein bedeutender Schritt auf dem Gebiet der künstlichen Intelligenz gelungen. AlphaGo wurde zunächst solange im Test gegen andere KIs eingesetzt, bis es die Muster des Go-Spiels gelernt hatte. Im Test schlug AlphaGo dann die anderen künstlichen Intelligenzen in 499 von 500 Spielen. Im März besiegte AlphaGo dann auch den weltbesten menschlichen Go-Spieler.

Auch für Mandarin konnte WaveNet mit 4,08 einen vergleichbar guten Wert wie seine menschlichen Testkollegen (4,21) erzielen. Andere Text-zu-Sprache-Systeme kamen hierbei auf einen Wert von 3,79. Die gesprochenen Sätze stehen im DeepMind-Blog zum Anhören zur Verfügung. Dabei fällt auf, dass WaveNet sogar Atempausen und Mundbewegungen nachahmt.

Übrigens kann man mit WaveNet auch Musik kreieren: Dabei kamen bislang recht ausdrucksstarke Klavierstücke zustande, die kaum an den Computer dahinter erinnern.

Ob Google die DeepMind-Technologie auch tatsächlich in eigenen Systemen wie etwa Google Now einsetzen wird, ist noch unklar. Überraschend wäre es nicht, denn mit DeepMinds AI wird bereits die benötigte Energie in den eigenen Rechenzentren reduziert.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -