Computer erkennen Sprache genauso gut wie Menschen

KI: Microsoft erreicht Spracherkennung auf Menschenlevel
Kommentare

Nach dem erst kürzlich erreichten Meilenstein im Bereich der Mensch-Maschine-Interaktion und der geringsten jemals gemessenen Wort-Fehler-Quote kann Microsoft jetzt einen weiteren Erfolg vermelden: Forscher haben eine Spracherkennungssoftware entwickelt, die Sprache genauso gut erkennt wie Menschen es tun.

Wie Microsoft bekanntgibt, ist man dem Ziel, dass Computer Sprache genauso gut verstehen wie Menschen, einen enormen Schritt näher gekommen. Noch vor einem Monat berichtete Chief Speech Scientist Xuedong Huang über einen Durchbruch im Bereich der Spracherkennung, der für enormes Aufsehen sorgte: In einer Benchmark-Evaluation konnte die geringste jemals gemessene Wort-Fehler-Quote (Word Error Rate, WER) von 6,3 Prozent erreicht werden. Diese Quote ist bereits extrem niedrig, führt man sich vor Augen, dass die Fehlerquote des besten Systems vor rund zwanzig Jahren noch bei über 43 Prozent lag.

Nach der Bekanntgabe gingen Experten davon aus, dass schon bald der Punkt erreicht sein könnte, an dem Computer menschliche Sprache genauso gut wie andere Menschen verstehen können. Dass dieser aber innerhalb eines Monats erreicht würde, damit rechnete wohl niemand.

Computer verstehen Menschen – wie Menschen

Forscher bei Microsoft haben am Montag in einem Paper ein Spracherkennungssystem vorgestellt, das genau so viele oder sogar weniger Fehler macht wie professionelle Transkribierer. Dabei konnte eine Wort-Fehler-Quote von 5,9 Prozent erzielt werden. Diese Quote entspricht etwa der von Menschen, die dieselbe Konversation niederschrieben, und ist gleichzeitig die geringste jemals gegen den Industriestandard Switchboard Speech Recognition Task gemessene WER.

Somit kann ein Computer erstmals gesprochene Sprache genauso gut erkennen wie ein Mensch. Diese Entwicklung hat weitreichende Auswirkungen auf Produkte, die mit Spracherkennung ausgestattet werden können, darunter zum Beispiel auf Microsofts persönlichen Assistenten Cortana und die Xbox. Auch in Microsoft Office könnte die Software eingesetzt werden und so die Diktierfunktion um einiges verbessern.

Abgesehen von Consumer-Produkten markiert dieser Erfolg einen Meilenstein in der KI-Forschung. Laut Geoffrey Zweig, Microsoft Speech and Dialog Research Group, soll der nächste Schritt eine Software sein, die menschliche Sprache nicht nur erkennt, sondern auch den Sinn versteht. Jedoch ist es bis zur echten künstlichen Intelligenz noch ein weiter Weg:

It will be much longer, much further down the road until computers can understand the real meaning of what’s being said or shown. [… But] we are moving away from a world where people must understand computers to a world in which computers must understand us.

KI: Meilenstein, aber keine Perfektion

Allerdings bedeuten diese Forschungsergebnisse nicht, dass der Computer jedes Wort perfekt erkannt hat (Menschen schaffen das ja übrigens auch nicht). Vielmehr liegt die Fehlerquote auf demselben Level, das Menschen beim Hören einer Unterhaltung erreichen.

Möglich wurde dieses Level durch die Nutzung von neuralen Netzwerken und hochspezialisierten GPUs. Dabei konnte auf Microsofts Cross-Layer Netzwerkverbindungen zurückgegriffen werden, sodass jeder Layer zur Optimierung von Erkennung und Verknüpfung von Sprachmustern genutzt werden konnte. Ein weiteres Schlüsselelement ist das Computational Network Toolkit (CNTK), das Deep-Learning-Algorithmen bereitstellt. Vor allem der Einsatz von neuralen Sprachmodellen, in denen Wörter als kontinuierliche Vektoren im Raum repräsentiert werden, gab den entscheidenden Ausschlag. Denn damit sind Wörter wie „fast“ und „quick“ nahe beieinander angesiedelt, was eine Generalisierung ermöglicht.

Weitere Informationen zu allen Ergebnissen des Forschungsteams finden sich im zugehörigen Blogpost sowie im Research Paper.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -