Spracherkennung macht dank Baidus Deep Speech 2 und TalkType große Fortschritte

Baidu lässt Google in puncto Spracherkennung alt aussehen
Kommentare

Baidu, Chinas Suchmaschinengigant, setzt in Sachen intelligenter Spracherkennung mit TalkType voll auf Mobile First und Voice First. Mit der der auf dem Deep-Learning-Algorithmus von Deep Speech 2 basierenden Android-App ist dem Unternehmen ein technologischer Durchbruch gelungen.

Baidu Inc. nennt seine neue Tastatur-App TalkType „the world’s first voice-centric, full-function keyboard”. Die über den Google Play Store erhältliche Speech-to-Text-App basiert auf den Fortschritten des chinesischen Unternehmens im Bereich der auf künstlicher Intelligenz beruhenden Spracherkennung.

Baidu und die intelligente Spracherkennung

Viele werden es am eigenen Leib erfahren haben: Holprige, ungenaue und/oder langsame Spracherkennungssoftware, die der User eher als nettes Gadget empfindet, denn als wirkliche Hilfe. Wirkliche Arbeitserleichterung konnte man bisher nur selten von solchen Angeboten erwarten.

Seit nahezu einem halben Jahrhundert wird in Sachen Spracherkennung geforscht. Google, Amazon und andere Global Player des Westens haben vor fünf bis sechs Jahren begonnen, mit ihren Produkten den Markt für sich zu beanspruchen. Auch Microsoft schickt sich an, in puncto Spracherkennung vorne mitzumischen: Vor zwei Tagen konnte man die Entwicklung eines Spracherkennungssystems vermelden, das lediglich eine Wort-Fehler-Quote von 5,9 Prozent aufweist – und damit Sprache wuasi genauso gut erkennt, wie Menschen es tun.

Auch beim chinesischen Google-Bruder Baidu scheint sich in den letzten zwei bis drei Jahren einiges getan zu haben.

„At the core of TalkType is Baidu’s speech recognition engine, built using deep learning”

Obiges Zitat stammt von Andrew Ng, Chief Scientist bei Baidu und Mitbegründer der MOOC-Plattform Coursera. Er ist beim Deep Learning neben der Entwicklung intelligenter Sprach- und Gesichtserkennung auch für Applikationen zuständig, die sich etwa mit dem autonomen Fahren beschäftigen.

Mit der neuen intelligenten Spracherkennungsapp TalkType will Baidu einen Transformationsprozess im täglichen Umgang mit dem Smartphone einleiten.

Was TalkType bietet

Mobile First wird bei Baidu großgeschrieben. Die neue App fokussiert sich anders als normale Android-Eingabesysteme auf die Speech-Recognition als primäre Eingabemethode. Bijit Halder, Chef des Baidu Silicon Valley AI Lab (SVAIL) Produktteams, drückte es passend aus:

„TalkType is the first full-function Android keyboard that is ‘voice first,’ not ‘voice also”

Aktuell ist TalkType nur für Android erhältlich, zu einer Portierung auf iOS hat sich Baidu bisher nicht geäußert.

Baidus Deep Speech 2: drei Mal schneller und deutlich akkurater

Eric David berichtet über eine Studie von Baidu, der Stanford University und der University of Washington zum Thema Spracherkennung, mit der Baidu auch in ihren Werbevideos zu TalkType offen wirbt. Konkret untersuchte die Studie Baidus Deep Speech 2, eine auf Deep Learning basierende Spracherkennungssoftware, die Mandarin und Englisch versteht.

Die Spracherkennung läuft laut der Untersuchung drei Mal schneller und funktioniert 20,4 Prozent genauer als die zum Vergleich herangezogene Eingabe per iOS QWERTY-Tastatur (Englisch und Mandarin). Im chinesischen Mandarin konnte die Fehlerrate sogar um ganze 63,4 Prozent reduziert werden. Bei kurzen Sätzen liegt die Fehlerquote von TalkType bei gerade einmal 3,7 Prozent: wirklich bemerkenswert. Dazu muss jedoch bemerkt werden, dass die chinesische Schriftsprache deutlich komplizierter ist als die englische und eben deshalb Deep Speech 2 kurze Phrasen besser transkribiert als sein menschliches Gegenüber.

Mit ihrem neuralen Netzwerk kann die Engine Geräusche, Töne, Wörter und Sätze voneinander unterscheiden, zuordnen und so eine angemessene Transkription generieren. Der chinesische Suchmaschinengigant konnte seinem Deep-Learning-Algorithmus tausende Stunden an Tonmaterial zur Verfügung stellen – in China gibt es mehr Mobiltelephonnutzer als irgendwo sonst auf der Welt (ganze 691 Millionen).

Google zieht mit der Cloud Speech API nach

Bei Google hatte letztes Jahr für seine Deep-Learning-Technologie eine Wort-Fehler-Quote von acht Prozent vermeldet, was bereits als großer Erfolg gefeiert wurde. Seit den ersten Erfolgen von Baidus Deep Speech 2 hatte sich Google angeschickt, mit eigenen Spracherkennungserrungenschaften nachzuziehen. Mit der Einführung der Cloud Speech API wird Entwicklern die Möglichkeit einer Speech-to-Text-Übersetzung für jede App in mehr als 80 Sprachen an.

Der Gründer von TechEmergence Daniel Faggella schätzt die Situation richtig ein, wenn er schreibt:

Google has some of the best scientists worldwide and a massive technology budget, often putting them ahead of the curve. But Baidu’s achievements and talented team of researchers seems to have the potential needed to significantly impact the technology and gain a foothold in the lucrative Chinese voice market.

Conversational User Interfaces gehört die Zukunft

Der große Vorteil von Sprachassistenten und Spracherkennungssoftware liegt darin, dass sie den Nutzern die Arbeit immens erleichtern. Auch deshalb dürfte die Zukunft den Conversational User Interfaces (CUIs) gehören. Sie können als virtuelle Assistenten wie zum Beispiel Chatbots die Arbeit des Nutzers nicht nur vereinfachen, sondern bieten eigenständige Lösungsvorschläge an.

Sprachassistenten, aber auch Chatbots, können vor allem für Benutzer mit Seh- und Hörschwächen „eine vitale Alternative“ sein. Eine integrierte Keyboard-Navigation und die Anpassung an Screen-Reader kann damit überflüssig gemacht werden. Intelligente Spracherkennung kann Menschen mit Behinderung so im Alltag eine große Erleichterung sein.

Das Ziel im Bereich intelligenter Spracherkennung muss selbstverständlich sein, zur menschlichen Qualität bei Interaktionen und Problemlösungen aufzuschließen. Im Klartext: Ein Autofahrer will von einer Software ähnlich guten Service in der Routenplanung o. ä. erhalten wie von einem Beifahrer. Der Prozess müsste so intuitiv und reibungslos vonstattengehen, dass der User nicht mehr über die Nutzung der Software nachdenkt. Die Kommunikation müsste so ablaufen, als verstehe uns die Maschine tatsächlich.

Potenzial und Chancen der Spracherkennung

Wie ehemals das Touchscreen, so prognostizierte es Andrew Ng von Baidu in einem Interview mit Bloomberg, könne auch die intelligente Spracherkennung eine Transformation für die Technologiewelt bedeuten. Viele Leute unterschätzten den Unterschied zwischen den aktuell erreichten 95 Prozent Genauigkeit bei der intelligenten Spracherkennung und den angestrebten 99 Prozent.

Den Einfluss, den intelligente, auf Deep Learning basierende Apps tatsächlich ausüben werden, sollte aber nicht überschätzt werden. Dr. Adam Coates, Direktor in Baidus Silicon Valley AI Labor in den USA, geht in einem Interview mit Daniel Faggella von TechEmergence bei vielen Prognosen und Einschätzungen mehr von aufgebauschtem „Hype“ rund um das Thema künstliche Intelligenz als von tatsächlichen Realitäten aus:

Based on a lot of the genuine progress that’s happening in AI right now, substantially because of big progress in deep learning and neural networks, many people are starting to feel that full artificial general intelligence (AGI) may be just around the corner…I think working with these technologies every day, it’s pretty clear that that’s just not where the progress is happening right now

Fazit

Die Stoßrichtung der Entwicklung der durch künstliche Intelligenz gesteuerten Technologien und ihr Einfluss auf den Menschen kann nur schwer bestimmt werden. Für die intelligente Spracherkennung sind die Fortschritte komplementär zu anderen Technologiezweigen zu verstehen.

Bei allem Fortschritt im Bereich der auf künstlicher Intelligenz beruhenden Spracherkennung darf allerdings nicht übersehen werden, dass sich diese vor allem auf die Transkription kryptischer Phrasen fokussiert. Interpretatives Zuhören, Lesen bzw. Handeln ist trotz Big Data und Deep Learning immer noch limitiert. Denn auch wenn der Mensch in Sachen Fehlerquote gegen Deep-Learning-Software wie Deep Speech 2 nicht mehr ankommt – die Maschine kann bislang nur ganz bedingt „zwischen den Zeilen lesen“ und die tatsächlichen Bedeutungen der Inhalte erfassen.

Schlussendlich könnte TalkType, wenn es hält was es verspricht, nicht nur mit einer großen Arbeitserleichterung für den User aufwarten. Mit Deep Speech 2 geht die Entwicklung auch einen großen Schritt in die richtige Richtung.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -