Außerdem: Videoanalyse per künstlicher Intelligenz

KI: Microsoft erreicht Meilenstein in Spracherkennung
Kommentare

Verfolgt man die Keynotes verschiedener Konferenzen des letzten Jahres, zeichnen sich drei Kernbereiche ab: Machine Learning, Künstliche Intelligenz und Spracherkennung. Optimal ist es natürlich, wenn alle drei Bereiche zusammenlaufen und Nutzern eine nahtlose User Experience bei der Nutzung von digitalen Assistenten oder Chatbots geboten wird. Für Microsoft scheint sich die in die KI-Forschung gesteckte Arbeit jetzt auszuzahlen.

Denn wie Microsoft jetzt via Blogpost bekanntgibt, hat das Forschungsteam einen Meilenstein im Bereich der Mensch-Maschine-Interaktion erreicht. In einer kürzlich durchgeführten Benchmark-Evaluation konnte die geringste jemals gemessene Wort-Fehler-Quote (Word Error Rate, WER) erreicht werden, so Chief Speech Scientist Xuedong Huang. Im Test gegen den Industriestandard Switchboard Speech Recognition Task konnten Microsoft-Forscher eine WER von 6,3 Prozent erreichen.

Spracherkennung macht enorme Fortschritte

Eine Wort-Fehler-Quote von 6,3 Prozent ist extrem niedrig und bringt Computer dem Ziel, Sprache genauso gut zu verstehen wie Menschen, immer näher. Zum Vergleich: Vor zwanzig Jahren lag die Fehlerquote des besten Systems bei über 43 Prozent. In einem am Dienstag veröffentlichten Paper ist folgendes Statement der Spracherkennungsforscher zu lesen:

Our best single system achieves an error rate of 6.9% on the NIST 2000 Switchboard set. We believe this is the best performance reported to date for a recognition system not based on system combination. An ensemble of acoustic models advances the state of the art to 6.3% on the Switchboard test data.

Möglich sind diese Fortschritte durch die enormen Entwicklungen im Gebiet der neuralen Netzwerke. So konnte etwa auf Microsofts Cross-Layer Netzwerkverbindungen zurückgegriffen werden, sodass jeder Layer zur Optimierung von Erkennung und Verknüpfung von Sprachmustern genutzt werden konnte. Ein weiteres Schlüsselelement ist das Computational Network Toolkit (CNTK), das Deep-Learning-Algorithmen bereitstellt.

Word Error Rate in der Spracherkennung im Lauf der Zeit, Quelle: Microsoft

Word Error Rate in der Spracherkennung im Lauf der Zeit, Quelle: Microsoft

Nach Expertenmeinungen könnte schon bald der Punkt erreicht sein, an dem Computer menschliche Sprache genauso gut wie ein anderer Mensch verstehen können. Das passt natürlich hervorragend zu Microsofts Strategie, mehr Personal-Computing-Erlebnisse durch Technologien wie Cortana, Skype Translator und Cognitive Services zu bieten. Die Spracherkennung ist außerdem Bestandteil von Microsofts allgemeiner KI-Strategie, die Anfang des Jahres beschlossen wurde.

It’s a simple concept, yet it’s very powerful in its impact. It is about taking the power of human language and applying it more pervasively to all of our computing.

Ausführliche Informationen zu allen Ergebnissen des Forschungsteams finden sich im zugehörigen Blogpost sowie im Research Paper.

Software Architecture Summit 2017

The Core of Domain-Driven Design

mit Carola Lilienthal (Workplace Solutions)

Distributed Systems

mit Kyle Kingsbury (Independent Consultant)

KI analysiert Videos: Video Breakdown

Ein weiterer Teil von Microsofts KI-Strategie ist das Projekt Microsoft Garage, das sich auf kleine Nebenprojekte auf Basis von KI- und Machine-Learning-Technologien fokussiert. Hier ist auch die Plattform Video Breakdown entstanden, die das Durchsuchen von Videos auf spezifische Inhalte ermöglicht.

Nach dem Upload eines Videos wird der Dateiinhalt von Microsoft Cognitive Services, Azure Media Analytics und weiteren Azure-Diensten analysiert. Daraus entstehen verschiedene Prozesse: Audio-Transkription, Gesichtserkennung und -gruppierung, Unterscheidung nach Sprechern, Texterkennung sowie Stimmungs- und Themenbestimmung. Alle diese Teile ergeben dann einen Index, der die Suche nach ganz bestimmten Schlagworten, Personen oder Themen erlaubt.

Video Breakdown setzt Recognition an verschiedenen Fronten ein: Computer Vision, Sprache-zu-Text, Sprachverständnis, linguistische sowie textliche Analyse, Gesichtserkennung und Bildersuche. Die Plattform steht ab sofort allen Interessierten zum Ausprobieren zur Verfügung.

Zum Abschluss noch ein kleiner, aber feiner Tweet:

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -