Wie man Sprach-APIs in eigene Programme integriert

Cognitive Services: Ein Blick auf die Sprach-APIs
Kommentare

Das Thema Künstliche Intelligenz hat aktuell Hochkonjunktur in der Entwicklerwelt. Als Entwicklerwerkzeug hat Microsoft neben dem Bot Framework auch die sogenannten Cognitive Services an den Start gebracht. Was genau dahinter steckt und wie man die dazugehörigen Speech-APIs in eigene Programme integrieren kann, hat das Windows-App-Team jetzt in einem aktuellen Blog-Beitrag vorgestellt.

Künstliche Intelligenz ist das große neue Trendthema (nicht nur) im Hause Microsoft. Entsprechend große Ankündigungen gab es in diesem Zusammenhang auf der Build-Konferenz 2016, auf der Microsofts CEO Satya Nadella dialogorientierte Chatbots zu den Apps der Zukunft erklärte und damit das Ende der Apps prognostizierte, wie wir sie heute kennen. Für Entwickler stellt Microsoft das passende Werkzeug bereit, um den Schritt in die KI-Zukunft mitzugehen. Dazu gehört das neue Bot Framework, das in der Preview verfügbar ist und es Entwicklern ermöglichen soll, eigene Chatbots für ihre Anwendungen zu erstellen, die mit ihren Nutzern personalisiert kommunizieren. Eine zweite wichtige Säule sind die sogenannten Cognitive Services (früher Projekt Oxford) und genau die stellt Microsoft in einem aktuellen Blogpost etwas genauer vor.

Übrigens: Sowohl die Cognitive Services als auch der der Bot Framework sind Teil der Cortana Intelligence Suite – vormals bekannt unter dem Namen Cortana Analytice Suite – die Technologien aus den Bereichen Big Data, Machine Learning, Analytics sowie weitestgehend automatisch arbeitenden Computerprogrammen („Bots“) nutzt. Mehr dazu gibt´s in diesem Beitrag.

Windows-Developer-7-16_Cover_595x842Mehr zum Thema Chatbots gibt´s im aktuellen Windows Developer 7.16. Hier stellen Roman Schacherl und Daniel Sklenitzka das neue Bot Framework vor, das es Entwicklern möglichst leicht machen soll, eigene Bots – also intelligente Programmme – zu schreiben.

Cognitive Services – das steckt dahinter

Die Cognitive Services sind dazu da, eine natürliche Kommunikation mit Computersystemen zu ermöglichen. Dazu steht eine Reihe von APIs bereit, die im Großen und Ganzen unabhängig voneinander sind, und die Entwicklern die Möglichkeit bieten, Anwendungen das Sehen, Hören, Sprechen, Verstehen und Interpretieren menschlicher Bedürfnisse beizubringen. Technisch gesehen handelt es sich bei den APIs um REST-Services, die auf so gut wie jeder Plattform konsumierbar sind. Allerdings sind je nach Service unterschiedliche Kosten zu beachten, auch wenn es für alle APIs einen limitierten, frei verfügbaren Zugriff gibt. Hierbei werden meist die Transaktionen pro Monat eingeschränkt.

Insgesamt stehen laut Microsoft aktuell rund 22 APIs bereit, die sich grob in die Bereiche Sehen (Vision), Hören (Speech), Sprache (Language), Wissen (Knowledge) und Suche (Search) unterteilen lassen. Einer der Vorzüge der Cloud-basierten APIs ist es, dass sie sich unabhängig von der Client-Plattform nutzen lassen. Aus diesem Grund können sie sowohl von Universal-Windows-Plattform (UWP)- also auch von Web-Entwicklern genutzt werden. Aber auch von Entwicklern, die native Cross-Plattform-Apps mit Technologien wie Xamarin entwickeln wollen.

Die Sprach-APIs stellen sich vor

Um Entwickler näher an die Cognitive Services heranzuführen, hat das Windows-App-Team eine Blog-Serie gestartet, in der einige der APIs etwas genauer betrachtet werden. Im Fokus stehen die sogenannten Speech-APIs. Mithilfe dieser APIs können Texte auf linguistischer und inhaltlicher Ebene analysiert werden. Beispielsweise lassen sie sich in sprachliche Bestandteile zerlegen (Sätze, Wörter, … bis hin zu Subjekt und Prädikat) oder Themen und Schlüsselwörter extrahieren. Darüber hinaus ist es möglich, die Stimmung (positiv oder negativ) des Sprechers zu beurteilen.
Die Speech-APIs unterteilen sich aktuell in vier Bereiche:

Bei den Bereichen „Spracherkennung“ und „Text in Sprache“ kann es laut dem App-Team zu Überlappungen kommen. Im aktuellen Blogpost gibt es einen tiefen Einblick in die Sprechererkennung. Dabei werden vor allem die APIs der Sprecherverifizierung und der Sprecher-Identifikation betrachtet. Anhand von Beispielen und etwas Code wird gezeigt, wie sich die jeweiligen Pattern voneinander unterscheiden und wie sich die entsprechenden APIs in eigene Programme integrieren lassen. Alle weiteren Informationen dazu finden Interessierte im Windows-Blog.

Wer die APIs in Aktion erleben will, kann zusätzlich einen Blick auf das nachfolgende Video von Channel 9 werfen, in dem Nicoleta Mihali (Technical Evangelist bei Microsoft) und Daniel Heinze (Intern Microsoft Research) eine kleine Einführung in die Cognitive Services geben. Dabei werden unter anderem die Bereiche Gesichtserkennung, Emotionserkennung, Text-zu-Sprache und Sprache-zu-Text angesprochen.

Aufmacherbild: Robot cwith headset and speech bubbles (modifiziert) von Shutterstock / Urheberrecht: kirill_makarov

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -