Künstliche Intelligenz ist das große neue Trendthema (nicht nur) im Hause Microsoft. Entsprechend große Ankündigungen gab es in diesem Zusammenhang auf der Build-Konferenz 2016, auf der Microsofts CEO Satya Nadella dialogorientierte Chatbots zu den Apps der Zukunft erklärte und damit das Ende der Apps prognostizierte, wie wir sie heute kennen. Für Entwickler stellt Microsoft das passende Werkzeug bereit, um den Schritt in die KI-Zukunft mitzugehen. Dazu gehört das neue Bot Framework, das in der Preview verfügbar ist und es Entwicklern ermöglichen soll, eigene Chatbots für ihre Anwendungen zu erstellen, die mit ihren Nutzern personalisiert kommunizieren. Eine zweite wichtige Säule sind die sogenannten Cognitive Services (früher Projekt Oxford) und genau die stellt Microsoft in einem aktuellen Blogpost etwas genauer vor.
Übrigens: Sowohl die Cognitive Services als auch der der Bot Framework sind Teil der Cortana Intelligence Suite – vormals bekannt unter dem Namen Cortana Analytice Suite – die Technologien aus den Bereichen Big Data, Machine Learning, Analytics sowie weitestgehend automatisch arbeitenden Computerprogrammen („Bots“) nutzt. Mehr dazu gibt´s in diesem Beitrag.

Cognitive Services – das steckt dahinter
Die Cognitive Services sind dazu da, eine natürliche Kommunikation mit Computersystemen zu ermöglichen. Dazu steht eine Reihe von APIs bereit, die im Großen und Ganzen unabhängig voneinander sind, und die Entwicklern die Möglichkeit bieten, Anwendungen das Sehen, Hören, Sprechen, Verstehen und Interpretieren menschlicher Bedürfnisse beizubringen. Technisch gesehen handelt es sich bei den APIs um REST-Services, die auf so gut wie jeder Plattform konsumierbar sind. Allerdings sind je nach Service unterschiedliche Kosten zu beachten, auch wenn es für alle APIs einen limitierten, frei verfügbaren Zugriff gibt. Hierbei werden meist die Transaktionen pro Monat eingeschränkt.
Insgesamt stehen laut Microsoft aktuell rund 22 APIs bereit, die sich grob in die Bereiche Sehen (Vision), Hören (Speech), Sprache (Language), Wissen (Knowledge) und Suche (Search) unterteilen lassen. Einer der Vorzüge der Cloud-basierten APIs ist es, dass sie sich unabhängig von der Client-Plattform nutzen lassen. Aus diesem Grund können sie sowohl von Universal-Windows-Plattform (UWP)- also auch von Web-Entwicklern genutzt werden. Aber auch von Entwicklern, die native Cross-Plattform-Apps mit Technologien wie Xamarin entwickeln wollen.
Die Sprach-APIs stellen sich vor
Um Entwickler näher an die Cognitive Services heranzuführen, hat das Windows-App-Team eine Blog-Serie gestartet, in der einige der APIs etwas genauer betrachtet werden. Im Fokus stehen die sogenannten Speech-APIs. Mithilfe dieser APIs können Texte auf linguistischer und inhaltlicher Ebene analysiert werden. Beispielsweise lassen sie sich in sprachliche Bestandteile zerlegen (Sätze, Wörter, … bis hin zu Subjekt und Prädikat) oder Themen und Schlüsselwörter extrahieren. Darüber hinaus ist es möglich, die Stimmung (positiv oder negativ) des Sprechers zu beurteilen.
Die Speech-APIs unterteilen sich aktuell in vier Bereiche:
- Spracherkennung (Ausprobieren im Browser)
- Text in Sprache (Ausprobieren im Browser)
- Custom Recognition Intelligent Service (CRIS) (Private-Preview)
- Sprechererkennung (Ausprobieren im Browser)
Bei den Bereichen „Spracherkennung“ und „Text in Sprache“ kann es laut dem App-Team zu Überlappungen kommen. Im aktuellen Blogpost gibt es einen tiefen Einblick in die Sprechererkennung. Dabei werden vor allem die APIs der Sprecherverifizierung und der Sprecher-Identifikation betrachtet. Anhand von Beispielen und etwas Code wird gezeigt, wie sich die jeweiligen Pattern voneinander unterscheiden und wie sich die entsprechenden APIs in eigene Programme integrieren lassen. Alle weiteren Informationen dazu finden Interessierte im Windows-Blog.
Wer die APIs in Aktion erleben will, kann zusätzlich einen Blick auf das nachfolgende Video von Channel 9 werfen, in dem Nicoleta Mihali (Technical Evangelist bei Microsoft) und Daniel Heinze (Intern Microsoft Research) eine kleine Einführung in die Cognitive Services geben. Dabei werden unter anderem die Bereiche Gesichtserkennung, Emotionserkennung, Text-zu-Sprache und Sprache-zu-Text angesprochen.
Modul ADOC – Architekturdokumentation – Softwarearchitekturen festhalten und kommunizieren
mit Stefan Zörner (embarc)
Modul FLEX – Flexible Architekturen: Microservices, Self-contained Systems und Continuous Delivery
mit Eberhard Wolff oder Niko Will (INNOQ)
Aufmacherbild: Robot cwith headset and speech bubbles (modifiziert) von Shutterstock / Urheberrecht: kirill_makarov
[…] erkennen. Hierzu umfasst das Tool ein Set von auf maschinellem Lernen basierenden REST APIs – den sogenannten Cognitive Services – und SDKs, die Entwicklern dabei helfen sollen, Anwendungen mit intelligenten Funktionen […]