Bis zu acht Emotionen nach den Kriterien Wut, Angst, Verachtung, Ekel, Freude, Neutralität, Traurigkeit und Überraschung kann Project Oxford erkennen. Hierzu umfasst das Tool ein Set von auf maschinellem Lernen basierenden REST APIs – den sogenannten Cognitive Services – und SDKs, die Entwicklern dabei helfen sollen, Anwendungen mit intelligenten Funktionen auszustatten. Neben der Gesichtserkennung gehören dazu beispielsweise auch die Erkennung von Bildern und Sprache.
Als Reaktion auf das Feedback der Nutzer hat sich Microsoft nun entschieden, Project Oxford aufzubrechen und die Cognitive Services Suite in eine Reihe von kleineren Projekten zu splitten. Im Projekt-Repository heißt es hierzu:
This repo has been deprecated and each project has moved to a new home in a repo scoped by API and platform.
Infolgedessen stehen die Cognitive-Services-APIs und -Projekte ab sofort als individuelle Kleinprojekte bereit. Einige SDKs finden sich auf der Cognitive-Services-Produktseite wieder, andere sind auch weiterhin auf GitHub verfügbar.
Die einzelnen Repositories der Cognitive Services unterteilen sich nun in die Bereiche Emotionen (Vergleich von Gesichtsausdrücken), Entity Linking (Textanalysefunktion), Gesicht (Gesichtserkennung), Linguistische Analyse, Sprecher-Erkennung, Sprache (Sprache in Text), Video, Visuelle Analyse und WebLM (ein SDK für das Web Language Model).
Neues Preis-Modell
Die Neuerung soll unter anderem auch Änderungen in der Preisgestaltung mit sich bringen. Eine Vorschau auf das neue Preis-Modell findet sich ebenfalls auf der Produktseite der Cognitive-Services. Auf einige APIs gibt es einen limitierten, frei verfügbaren Zugriff; meist werden hier die Transaktionen pro Monat eingeschränkt. Für andere APIs fallen grundsätzlich Preise je nach Transaktion an.
Cognitive Services: Gefühlserkennung nur eines von vielen Werkzeugen
Die Erkennung von Gefühlen ist nur eines von mehreren Werkzeugen, die Project Oxford bietet. Die Cognitive Services – die aktuell rund 22 APIs umfassen – bieten Entwicklern die Möglichkeit, Anwendungen das Sehen, Hören, Sprechen, Verstehen und Interpretieren menschlicher Bedürfnisse beizubringen.
Einer der Vorzüge der Cloud-basierten Cognitive-Services-APIs ist es, dass sie sich unabhängig von der Client-Plattform nutzen lassen. Aus diesem Grund können sie sowohl von Universal-Windows-Plattform (UWP)- also auch von Web-Entwicklern genutzt werden. Aber auch von Entwicklern, die native Cross-Plattform-Apps mit Technologien wie Xamarin entwickeln wollen.
Ausführlichere Details zum Thema gibt es im Windows Developer 8.16. Hier stellen Roman Schacherl und Daniel Sklenitzka zum Auftakt unserer neuen Cognitive-Services-Reihe unter anderem den Language Understanding Intelligent Service (LUIS) vor. In der kommenden Ausgabe geht es weiter mit dem Vison-API.
Project Oxford: Einsatzmöglichkeiten
Was die Einsatzmöglichkeiten von Project Oxford angeht, nennt Microsoft einige konkrete Beispiele: So könnte das Tool angewendet werden, um die Reaktionen von Verbrauchern auf bestimmte Produkt-Angebote nachzuvollziehen. Alternativ könnte es auch in Kameras integriert oder aber dazu eingesetzt werden, Fotos nach den darauf abgebildeten Emotionen zu ordnen oder zu durchsuchen. Mithilfe des Language Understanding Intelligent Service (LUIS) wird darüber hinaus versucht, Texte auf Basis eines selbstlernenden Modells zu verstehen. Und sind nur einige von zahlreichen Szenarien.
Der Vorteil für Entwickler ist: Welche Software-Idee sie auch haben, sie müssen sich nicht auf eigene Faust mit Features auseinandersetzen, die auf hochmodernen, lernfähigen Technologien basieren: “If you are an app developer, you could just take the API capabilities and not worry about the machine learning aspect,” , kommentierte Vijay Vokkaarne (Principal Group Program Manager der Microsoft Corporation) hierzu bei der Vorstellung des Projekts im vergangenen Jahr.
Mehr Details zu Project Oxford finden Interessierte auf der Projektseite, weitere Informationen zu den Neuerungen sowie eine Auflistung der neuen Repositories gibt es auf GitHub.
Efficient Transformers
Christoph Henkelmann, DIVISIO
Enhancing Page Visits by Topic Prediction
Dieter Jordens, Continuum Consulting NV
Machine Learning on Edge using TensorFlow
Håkan Silfvernagel, Miles AS