Auf dem Gebiet der künstlichen Intelligenz ist Microsoft derzeit besonders umtriebig: So hat das Unternehmen etwa eine Spracherkennungssoftware entwickelt, die Sprache genauso gut erkennt wie Menschen es tun, und auch Cortana erhält stetig neue Features und kommt auf immer mehr Geräten zum Einsatz. Jetzt haben die Redmonder einen Datensatz veröffentlicht, der solchen Tools noch mehr Relevanz verleihen soll.
Eine KI, die intelligent antwortet: MS MARCO
Microsofts Datensatz trägt den Namen MS MARCO, was für Microsoft MAchine Reading COmprehension steht. Laut Microsoft handelt es sich dabei um den nützlichsten Datenbestand seiner Art, da er auf anonymisierten Daten aus der realen Welt basiert.
Mit der Veröffentlichung verspricht sich Microsoft eine Beschleunigung der Entwicklungen im Bereich Machine Reading. Gleichzeitig hofft das Team darauf, auf lange Sicht damit bei der Entstehung einer „artifical general intelligence“ oder von Maschinen, die wie Menschen denken, mitzuhelfen.
Natürlich können auch derzeit schon künstliche Intelligenzen in Sprachassistenten wie Cortana einfache Fragen wie „Wann ist Weihnachten?“ oder „Wie viel ist 57 mal 43?“ beantworten. Wird es allerdings komplizierter, verweisen diese oft auf eine Suchergebnisliste im Web. Um automatisierte Frage-und-Antwort-Systeme besser zu machen, ist eine gehaltvolle Quelle von sogenannten Trainingsdaten nötig. Mithilfe dieser Daten lernen KIs, Fragen zu erkennen, Antworten zu formulieren und sogar auf zuvor nicht bekannte Fragen eigene Antworten zu entwickeln.
Modul ADOC – Architekturdokumentation – Softwarearchitekturen festhalten und kommunizieren
mit Stefan Zörner (embarc)
Modul FLEX – Flexible Architekturen: Microservices, Self-contained Systems und Continuous Delivery
mit Eberhard Wolff oder Niko Will (INNOQ)
Echte Daten für echte, menschliche Antworten
Der Datensatz von MS MARCO stammt aus echten, anonymisierten Suchanfragen von Microsofts Suchmaschine Bing und dem virtuellen Assistenten Cortana. Die zugehörigen Antworten wurden von Menschen verfasst, basieren auf echten Webseiten und wurden auf ihre Richtigkeit geprüft.
Auf diese Weise sollen Systeme besser die Komplexität und Nuancen gesprochener Sprache lernen – eingeschlossen solcher Fragen, auf die es keine eindeutige oder mehrere verschiedene Antworten gibt. Ein Beispiel für eine solche Frage ist „Was haben die alten Griechen gegessen?“ Für die Antwort wurden verschiedene Dokumente und Textteile durchsucht und die entsprechenden Passagen abgespeichert.
MS MARCO erlaubt ein tiefergehendes Verständnis der Frage. Li Deng, Partner Research Manager von Microsofts Deep Learning Technology Center, sagt dazu:
Our dataset is designed not only using real-world data but also removing such constraints so that the new-generation deep learning models can understand the data first before they answer questions.
Bis künstliche Intelligenzen aber tatsächlich so kommunizieren wie Menschen es tun, ist es noch ein weiter Weg. Aus diesem Grund sei das auch kein Schritt, den ein Unternehmen allein gehen könne, so Rangan Majumder, Partner Group Program Manager bei Microsofts Suchmaschine Bing. Die Veröffentlichung von MS MARCO soll zur Zusammenarbeit in diesem Bereich anregen; der Datensatz steht allen nicht-gewerblichen Entwicklern kostenlos zur Verfügung.