Machine Learning und künstliche Intelligenz voranbringen

KI: Microsoft stellt Datensatz MS MARCO Open Source
Kommentare

Microsoft hat mit MS MARCO ein Set von 100.000 Fragen und Antworten veröffentlicht, das Forschungen im Bereich der künstlichen Intelligenz weiter voranbringen soll. Damit soll die Entwicklung von Systemen möglich sein, die Fragen genauso gut verstehen und beantworten können wie Menschen.

Auf dem Gebiet der künstlichen Intelligenz ist Microsoft derzeit besonders umtriebig: So hat das Unternehmen etwa eine Spracherkennungssoftware entwickelt, die Sprache genauso gut erkennt wie Menschen es tun, und auch Cortana erhält stetig neue Features und kommt auf immer mehr Geräten zum Einsatz. Jetzt haben die Redmonder einen Datensatz veröffentlicht, der solchen Tools noch mehr Relevanz verleihen soll.

Eine KI, die intelligent antwortet: MS MARCO

Microsofts Datensatz trägt den Namen MS MARCO, was für Microsoft MAchine Reading COmprehension steht. Laut Microsoft handelt es sich dabei um den nützlichsten Datenbestand seiner Art, da er auf anonymisierten Daten aus der realen Welt basiert.

Mit der Veröffentlichung verspricht sich Microsoft eine Beschleunigung der Entwicklungen im Bereich Machine Reading. Gleichzeitig hofft das Team darauf, auf lange Sicht damit bei der Entstehung einer „artifical general intelligence“ oder von Maschinen, die wie Menschen denken, mitzuhelfen.

Natürlich können auch derzeit schon künstliche Intelligenzen in Sprachassistenten wie Cortana einfache Fragen wie „Wann ist Weihnachten?“ oder „Wie viel ist 57 mal 43?“ beantworten. Wird es allerdings komplizierter, verweisen diese oft auf eine Suchergebnisliste im Web. Um automatisierte Frage-und-Antwort-Systeme besser zu machen, ist eine gehaltvolle Quelle von sogenannten Trainingsdaten nötig. Mithilfe dieser Daten lernen KIs, Fragen zu erkennen, Antworten zu formulieren und sogar auf zuvor nicht bekannte Fragen eigene Antworten zu entwickeln.

Schnell und überall: Datenzugriff mit Entity Framework Core 2.0

Dr. Holger Schwichtenberg (www.IT-Visions.de/5Minds IT-Solutions)

C# 7.0 – Neues im Detail

Christian Nagel (CN innovation)

Echte Daten für echte, menschliche Antworten

Der Datensatz von MS MARCO stammt aus echten, anonymisierten Suchanfragen von Microsofts Suchmaschine Bing und dem virtuellen Assistenten Cortana. Die zugehörigen Antworten wurden von Menschen verfasst, basieren auf echten Webseiten und wurden auf ihre Richtigkeit geprüft.

Auf diese Weise sollen Systeme besser die Komplexität und Nuancen gesprochener Sprache lernen – eingeschlossen solcher Fragen, auf die es keine eindeutige oder mehrere verschiedene Antworten gibt. Ein Beispiel für eine solche Frage ist „Was haben die alten Griechen gegessen?“ Für die Antwort wurden verschiedene Dokumente und Textteile durchsucht und die entsprechenden Passagen abgespeichert.

MS MARCO erlaubt ein tiefergehendes Verständnis der Frage. Li Deng, Partner Research Manager von Microsofts Deep Learning Technology Center, sagt dazu:

Our dataset is designed not only using real-world data but also removing such constraints so that the new-generation deep learning models can understand the data first before they answer questions.

Bis künstliche Intelligenzen aber tatsächlich so kommunizieren wie Menschen es tun, ist es noch ein weiter Weg. Aus diesem Grund sei das auch kein Schritt, den ein Unternehmen allein gehen könne, so Rangan Majumder, Partner Group Program Manager bei Microsofts Suchmaschine Bing. Die Veröffentlichung von MS MARCO soll zur Zusammenarbeit in diesem Bereich anregen; der Datensatz steht allen nicht-gewerblichen Entwicklern kostenlos zur Verfügung.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -