Google-Forschung

Neuer Algorithmus verbessert Sprachassistenten
Kommentare

Google-Forschern ist es gelungen, mit einem neuen Algorithmus Sprachstrukturen und ihre Bedeutungsrelationen besser zu verstehen. So werden künftig Übersetzungen verbessert, Sprachassistenen intelligenter und Journalisten vielleicht bald schon überflüssig – auch dank Wikipedia.

Der Google Übersetzer ist das meistgenutzte und bisher auch wohl unbestritten das beste kostenlose Tool im Netz, um Texte in andere Sprachen zu übersetzen. 2013 nutzten ihn bereits nach Unternehmensangaben 200 Millionen User täglich. Mittlerweile sind 90 Sprachen verfügbar. Doch auch die Konkurrenz um Microsoft hat mit ihrem Echtzeit-Sprachübersetzer für Skype nachgelegt – 50 Sprachen schafft der Translator für Sprachanrufe. Doch beide Übersetzungs-Tools haben bisher ein Problem gemeinsam: Zwar können einzelne Wortbedeutungen relativ gut übersetzt werden, doch der ganze Satz klingt meist im Ohr des Empfängers noch recht holprig. Bedeutungen, die sich aus mehreren Worten zusammensetzen, lassen sich so teilweise nicht präzise genug übersetzen; vor allem dann, wenn nicht direkt aus dem Englischen übersetzt wird, sondern beispielsweise aus dem Deutschen ins Hindi. Für dieses Problem haben Forscher bei Google nun offenbar eine Lösung gefunden, mit der sie zugleich auch sogenannte QA-Systeme darunter Sprachassistenten wie Google Now verbessern könnten.

Verständnishilfen dank Wikipedia

Dem neuesten Blog-Eintrag der Google-Forschungsseite zufolge wurde ein Algorithmus entwickelt, mit dem sich die Relationen zwischen Sinneinheiten unterschiedlicher Sprachen besser zuweisen lassen dank eines Spiegelungsverfahrens. Als Abgleich dient hierfür mitunter auch Wikipedia. Um beispielsweise die Bedeutung und Zusammenhänge – also Argumentationsstrukturen – eines Satzes im Deutschen zu erfassen, wird mit dem englischen Eintrag verglichen und die Bedeutungsrelationen hergestellt. Ein einfaches Beispiel: Aus den beiden einzelnen Worten „Munich“ und „Bavaria“ kann der Algorithmus die Relation ableiten: „X is provincial capital of Y“. Daraus kann er wiederum dank Wikipedia die Übersetzung herstellen: „München ist die Landeshauptstadt von Bayern“. Eine weitere Übersetzung aus dem Deutschen ins Hindi würde nun wiederum den kleinen Umweg über das Englische nehmen. Der Grund dafür ist, dass bisher überwiegend zwischen dem Englischen und anderen Sprachen die Übersetzungssysteme entwickelt wurden – zwischen dem Deutschen und Hindi hingegen nicht. Dank des Algorithmus braucht es das aber auch in Zukunft nicht mehr, da ja die Relationen zwischen Englisch-Deutsch und Englisch-Hindi bereits hergestellt wurden.

Sprachassistenten und Journalisten aus dem Computer

Übersetzungstools wie auch Sprachassistenten könnten hierüber verbessert werden. Sprachaufforderungen aus einzelnen Wörtern, werden die Assistenten dadurch besser verstehen und gleich in die Tat umsetzen können. Das Thema dürfte auch für automatisch generierte Texte interessant werden. Schon jetzt werden beim Wirtschaftsmagazin Forbes etwa kurze Beiträge von Algorithmen geschrieben. Sportberichterstattung könnte ebenfalls bereits von maschinell vorgenommen werden. Auf den Berufsstand der Journalisten könnten schwere Zeiten zukommen, wenn Algorithmen bald alle semantischen Strukturen von natürlichen Sprachen verstehen und reproduzieren können.
Das Dataset soll für Entwickler öffentlich zugänglich gemacht werden, damit die Forschungsarbeit unter Linguisten und Tech-Entwicklern weiter voran getrieben wird. Offiziell vorgestellt wird es auf der NAACL HLT 2015 (Multilingual Open Relation Extraction Using Cross-lingual Projection, that will appear at the 2015 Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies). Einblick in die mathematischen Strukturen gibt es aber schon jetzt.

Aufmacherbild: Robot writing, drawing on the screen. Contains clipping path via Shutterstock, Urheberrecht: Kirill__M

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -