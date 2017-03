Schon seit einiger Zeit arbeitet Google an der Verbesserung der Spracherkennungsfähigkeiten in den unterschiedlichsten Applikationen. Hilfreich für die Analyse und das Verständnis von grammatischen Satzstrukturen sind neurale Netzwerk-Frameworks wie SyntaxNet, das seit letztem Jahr Open Source zur Verfügung steht.

Während das zwar für die englische Sprache bereits gut funktioniert, ist das Erstellen von Machine-Learning-Systemen für andere Sprache aber noch immer eine große Herausforderung. Das nun verfügbare Upgrade von SyntaxNet soll genau hier nun nachbessern.

Im Fokus des SyntaxNet-Upgrades steht vor allem eine neue Technologie, die das „learning of richly layered representations of input sentences“ ermöglicht. Damit erweitert das Upgrade TensorFlow um die Möglichkeit, mehrere Level linguistischer Strukturen zu modellieren. Gleichzeitig können neurale Netzwerk-Architekturen dynamisch während der Verarbeitung eines Satzes oder Dokuments erstellt werden.

So können künftig leichter zeichenbasierte Modelle entwickelt werden, die darauf trainiert werden, einzelne Zeichen zu Worten zu verarbeiten. Die Modelle können so lernen, dass Worte mit gleichem Stamm miteinander verwandt sind. Dazu sagen David Weiss und Slav Petrov im Google-Open-Source-Blog:

Systematic patterns in morphology and syntax allow us to guess the grammatical function of words even when they are completely novel []. Based on this analysis we can then derive the overall structure of this sentence even though we have never seen the words before.