SyntaxNet-Upgrade vereinfacht das Erstellen von zeichenbasierten Modellen

Spracherkennung: Upgrade für SyntaxNet und neue ParseySaurus-Modelle
Kommentare

Vor rund einem Jahr wurde Googles neurales Netzwerk-Framework SyntaxNet Open Source zur Verfügung gestellt. Nun steht ein umfangreiches Upgrade für SyntaxNet und den Parser Parsey McParseface bereit.

Schon seit einiger Zeit arbeitet Google an der Verbesserung der Spracherkennungsfähigkeiten in den unterschiedlichsten Applikationen. Hilfreich für die Analyse und das Verständnis von grammatischen Satzstrukturen sind neurale Netzwerk-Frameworks wie SyntaxNet, das seit letztem Jahr Open Source zur Verfügung steht.

Während das zwar für die englische Sprache bereits gut funktioniert, ist das Erstellen von Machine-Learning-Systemen für andere Sprache aber noch immer eine große Herausforderung. Das nun verfügbare Upgrade von SyntaxNet soll genau hier nun nachbessern.

Upgrade von SyntaxNet – das ist neu

Im Fokus des SyntaxNet-Upgrades steht vor allem eine neue Technologie, die das „learning of richly layered representations of input sentences“ ermöglicht. Damit erweitert das Upgrade TensorFlow um die Möglichkeit, mehrere Level linguistischer Strukturen zu modellieren. Gleichzeitig können neurale Netzwerk-Architekturen dynamisch während der Verarbeitung eines Satzes oder Dokuments erstellt werden.

So können künftig leichter zeichenbasierte Modelle entwickelt werden, die darauf trainiert werden, einzelne Zeichen zu Worten zu verarbeiten. Die Modelle können so lernen, dass Worte mit gleichem Stamm miteinander verwandt sind. Dazu sagen David Weiss und Slav Petrov im Google-Open-Source-Blog:

Systematic patterns in morphology and syntax allow us to guess the grammatical function of words even when they are completely novel []. Based on this analysis we can then derive the overall structure of this sentence even though we have never seen the words before.

Bisher arbeiteten der Parser Parsey McParseface sowie Parsey’s Cousins über Wortsequenzen hinweg. Fanden sich für den Parser unbekannte Worte im Satz, musste er zur Bestimmung deren grammatischer Funktion auf den Kontext zurückgreifen, um die Bedeutung des Satzes zu erkennen. Insbesondere für das multilinguale Sprachverständnis ist das demnach eine überaus nützliche Erweiterung des SyntaxNet-Modells.

Analyse der Satzstruktur bei SyntaxNet

Analyse der Satzstruktur bei SyntaxNet

ParseySaurus

Um die neuen Fähigkeiten des erweiterten SyntaxNet-Modells besser veranschaulichen zu können, steht mit ParseySaurus auch ein Set neuer vortrainierter Modelle bereit. Sie nutzen die zeichenbasierte Eingabemethode von SyntaxNet und können so die Bedeutung unbekannter Worte besser vorhersagen.

Damit sind die ParseySaurus-Modelle deutlich genauer als die Modelle von Parsey’s Cousins. Gerade bei morphologisch reichen Sprachen wie Russisch oder agglutinierenden Sprachen wie Türkisch oder Ungarisch ist das hilfreich. Das folgende Bild veranschaulicht, wie das Modell einen (fiktiven) russischen Satz analysiert.

Analysevorgang ParseySaurus

Analysevorgang ParseySaurus, Quelle: Google

Im oben genannten Blogpost im Google-Open-Source-Blog erklären Weiss und Petrov die neuen Modelle für SyntaxNet und ParseySaurus noch mal ausführlich. Beides steht auf GitHub zum Download zur Verfügung.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -