Machine-Learning-Daten interpretieren und visualisieren

Embedding Projector visualisiert komplexe Machine-Learning-Daten
Kommentare

Wie genau Machine-Learning-Modelle Daten interpretieren, ist für Menschen nicht einfach zu durchdringen. Denn die Daten haben oft hunderte oder gar tausende von Dimensionen. Das Tool Embedding Projector visualisiert die Daten und wurde jetzt von Google Open Source gestellt.

Menschen denken meist in drei Dimensionen: Höhe, Breite, Tiefe. Mit der Zeit als vierte Dimension können wir meistens auch noch umgehen. Alles darüber hinaus sprengt einfach die Vorstellungskraft. Die Algorithmen des Maschinellen Lernens interpretieren Daten in vielen Dimensionen. Um das nachvollziehen zu können, ist Visualisierung gefragt. Embedding Projector ist eine Web-Applikation für die interaktive Visualisierung und Analyse von hoch-dimensionalen Daten. Es war das Ergebnis eines A.I. Experiments. A.I. Experiments sind kleine von Google gehostete Showcases für Machine-Learning-Anwendungen, mit denen jeder herumspielen kann, um die Technologie zu erkunden und besser zu verstehen.

Embedding Projector ist Teil von TensorFlow. Es wird auch eine Stand-alone-Variante geben, die auch läuft ohne TensorFlow installiert zu haben. Auf der Projektseite stehen auch ein paar Datensammlungen zum Ausprobieren bereit.

So funktioniert Embedding Projector

Machine-Learning-Systeme übersetzen für Menschen einfach verständliche Dinge wie Wörter oder Geräusche in eine Form, die Computer verstehen und verarbeiten können. Dazu nutzen sie sogenannte Embeddings, mathematische Vektoren, die verschiedene Facetten der Daten (Dimensionen) repräsentieren. Bei Wörtern lassen sich zum Beispiel ähnliche Worte als Punkte darstellen, die nah beieinander liegen. Mit Embedding Projector können Anwender durch Datenansichten in 2D oder 3D navigieren. Sie können zoomen, die Ansicht drehen und schwenken.

Embedding Projector bietet drei verbreitete Methoden, um die Dimensionen der Daten zu reduzieren. Das macht die Visualisierung einfacher. Es nutzt PCA, t-SNE und lineare Projektion. PCA kommt vor allem dann zum Einsatz, wenn man die internen Strukturen der Embeddings untersuchen möchte. Es zeigt die einflussreichsten Dimensionen der Daten. t-SNE wird genutzt, um lokale Gebiete und Cluster zu finden. So können Entwickler sicherstellen, dass das Embedding die Bedeutung der Daten beibehält. Lineare Projektion hilft dabei, interessante “Richtungen” der Daten zu erkennen; zum Beispiel den Unterschied zwischen formalem und umgangssprachlichem Ton einer Sprache. Das Paper “Embedding Projector: Interactive Visualization and Interpretation of Embeddings” beschreibt das Tool und den Prozess genauer.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -