Deep Learning und KI: PlaNet erkennt Orte dank neuronaler Rasterfahndung ohne Geodaten

PlaNet: Googles neuronales Netzwerk identifiziert Aufnahmeort von Fotos
Kommentare

Googles neuestes Deep-Learning-Projekt PlaNet ist in der Lage, den Aufnahmeorte von Fotos anhand des Bildhintergrunds zu erkennen. Mit genügend Ressourcen gelingt dem hochentwickelten neuronalen Netzwerk dieses Kunststück sogar besser als Menschen.

Menschen sind unterschiedlich gut darin, Fotos geografisch einzuordnen. Für neuronale Netzwerke war das bisher hingegen eine kaum lösbare Aufgabe. Google hat bereits große Fortschritte bei KI-unterstützter maschineller Übersetzung gemacht. Auch die Fähigkeiten etwa Gemälde oder Grafiken im Internet zu finden oder Tiere und Gesichter auf Bildern zu erkennen – beispielsweise mithilfe des Machine-Learning-Framework TensorFlow – sind beeindruckend. Jetzt hat ein Team von Google-Forschern an der Cornell University ein neuronales Netzwerk namens PlaNet vorgestellt, das den Aufnahmeort von Fotos besser erkennt als Menschen.

PlaNet: KI erkennt Orte ohne Zuhilfenahme von Geodaten

Die Forscher musste in seiner Entwicklung schwierige technische Hürden überwinden: Während der Mensch seine Erfahrung über Architektur, Haustiere, Klima, Denkmäler und kulturelle Eigenarten der Menschen nutzen kann, um Bildern erstaunlich gut identifizieren kann, muss PlaNet auf weitere Mittel und Kniffe zurückgreifen, um diese biologischen und kulturellen Fähigkeiten des menschlichen Verstandes zu kompensieren.

Neuronale Rasterfahndung: die Welt in 26.000 Vierecken

Das Team um Tobias Weyand, dem auch Ilya Kostrikov von der RWTH Aachen angehört, hat ein lernendes neuronales (ANN) Netzwerk geschaffen, das ein Foto lediglich anhand der Pixel im Bild untersucht und mit Hilfe einer Datenbank analysiert. Zunächst wurde jedoch die Weltkarte in ein Raster von 26.000 Vierecken unterteilt. Die Vierecke unterscheiden sich in ihrer Größe: Je mehr Fotos von einer bestimmten Region zur Verfügung stehen, desto kleiner sind dort die Vierecke. Ergo ist das Raster umso feiner, je urbaner und dichter besiedelt die Gegend ist. Danach trainierten die Forscher das neuronale Netzwerk mit 126 Millionen Fotos, die Geotags enthalten, sprich Exif-Daten in der Bilddatei, die den Ort angegeben. Auch die Vegetation und identifizierbare Wortfetzen, Symbole und das Wetter dienen zur Einordnung. Technisch gesprochen werden die Bilder nicht lokalisiert, sondern, so heißt es im Forschungspaper, klassifiziert.

Figure 2. Left: Adaptive partitioning of the world into 26,263 S2 cells. Right: Detail views of Great Britain and Ireland and the San Francisco bay area.

Abbildung 1: Auf der linken Seite ist die Weltkarte in  26,263 Zellen partitioniert. Rechts ist Großbritannien und Irland und die San Francisco Bay Area. Unter Copyright bei Google auf Arxiv.org.

Das hat Weyand zufolge den Vorteil, dass mehrere wahrscheinliche Orte angegeben werden können, während ein „regressives“ Modell sich auf eine Lösung festlegen müsste, selbst wenn sie unwahrscheinlich ist. Während Gebiete wie Alaska oder das Nordkap aufgrund des Mangels von Quellen nur grobe Raster kriegen, gibt es Stadtgebieten eine Bilderflut.

Unbenannt

Abbildung 2: Der Eiffelturm ist logischerweise unverwechselbar (a). Aber der Fjord kann für PlaNet in Neuseeland oder in Norwegen liegen (b). Der Strand hingegen könnte in der Levante oder in Mexico sein (c). Unter Copyright bei Google auf Arxiv.org.

PlaNet hat bessere Ortskenntnis als Menschen

Wie gut PlaNet funktioniert, erfuhren die Forscher nach einem test mit 2,3 Millionen Fotos von Flickr. PlaNet konnte 3,6 Prozent der Bilder auf die Straße genau einordnen, 10,1 Prozent auf die Stadt genau. Das richtige Land wurde zu 28,4 Prozent richtig identifiziert, der Kontinent zumindest in 48 Prozent der Fälle. Die Zahlen mögen zunächst nicht beeindrucken. Doch in einem Quiz, in dem zehn Weltenbummler gegen das neuronale Netzwerk antraten, zeigte sich, dass das neuronale Netzwerk 28 von 50 Partien gewann. Man kann das nicht besonders einfache Spiel Geoguessr übrigens kostenlos auf dem Browser ausprobieren, um zu sehen, wie viele Treffer man selbst bei 50 Versuchen landet.

Insbesondere bei Sequenzen von Fotos in Alben kann der Algorithmus auftrumpfen. Das Vergleichen von allgemeinen und besonderen Orten innerhalb von Fotoserien lässt das Programm Wahrscheinlichkeiten für verschiedene Orte errechnen, das neuronale Netz bildet gewissermaßen ein Kurzzeitgedächtnis.

Unbenannt

Abbildung 3: Umso kälter die Heatmap, umso unsicherer ist sich das ANN. Die Einzigkeit des Grand Canyons macht eine Identifizierung wahrscheinlich auf der Linken. In der Mitte ist es wahrscheinlich Norwegen aufgrund der Kombination von Architektur und weißen Gipfeln. Rechts hingegen überwiegt Unsicherheit. Die Pflanze ist untypisch für den Favoriten aus der Sequenz, Shanghai. Unter Copyright bei Google auf Arxiv.org.

Natürlich gibt es Grenzen. Wo es keine Fotos gibt, etwa von Grönland, kann Google’s ANN auch nichts analysieren. Aber die menschliche Begrenzung – sprich die Limitierungen aufgrund individueller Ressourcen (wie viel, wie lange und wie weit man reisen kann und wie viel man sich dabei merken kann), hebelt der endlose Speicher von Googles neuronalem Netzwerk eben doch aus.

Die letzte erstaunliche Tatsache ist, dass das Programm nur 377 MB benötigt, also eigentlich schon Smartphone-ready ist. Wenn man bedenkt, wie jung diese erste funktionsfähige Version ist und das sie auf kumulativem Wissenssammlung beruht, sollten wir auf weitere erstaunliche Fortschritte in Suchalgorithmen in der nicht allzu ferner Zukunft hoffen.

Wie gut sind Sie im Erkennen von den Orten auf den Fotos? Googles Abweichung lag bei durchschnittlich 1131,7 KM.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -