Bibliothek zur Bilderkennung erhält Upgrade

TF-Slim: Komplexe Modelle in TensorFlow trainieren
Kommentare

Seit der Veröffentlichung der Library TF-Slim zum Definieren, Trainieren und Evaluieren von Modellen in TensorFlow ist einige Zeit vergangen. Grund genug, einen Blick auf die neuen Features zu werfen.

Um zu verstehen, worum es sich bei TF-Slim genau handelt und was die Library alles kann, ist ein kurzer Rückblick auf Googles Deep-Learning-Forschungen von Nöten:

Bereits im März hat Google das Deep-Learning-Modell Inception-v3 Open Source gestellt, sodass sich damit eigene Image Classifier trainieren lassen. Das Modell macht es möglich, Bilder anhand von TensorFlow-Modellen zu klassifizieren. So gelingt es Inception-v3, ein Bild aus 1.000 verschiedenen Kategorien zu erkennen und zu klassifizieren – und das mit einer Fehlerquote, die menschlicher Leistung gleichkommt.

Inception-v3 kann dabei auf einer oder mehreren GPUs eingesetzt werden. Zu den Features zählen zum Beispiel das Training eines Inception-v3-Modells mit synchronen Updates über mehrere GPUs hinweg und die Nutzung von Batch Normalization, um den Lernprozess des Modells schneller zu machen. Außerdem lassen sich Veränderungen im Bild dazu nutzen, um das Modell-Training zu verbessern. Indem User auf das vortrainierte Inception-v3-Modell zurückgreifen und dieses für eine neue Aufgabe „feintunen“, lässt sich auch ein Transfer-Lernprozess beobachten und nutzen.

Gleichzeitig veröffentlichte das Google-Team auch die experimentelle Bibliothek TF-Slim (TensorFlow-Slim), die das Spezifizieren von komplexen Modell-Architekturen vereinfachen soll und auf der Inception-v3 basiert. Nach rund einem halben Jahr Entwicklungszeit ist es an der Zeit, einen Blick auf die Neuerungen in TF-Slim zu werfen und die Fortschritte zu beleuchten.

API Summit 2017

Web APIs mit moderner Web-Technologie konsumieren

mit Rainer Stropek (software architects)

API First mit Swagger & Co.

mit Thilo Frotscher (Freiberufler)

TF-Slim – das sind die neuen Features

Die Library TF-Slim bietet bekannte Abstraktionen, die es Nutzern ermöglichen, Modelle schnell und präzise zu definieren. Dabei bleibt die Modell-Architektur transparent und ihre Hyperparameter eindeutig. TF-Slim hat sich erheblich weiterentwickelt und beispielsweise neue Arten an Layern, Verlustfunktionen und Evaluationsmetriken zu seinem Repertoire hinzugefügt. Auch nützliche Routinen zum Trainieren und Evaluieren von Modellen konnten sich entwickeln. Des Weiteren hat das Google-Team die TF-Slim Image Models Library kreiert, die Definitionen und Trainingsskripte für verschiedene Bilderkennungsmodelle bietet.

Jetzt ist eine neue Version von TF-Slim erschienen, zu deren Highlights verschiedenste Arten von Layern (z. B. Atrous Convolution und Deconvolution) zählen, die eine umfangreichere neurale Netzwerk-Architektur ermöglichen. Auch soll eine Deployment-Library das Ausführen von synchronem bzw. asynchronem Training auf verschiedenen GPUs/CPUs vereinfachen.

Zudem steht Code zur Verfügung, um Image-Classification-Modelle wie Inception oder VGG zu definieren und zu trainieren. Für diese Modelle sind wiederum im ImageNet Classification Dataset vortrainierte Modelle verfügbar. Darüber hinaus bringt TF-Slim Tools zum einfachen Verarbeiten von Standard-Bilddatensätzen wie ImageNet mit sich.

Wer mit TF-Slim direkt loslegen möchte, findet im Google-Research-Blog weitere Informationen sowie detaillierte Anleitungen. Noch mehr Infos bietet das Readme auf GitHub.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -