Größtes Datenset für Videoverständnis-Research steht zur Verfügung

YouTube-8M: Besseres Videoverständnis dank neuem Datenset
Kommentare

Vor allem in letzter Zeit gab es immer wieder Durchbrüche im Bereich Machine Learning und Machine Perception – nicht zuletzt dank der Verfügbarkeit immer umfangreicherer Datensets, die die Recherche im Bereich Bildverständnis signifikant beschleunigt haben. Mit YouTube-8M hat Google nun ein neues Datenset zum besseren Videoverständnis Open Source veröffentlicht – und das kann sich insbesondere in puncto Umfang sehen lassen.

YouTube-8M umfasst ein Datenset aus acht Millionen YouTube-Video-URLs sowie Labels aus einem vielfältigen Set aus 4800 Knowledge-Graph-Entities. Das neue Datenset übertrifft beim Umfang damit deutlich das bisher größte Video-Datenset Sports-1M, das über rund eine Millionen YouTube-Videos und 500 sportspezifische Klassen verfügt.

Das steckt in YouTube-8M

Gerade im Bereich Image Recognition hat sich in der jüngsten Vergangenheit einiges getan und es konnten einige Erfolge beim Erkennen und Klassifizieren von Objekten in statischen Bildern gefeiert werden. Grundsätzlich bietet die Analyse von Videos für das Erkennen von Objekten und das Verständnis menschlicher Handlungen und Interaktionen deutlich mehr Informationen als statische Bilder. Allerdings fehlte es bisher an Real-Word-Video-Datensets, die es in Sachen Umfang und Vielfältigkeit mit den verfügbaren Image-Datensets aufnehmen konnten.

Genau hier soll YouTube-8M ansetzen und mit seinem Datenset bestehend aus acht Millionen YouTube-Videos und 4800 Klassen zu einem besseren Videoverständnis beitragen. Ein solch umfangreiches Datenset zu erstellen, stellt die Entwickler jedoch vor einige Herausforderungen, etwa:

  • Videos manuell zu annotieren, ist deutlich zeitaufwändiger als Bilder zu annotieren
  • Videos sind in ihrer Verarbeitung und Speicherung deutlich rechen- und ressourcenintensiver

Annotation der Videos

YouTube verfügt über ein eigenes Annotation-System, das relevante Knowledge-Graph-Themen für alle öffentlichen YouTube-Videos identifiziert. Sie umfassen zudem User-Engagement-Signale von Millionen User sowie Video-Metadaten und Content-Analysen, die für Videoverständnis-Research und Benchmarking eine ausreichend hohe Qualität mitbringen.

Um die Stabilität und Qualität des Datensets sicherzustellen, wurden nur öffentliche Videos mit mehr als 1.000 Aufrufen genutzt. Zudem wurde ein vielfältiges Entities-Vokabular erstellt und in 24 Top-Level-Verticals gruppiert. Die Verteilung der Videos darin zeigt zum einen den Umfang und die Vielfältigkeit des Datensets, zum anderen reflektiert sie die Verteilung beliebter YouTube-Videos:

YouTube-8M: Verteilung Top-Level-Verticals, Quelle

YouTube-8M: Verteilung Top-Level-Verticals, Quelle: Google

Speicher- und Ressourcen-Probleme vermeiden

Das zweite große Problem beim Erstellen des Datensets war dessen Ressourcenintensivität. Um YouTube-8M auch Researchern und Studenten mit begrenzten Computerressourcen zugänglich zu machen, hat das Entwicklerteam die Videos bereits vorverarbeitet und mithilfe des Deep-Learning-Modells Inception-V3 Frame-Level-Features aus ihnen gewonnen. Dazu sagen Sudheendra Vijayanarasimhan und Paul Natsev in ihrem Blogpost zum Thema:

These features are extracted at 1 frame-per-second temporal resolution, from 1.9 billion video frames, and are further compressed to fit on a single commodity hard disk (less than 1.5 TB).

Damit kann das Datenset problemlos heruntergeladen und ein TensorFlow-Modell auf einer einzigen GPU in weniger als einem Tag trainiert werden. Das Entwicklerteam verspricht sich davon vor allem eine signifikante Beschleunigung beim Verständnis von Videos und der Video-Modeling-Architektur. Mehr Informationen dazu bietet der oben genannte Blogpost sowie der zugehörige Technical Report. YouTube-8M steht auf der Projektwebsite zum Download zur Verfügung.

Übrigens: Wer mehr zum Thema Machine Learning erfahren will, wird im Dossier: Machine Learning fündig, das aktuell im entwickler.kiosk kostenlos zur Verfügung steht.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -