Bilder automatisch mit DeepMask, SharpMask und MultiPathNet segmentieren

Facebook stellt Machine Vision Tools Open Source zur Verfügung
Kommentare

Facebook hat bekanntgegeben, seine Machine-Vision-Tools DeepMask, SharpMask und MultiPathNet Open Source zur Verfügung zu stellen. Das Unternehmen will auf diese Weise dazu beitragen, die Entwicklungen im Bereich des maschinellen Sehens weiter voranzutreiben.

Die Fortschritte im Bereich der Machine Vision haben in den vergangenen Jahren nicht nur die Präzision in der Bildklassifizierung, sondern auch die Trefferquote bei der Objekterkennung merklich erhöht. Trotz dieser enormen Verbesserungen ist es nach wie vor schwierig, die klassifizierten und erkannten Objekte eindeutig zuzuordnen.

An diesem Punkt kommen AI-gestützte neuronale Netzwerke ins Spiel. Sie basieren auf Architekturen mit mehreren Millionen Parametern, die nicht entworfen, sondern trainiert werden. Auf diese Weise ist es Programmen möglich, automatisch zu ermitteln, was die betroffenen Objekte repräsentieren.

Das Facebook-AI-Research-Team (FAIR) hat sich vorgenommen, diese Entwicklungen weiter voranzutreiben. In Zukunft soll es Computern möglich sein, die unterschiedlichen Objekte in Bildern zu erkennen und klar zuzuordnen. Das Team stützt sich dabei auf neuronale Netzwerktechnologien.

DeepMask, SharpMask und MultiPathNet

Um die Fortschritte im Bereich des maschinellen Sehens weiter zu verbessern, hat Facebook seine Tools zur Bildklassifizierung (DeepMask) und zur Objekterkennung (SharpMask) sowie seine Objektermittlungs-Software (MultiPathNet) Open Source zur Verfügung gestellt. Interessierten ist es zudem erlaubt, einen Blick auf die Forschungsarbeiten und die dazugehörigen Demos zu werfen.

As we continue improving these core technologies we’ll continue publishing our latest results and updating the open source tools we make available to the community.

Wie das FAIR-Team mitteilt, ist es keine leichte Aufgabe, die nahezu unendlichen Objektvariationen und -szenen in der realen Welt treffsicher durch Maschinen zu erfassen. In ihrem Blogeintrag macht das Team daher nicht nur ihre Open-Source-Ankündigung bekannt, sondern gewährt ebenfalls einen Einblick in die dreischrittige Arbeitsweise von DeepMask, SharpMask und MultiPathNet.

Machine Vision und Deep Learning

Zunächst stellt DeepMask fest, wie viele unterschiedliche Objekte sich in einem Bild befinden. Dafür unterteilt das Tool ein Bild in ein gitternetzähnliches Raster von Patches. Jeder Patch wird daraufhin untersucht, ob und wie viele Objekte es enthält. DeepMask ist so in der Lage, die groben Formen verschiedener Objekte zu ermitteln. In einem zweiten Schritt werden diese vagen Informationen per SharpMask spezifiziert, indem jeder Pixel eines Bildes unter die Lupe genommen wird.

To capture general object shape, you have to have a high-level understanding of what you are looking at (DeepMask), but to accurately place the boundaries you need to look back at lower-level features all the way down to the pixels (SharpMask).

Die Schwierigkeit besteht nun darin, die Relevanz der so ermittelten Muster zu analysieren, um eindeutig bestimmen zu können, was die vorhandenen Objekte repräsentieren. An dieser Stelle wird von MultiPathNet Gebrauch gemacht. Das Tool greift auf ein Deep-Learning-Neural-Network zurück, um die per DeepMask und SharpMask gesammelten Informationen zu prüfen und ihnen Bedeutung zu geben.

In summary, our object detection system follows a three stage procedure: (1) DeepMask generates initial object masks, (2) SharpMask refines these masks, and finally (3) MultiPathNet identifies the objects delineated by each mask.

Augmented Reality und die Zukunft des maschinellen Sehens

Der Grund, warum sich das FAIR-Team der Verbesserung des maschinellen Sehens verschrieben hat, liegt im breiten Potenzial dieser Technik. Die automatische Erkennung von Objekten erleichtert beispielsweise die Suche nach Bildern, die nicht mit einem bestimmten Tag ausgestattet sind.

Auch Nutzer mit Sehschwäche können von dieser Technologie profitieren. Entsprechende Ausgabegeräte sind nicht mehr ausschließlich auf Bildunterschriften und Tags angewiesen, sondern können Dateien selbstständig auslesen und beschreiben. Darüber hinaus soll die Technik die Image-Ausgabe des Facebook-Newsstreams verbessern und die immersive Erfahrung der Nutzer steigern.

Ferner sind Szenarien denkbar, in denen die Software im Bereich der Augmented Reality zum Einsatz kommt. Durch die automatisierte Bilderkennung können etwa sowohl Angaben zum derzeitigen Gesundheitsstand gemacht als auch zusätzliche Informationen über Produkte und Services ausgegeben werden.

Das FAIR-Team will in Zukunft seine Bemühungen zudem auf den Videobereich ausweiten. Eine Klassifizierung in Echtzeit soll dabei helfen, die Relevanz von Live-Videos auf Facebook einzuschätzen.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -