Motion Capturing – was passiert da eigentlich genau?

Motion Capturing hinter den Kulissen
Kommentare

Vor allem Videospielern dürfte der Begriff des Motion Capturing ein Begriff sein, die meisten anderen kennen zumindest das Bild von Schauspielern in hautengen, mit Kugeln behafteten Anzügen, die von Kameras gefilmt werden. Doch dahinter steckt mehr, als man auf den ersten Blick vermuten würde.

So haben sich Entwickler bestimmt schon des Öfteren gefragt, welche Größe die mit dem Motion Capturing gesammelten Daten eigentlich haben. Gibt es wirklich nur diese eine Art des Trackens? Geht es nur darum, die Daten zu sammeln? Und wenn nicht: Was passiert im Anschluss des Datensammelns beim Motion Capturing?

Motion Capturing

Vereinfacht gesagt beschreibt Motion Capturing eine Technologie, mit der man Bewegungen von echten Menschen oder Tieren auf virtuelle Figuren übertragen kann. Nun haben wir in Frankfurt die angenehme Situation, ein genau auf dieses Thema spezialisiertes Unternehmen quasi direkt vor der Haustür zu haben: metricminds, das unter anderem an vor allem in Spielerkreisen bekannten Projekten wie Crysis, Gears of War 3, Sniper 2, Alan Wake, Dead Island, Evolve und Dying Light mitgewirkt haben.

Was also liegt näher, als all die Fragen eben den Leuten zu stellen, deren tägliches Brot es ist, uns in Spielen oder anderen Produktionen möglichst lebensechte Animationen zu bieten? Viel Spaß bei spannenden Einblicken in ein aufregendes Betätigungsfeld, aufgeteilt in folgende Bereiche:

☆ Über Motion Capturing & metricminds
☆ Capturing von Körpern, Händen und Gesichtern
☆ Showreel
☆ Projektablauf
☆ Datenmengen & Co.
☆ Retargeting, Skeleton Solving & more
☆ Natürliche Grenzen
☆ Über Philip Weiss

Über Motion Capturing und metricminds

Herr Weiss, mit Ihrer Firma metricminds verstehen Sie sich als „Provider für animierten Content“. Was genau darf man darunter verstehen?

Philip Weiss: Wir sind Dienstleister für Animation. Das bedeutet im Prinzip, dass wir – hauptsächlich für Computer- und Videospiele – Figuren animieren.

Ursprünglich haben wir als reines Motion-Capture-Studio angefangen und damit Mocap als Service angeboten. Über die Jahre haben wir eine Evolution durchgemacht und weitere Schritte in der Produktionspipeline übernommen. Heute ist unsere größte Dienstleistung die Produktion von so genannten „Cutscenes“, also den Zwischensequenzen in Spielen, die den Spieler über seine Aufgaben informieren, ihn motivieren und die Stimmung festlegen, während sie helfen, die Geschichte weiterzuerzählen.

Begonnen hatte also alles mit Motion Capturing. Wie genau kann man sich das vorstellen?

Weiss: Ganz simpel formuliert, ist Motion Capture eine Technologie, die es ermöglicht, Bewegungen von Menschen in der Realität auf virtuelle Figuren zu übertragen.

Dabei gilt es zunächst einmal, zwischen verschiedenen Arten von Motion Capture zu unterscheiden; wir nutzen beispielsweise ein passiv-optisches System. Das bedeutet, wir haben einen abgetrennten Aufnahmebereich, der von Kameras umgeben ist. Jede dieser Kameras strahlt Licht im Infrarotbereich aus, das von Markerkugeln auf dem Anzug unserer Darsteller reflektiert wird. Eben dieses reflektierte Licht wird von den Kameraoptiken aufgenommen und liefert uns die nötigen Informationen, um eine Bewegung im Raum zu erfassen.

Motion Capturing Studio

Der abgetrennte Aufnahmebereich, von Kameras umgeben.

Durch dieses System haben wir die Möglichkeit, in kurzer Zeit eine große Anzahl von lebensechten Bewegungsdaten zu erstellen und sie in die jeweilige Zielplattform zu überführen.

Hierfür benutzen wir ein System der Marke OptiTrack. Wir haben letztes Jahr im Zuge eines Investments das neue System mit insgesamt 68 Spezialkameras angeschafft.

Das optische Tracking mit Markern, die am Körper eines Schauspielers befestigt sind, dürfte die geläufigste Methode beim Motion Capturing sein. Welche Art von Equipment ist nötig, um die Daten zu erfassen?

Weiss: Eine ganze Menge: spezielle Anzüge, Marker, das Kamerasystem selbst mit den zugehörigen Hardwarekomponenten und natürlich auch die Fläche, um das Ganze aufzubauen. Und natürlich erfahrenes Personal, um das Bestmögliche aus dem System herauszuholen. Wie bereits angedeutet, nutzen wir beispielsweise ein System mit 68 Kameras und decken damit eine Aufnahmefläche von 8 x 16 Metern und einer Höhe von bis zu 4 Metern ab.

OptiTrack Kamera

Eine der 68 Spezialkameras

Inzwischen gibt es auch einige Ansätze, die es Endnutzern schnell und verhältnismäßig günstig ermöglichen, selbstständig Motion-Capture-Daten zu erstellen; allerdings sind hier deutliche Abstriche an der Aufnahmefläche und der Genauigkeit zu machen, und die Nachbearbeitung der Daten muss natürlich selbst erledigt werden. Wir haben hierfür eine spezielle Pipeline entwickelt, die es uns ermöglicht, sehr schnell an saubere Daten zu gelangen. Im Endeffekt kommt es dabei immer auf den gewünschten Verwendungszweck an.

Von Kopf bis Fuß in Bewegung

Beschränkt sich das Motion Capturing auf Bewegungsabläufe des Körpers oder ist das auch noch feingranularer vorstellbar, zum Beispiel für Hände, Gesichter oder Ähnliches?

Weiss: Vorstellbar ist ein markerbasierter Ansatz für die Aufnahme von solchen Daten durchaus, wir haben bereits Versuche in diese Richtung durchgeführt.

Gesichter sind im Vergleich zu Händen und dem Körper sehr viel komplexer in ihrer Bewegungsmechanik. Für Gesichter verwenden wir in der Produktion spezielle Helme mit Kameras, die das Gesicht abfilmen. Es gibt Software, mit deren Hilfe aus diesen Videoaufnahmen Gesichtsanimationen erzeugt werden können.

Hände können genauso wie der Körper bemarkert werden. Je nach Art der Inhalte sind die Nachbearbeitungsschritte nach dem Dreh entsprechend aufwändiger als die, die für den reinen Körper notwendig sind.

… Gesichter oder Hände sind also generell komplizierter zu erfassen?

Weiss: Das ist richtig. Gerade um solche Daten mit einem klassischen Motion-Capture-System zu erfassen, würde es abhängig von den gewünschten Bewegungen einiges an Vorarbeit kosten, das so zu ermöglichen. Im Extremfall wäre sogar ein kompletter Umbau des Aufnahmesystems nötig. Gerade aus diesem Grund gibt es einige andere Möglichkeiten, um solche Aufnahmen zu realisieren.

Für Hände und Finger wird zum Beispiel nicht jeder Finger oder jedes Fingerglied erfasst, sondern lediglich das Öffnen und Schließen der Hand und des Daumens.

Das Erfassen ist lediglich der erste Schritt des Herstellungsprozesses einer Animation.

Für Gesichter oder Full-Performance-Capture – die gleichzeitige Aufnahme von Gesichts- und Körperdaten – wird die Mimik des Darstellers mit einer Helmkamera aufgenommen und anhand von Videodaten ausgewertet.

Das Erfassen – wir nennen es „capturen“ – ist lediglich der erste Schritt des Herstellungsprozesses einer Animation. Für uns ist das capturen ein Werkzeug, wie es z.B. der Hammer für einen Zimmermann ist. Wenn wir eine Produktion planen, überlegen wir uns exakt, was wir für das finale Produkt benötigen. Würden wir einen Klavierspieler animieren, würden wir sehr viel eher dazu tendieren, Finger zu capturen als bei einem Parcourslauf, da der benötigte Produktionsaufwand andere Schwerpunkte mitbringt. Vergleichbar ist das mit der Gesichtsanimation. Das Capturen ist wieder nur der Anfang, aber je nach gefordertem Detailgrad des fertigen Produkts gibt es gravierende Unterschiede bei der Nachbearbeitung.

Viel komplexer wird dann allerdings die Technik, die es ermöglicht, die aufgenommenen Daten auf eine Figur zu übertragen. Die besten Bewegungsdaten nützen nichts, wenn der zu animierende Charakter nur für drei Gesichtsausdrücke vorbereitet wurde. Hier entscheidet sich auch, wie filigran die Bewegungen im Gesicht dargestellt werden können.

Wie eng sind Animationen mit der Erfassung von Bewegungsabläufen verknüpft? Kann man das in einen Topf werfen, also verschwimmen da die Grenzen oder sind das komplett voneinander losgelöste Themen?

Weiss: Die erfassten Bewegungsabläufe sind im Prinzip die Rohform der Animation. Je nachdem, für welchen Verwendungszweck die Animationen benötigt werden, gilt es noch einiges daran zu ändern oder anzupassen. Für In-Game-Animationen müssen die Daten passend zugeschnitten und mit Anfangs- und Endposen versehen werden, damit alles reibungslos ineinander übergehen kann.

Beim Aufbau von größeren Cutscenes hingegen gilt es, die einzelnen Motion-Capture-Aufnahmen in einer Szene zusammenzubringen und die Performance der Darsteller basierend auf der finalen Kameraansicht weiter zu verbessern oder zeitlich anzupassen. Dieser Arbeitsschritt, der aus den reinen Motion-Capture-Daten fertige Animationen macht, wird von uns „Motion Editing“ genannt.

Animationen sind das Ergebnis. Nur wenn das Rohmaterial – also das Motion Capture – dafür konzeptioniert ist, kann es auch sinnvoll verwendet werden.

metricminds Showreel

Für alle, die sich einen kleinen Überblick über das Motion Capturing verschaffen möchten, hat uns metricminds einen aktuellen Showreel zur Verfügung gestellt.

Der typische Projektablauf

Wie kann man sich einen typischen Vertragsablauf vorstellen? „Der Kunde kommt zu Ihnen, bestellt eine Bewegung und das war’s“ ist wahrscheinlich viel zu einfach gedacht, oder?

Weiss: Grundlegend ist der Gedanke gar nicht so verkehrt. Im einfachsten Fall hat unser Kunde eine Reihe von Bewegungen, die er benötigt, und kommt damit auf uns zu. Wir werten aus, welcher Aufwand nötig ist, um die angefragten Dinge zu realisieren, erstellen ein Angebot dafür, legen einen Drehtermin fest und buchen Darsteller entsprechend zu den benötigten Fertigkeiten. Am Dreh selber wird gemeinsam mit dem Kunden aufgenommen und festgelegt, welche der Aufnahmen bearbeitet werden sollen. Danach werden die Daten bereinigt, zur finalen Qualität aufbereitet und schließlich auf die Figur des Kunden übertragen und so auch ausgeliefert.

Für ein bestmögliches Ergebnis sind professionelle Schauspieler unerlässlich.

Nun kann dieser Vorgang natürlich noch auf die verschiedensten Arten und Weisen ausgeschmückt und erweitert werden: Drehbuchanalyse, Casting für bestimmte Darsteller und Rollen, Aufbau von Kulissen und Props – nach oben hin sind dort eigentlich keine Grenzen gesetzt.

Bei Cutscenes kommt noch hinzu, dass wir die Szenen in einer Game-Engine aufsetzen, die Kameras setzen und animieren und die Szene beleuchten. Hier gibt es noch hunderte Facetten, die ein Projekt größer oder kleiner machen können.

Arbeiten Sie mit professionellen Schauspielern zusammen, um Bewegungen möglichst realistisch und aussagekräftig aufzeichnen zu können?

Weiss: Für ein bestmögliches Ergebnis ist das absolut notwendig. Auch wenn wir Bewegungsdaten mit extremer Genauigkeit aufzeichnen können, wird der finale Look des Ganzen doch durch die Performance des Darstellers bestimmt. Neben Schauspielern arbeiten wir unter anderem auch mit professionellen Stuntmen und Kampfsportlern zusammen, um ein möglichst authentisches Aussehen der Animationen zu erhalten.

Die Expertise der jeweiligen Darsteller in Bereichen wie beispielsweise Körpersprache oder Schaukampf ist am Set und bei der Konzeption von Bewegungsabläufen natürlich auch durchaus von Nutzen: Ungeübte Darsteller wissen z.B. oft nicht, was sie mit ihren Händen anstellen sollen oder fühlen sich sehr beobachtet und zeigen das durch ihre Körpersprache. All das sieht man am Ende auch in der Animation. Meistens ist es aber nicht erwünscht.

Wie gehen Sie vor, wenn die Bewegungsabläufe von Tieren aufgezeichnet werden sollen? Ein Tier wird sich nur selten wirklich kooperativ zeigen …

Weiss: Das ist im Grunde ähnlich wie Tieraufnahmen beim Realfilm: Optimal wäre es, Tiere zu haben, die darauf trainiert sind, mit der Umgebung eines Motion-Capture-Sets umzugehen. Da ein solches Training jedoch sehr kosten- und zeitintensiv ist, läuft es dann meist doch einfach auf viel Geduld und häufiges Ausbessern der verwendeten Marker hinaus.

Vor- und Nachbearbeitung erfordern ein hohes Maß an Analyse des Bewegungsapparats des Tieres.

In der Vergangenheit haben wir Filmtiere gebucht; das sind Tiere, die speziell trainiert wurden, um die üblichsten Bewegungen ihrer Art auf Abruf machen zu können. Bei speziellen Anforderungen kann man mit einigen Monaten Vorlauf auch Tiere speziell trainieren lassen, aber das kam bisher noch nicht vor. Wir haben schließlich in der Nachbearbeitung viel mehr Möglichkeiten, Bewegungen zu ergänzen, als es im Realfilm möglich ist.

Zudem kommt bei uns natürlich auch noch eine andere technische Komponente hinzu: Vor- und Nachbereitung der Aufnahmen erfordern ein hohes Maß an Analyse des Bewegungsapparats des jeweiligen Tieres, um eine funktionsfähige Anordnung von Markern zu entwerfen und ein Skelett zu entwickeln, das die gewünschten Bewegungen des Tieres auch abbilden kann.

Zahlenspiele

Ihr Unternehmen hat unter anderem an Klassikern wir der Crysis-Reihe oder Dying Light mitgewirkt – wie lange dauert es, bis eine Figur in einem Spiel vollständig durch Motion Capturing erfasst ist?

Weiss: Das ist schwer zu sagen, da im Normalfall nicht von einzelnen Figuren, sondern entweder von kompletten Projekten oder, im Fall von Zwischensequenzen, von Szenen gesprochen wird. Wir haben unsere Produktionsabläufe soweit optimiert das, je nach Wunsch des Kunden, eine erste Rohfassung der Daten bereits am Abend der Aufnahme zur Verfügung stehen kann. Mit diesen Daten können dann bereits weitere Arbeitsschritte, wie zum Beispiel die Kamerapositionierung, in Angriff genommen werden, während unsere Artists noch an den finalen Animationen arbeiten. Später können diese Daten dann einfach ausgetauscht werden.

Alles Weitere kommt dann auf den Umfang unserer Arbeiten an den jeweiligen Projekten an. Das kann reines Motion Editing sein oder auch die Auslieferung von fertig gerenderten Trailern, was dann eben mehr oder weniger Zeit in Anspruch nimmt.

Mit den Arbeiten an Dying Light war unser Team übrigens in etwa sechs Monate beschäftigt.

Von welchen Datenmengen sprechen wir bei einer vollständigen Erfassung im Motion Capturing?

Weiss: Auch hier lässt sich nur schwer eine einheitliche Antwort finden. Die Daten durchlaufen im Produktionsprozess verschiedene File-Formate, die jeweils mehr oder weniger effizient mit Speicher umgehen. Bei den reinen Bewegungsdaten reicht das Maß schon von einigen MB bis hin zu mehreren GB pro Einzelaufnahme, je nach Länge der Aufnahme und Anzahl der Darsteller.

Im Videobereich arbeiten wir aktuell mit Auflösungen im 4K-Bereich und dem damit einhergehenden Datenvolumen.

Retargeting, Skeleton Solving und mehr

Wie kann man sich diese Daten beim Motion Capturing überhaupt vorstellen? Sind das Koordinaten einzelner Marker, die dann auf ein virtuelles Skelett übertragen werden können?

Weiss: Tendenziell ja. Die 2-D-Daten der einzelnen Kameras werden zu 3-D-Koordinaten umgerechnet, und nach einer ersten Datenbereinigung werden Gruppen von Markern verwendet, um einzelne Knochen anzutreiben und so das gesamte Skelett zu bewegen.

Systemintern gibt es mehrere Datenstrukturen, die mit 2-D-Koordinaten erkannter Marker beginnen. Das, womit wir alltäglich arbeiten, sind allerdings 3-D-Daten der erfassten Marker.

Ist das Retargeting, also das Übertragen der Daten auf die virtuellen Charaktere, nicht der komplizierteste Schritt? Immerhin dürften reale Schauspieler nur selten über die körperlichen Eigenschaften ihres virtuellen Gegenstücks verfügen …

Weiss: Natürlich gibt es immer Differenzen zwischen Darstellern und der virtuellen Figur, so etwas drückt sich beispielsweise recht deutlich in der zurückgelegten Strecke beim Laufen aus. Ist unser Darsteller größer als die Figur, benötigt er für dieselbe Entfernung weniger Schritte; während der Darsteller schon am Ziel steht, ist die Figur vielleicht noch weit davon entfernt. Das und ähnliche Dinge gehören zu den beliebtesten Fallstricken, die sich in unserem Bereich finden lassen. Es gibt allerdings auch genügend Methoden, um dem entgegenzuwirken oder direkt bei der Aufnahme entsprechend zu korrigieren. Im Zweifelsfall sind Anpassungen der Animation später auch immer noch auf der Figur selbst möglich.

Je weiter die Figur von normalen menschlichen Körperproportionen abweicht, desto schwieriger wird das Retargeting.

Ein wichtiger Bestandteil ist die Übertragung der reinen Positionsdaten der Marker auf die Skelette, deren Bewegungen über Rotationen definiert werden. Wir nennen diesen Schritt „Skeleton Solving“. Dabei geben wir der Software einen Rahmen vor, in dem sich das Charakterskelett bewegen darf, wenn es quasi in eine willkürlich wirkende Markerwolke gepresst wird. Diese Formulierung klingt jetzt vielleicht etwas grobmotorisch, aber entspricht dem, worauf es hinausläuft.

Wir pressen natürlich nichts irgendwo hinein, sondern dirigieren das Skelett auf seinem Weg in die Markerwolke, um saubere Animationen zu erhalten. Dieser Prozess ist sehr technisch und erfordert sehr viel Erfahrung, um optimale Ergebnisse zu erzielen. Aus diesem Grund liefern wir unsere Animationen am liebsten nur auf dem für die Produktion eingesetzten Charakter und auf keinen Intermediates aus.

Jedes Projekt ist anders und bietet neue Herausforderungen. Bei Drehs außerhalb unseres Studios könnte Logistik ein großer Faktor sein. Nehmen wir Daten von sehr vielen Darstellern gleichzeitig auf, steigt der Aufwand für das Bereinigen der Daten entsprechend an. Je weiter die Figur von normalen menschlichen Körperproportionen abweicht, desto schwieriger wird das Retargeting, und wenn wir viele Interaktionen zwischen Darstellen oder mit der Hintergrundkulisse haben, wird das Motion Editing mehr Zeit in Anspruch nehmen.

Mit genügend Erfahrung finden sich immer wieder neue Herangehensweisen für solche Dinge, um zukünftige Arbeiten zu vereinfachen und zu beschleunigen.

Der Stand der Technik

Gerade im Bereich der AAA-Produktionen ist in den letzten Jahren ein enormer Fortschritt im Bereich der Bewegungsabläufe und Animationen zu erkennen. Dennoch scheint man viele Dinge noch immer nicht zu 100 Prozent der Realität nachempfinden zu können. Wo liegen die natürlichen Grenzen?

Weiss: Das stimmt, die grafische Qualität hat riesige Sprünge gemacht. Jetzt geht es nur noch um Details, die in diesem Zusammenhang aber wahrscheinlich die größten Hürden sind. Nicht von der Hand zu weisen sind hier Rechenkapazitäten auf den jeweiligen Grafikkarten, die es ermöglichen, mehr virtuelle Knochen in die Skelette einzufügen. Aber auch die Deformation der Geometrie wird weiterentwickelt. So kann man in Zukunft auf mehr dynamisch simulierte Kleidung hoffen.

Die Übergänge zwischen einzelnen Animationen sind auch ein Feld, an dem fleißig gearbeitet wird. Es ist nicht ganz trivial, dem Spieler schnelle Bewegungen und Richtungswechsel zu ermöglichen und dabei perfekte Animationen abzuspielen.

… und wann wird diese Barriere Ihrer Meinung nach durchbrochen?

Weiss: Wir können einen steten Anstieg der Qualität verzeichnen. Wann wir genau in den Bereich des absoluten Fotorealismus kommen, kann ich nicht sagen.

 

Philip Weiss

Philip Weiss
Philip Weiss machte seinen Bachelor of Arts an der Filmhochschule Emerson College in Boston, MA. 2001 gründete er die metricminds GmbH. Er war fasziniert von der Idee, traditionelle Kunst und Computergrafik zusammenzubringen. Philip hat aktiv dazu beigetragen, das IGDA-Chapter in Frankfurt am Main zu etablieren. Außerdem ist er Gründungsmitglied des gamearea-FRM e.V..

 

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -