Volumetrische Fotos & Videos haben eine Zukunft – dank KI

Herkömmliche Fotos und Video haben eine fixe Perspektive. Das gilt auch für immersive Fotos und Videos im mono- oder stereoskopischen 180- oder 360-Format. Bewegt man den Kopf in den Raum hinein, folgt die Szene der Kopfbewegung, ohne dass man eine neue Perspektive gewinnt. Das fühlt sich unnatürlich an und kann bei manchen Nutzern sogar Übelkeit hervorrufen.

Volumetrische Medien wollen diese Beschränkung durchbrechen und sechs statt nur drei Freiheitsgrade bei der Betrachtung bieten: Anstatt auf die Rotation des Kopfes sollen die Fotos und Videos auf räumliche Bewegung reagieren und dadurch realistischer wirken.

Das Problem ist, dass die Erstellung volumetrischer Medien bislang sehr aufwendig und kompliziert ist. Man benötigt spezielle Studios mit Dutzenden Kameras oder riesige Kamera-Rigs, weshalb wir in den vergangenen zehn Jahren nur wenige Beispiele dieser Art gesehen haben.

In jüngster Zeit wird Künstliche Intelligenz als mögliche Lösung für eine einfache Erstellung volumetrischer Medien diskutiert. Mit Gaussian Splatting beispielsweise kann eine Umgebung relativ schnell mit einem Smartphone in 3D erfasst und später in VR betrachtet werden. Das Start-up Gracia hat gezeigt, wie das auf Quest 3 aussehen könnte.

Ein Beispielfoto aus der VR-App Cinemersive Photos. Der Tiefeneindruck und die simulierte 6DoF-Tiefe sind nur mit Quest erkennbar. | Bild: Cinemersive Labs

Das schottische Start-up Cinemersive Labs versucht es ebenfalls mit KI, allerdings mit einem anderen Ansatz: Es hat ein KI-Modell trainiert, das aus herkömmlichen Fotos und Videos 6DoF-Material macht, sodass man den Kopf durch den Raum bewegen und eine Szene aus leicht verschobenen, neuen Perspektiven betrachten kann. Die kostenlosen VR-Apps Cinemersive Photos und Cinemersive Videoplayer demonstrieren auf Quest-Headsets, wie weit man diese Technologie treiben kann. Das war Grund genug für mich, mir die VR-Apps einmal anzusehen.

Die Beispiele von Cinemersive zeigten mir, dass im Grunde schon viel damit gewonnen ist, wenn man beim Betrachten den Kopf ein wenig in den Raum bewegen kann (laut Cinemersive beträgt der Spielraum 30 cm in jede Richtung). Die Wirkung ist subtil, aber effektiv und verhindert Übelkeit. Die KI-Modelle müssen nur noch besser werden, um visuelle Unzulänglichkeiten zu vermeiden.

Sowohl in den Fotos als auch in den Videos sind Artefakte zu erkennen, in den Fotos noch stärker als in den Videos. Bewegt man den Kopf zur Seite, um zu sehen, was hinter einem Objekt liegt, so sieht man teils dunkle Stellen, teils mehr schlecht als recht gefüllte Lücken. Die Videos sind überzeugender, aber auch hier erkennt man Artefakte an Konturen.

Trotz dieser Unzulänglichkeiten glaube ich an die Zukunft dieser Technologie und kann mir gut vorstellen, dass sie eines nicht allzu fernen Tages ausgereift sein wird. So wie man heute mit KI aus herkömmlichen 2D-Fotos Fotos mit glaubwürdiger Tiefenwirkung erzeugen kann, so wird man eines Tages die gleichen Fotos ebenfalls mit KI um eine volumetrische Dimension erweitern können, natürlich in gewissen Grenzen, aber ohne auffällige Artefakte.

Ich kann die VR-Apps nur wärmstens weiterempfehlen, da sie einen Vorgeschmack auf die Zukunft geben. Und einige der Bilder und Videos sind wirklich beeindruckend anzusehen.

Dieser Beitrag erschien am 4. Juli 2024 bei MIXED.