Handtracking auf dem Prüfstand: Wie gut oder schlecht ist es wirklich?

Handtracking wird die Art und Weise verändern, wie wir in und mit VR und MR interagieren, darin sind sich die meisten Experten einig. Umstrittener ist, wie gut Handtracking heute funktioniert und wie lange es dauern wird, bis es sich auf breiter Basis durchsetzt und Controller als primären Input ablöst – oder ob es das überhaupt jemals tun wird.

Einige Industrievertreter glauben, dass Handtracking die Branche bereits in zwei Jahren komplett umkrempeln wird, andere sind skeptischer. Zusätzlich angeheizt wurde die Debatte durch die Markteinführung der Apple Vision Pro, die nur auf Blick- und Handsteuerung setzt. Inzwischen hat sich der Wirbel um das Gerät gelegt. Apples räumlicher Computer, so viel ist klar, wird die VR-Industrie nicht über Nacht verändern und hat das Bewusstsein für die Vorteile von Controllern (Präzision, Haptik) eher geschärft als geschmälert.

Damit Handtracking zur primären Eingabemethode werden kann, muss es für die breite Bevölkerung weitgehend fehlerfrei und intuitiv nutzbar sein. Um die Probe aufs Exempel zu machen, habe ich mir eine Testperson gesucht: Meine Nachbarin und gute Freundin Esther, die im Ruhestand lebt und keine Erfahrung mit VR, Handtracking oder Videospielen hat.

Handtracking wird für seine Zugänglichkeit gefeiert. Wenn Esther als komplette Anfängerin mit der Technik klarkommt, dann sollte Handtracking nichts mehr im Wege stehen, richtig?

Ich ließ Esther etwa eine Stunde lang mit dem Handtracking von Meta Quest 3 experimentieren. Zuerst habe ich sie durch das Handtracking-Tutorial der Meta Quest geführt. Esther verstand sofort das Konzept des Touch-Inputs, das sie von mobilen Geräten kennt, aber es funktionierte nicht immer so, wie sie es sich vorstellte. Bestimmte Elemente musste sie zum Beispiel mehrmals auswählen und antippen, bevor das System die Eingabe richtig interpretierte. Die Gesten wiederum konnte sie sich relativ schnell einprägen.

Ein Jenga-Spiel in Hand Physics Lab. | Bild: Dennys Kuhnert – Holonautic

Auf meine Frage, wie sie die Nutzererfahrung fand, meinte sie: „Es war in Ordnung, ich fand es nicht besonders einfach. Ich dachte, es könnte einfacher sein. Aber nachdem ich ein paar Mal gesehen habe, wie es funktioniert, war es nicht schwer, sich die Gesten zu merken.“

Als Nächstes probierten wir Vacation Simulator aus. Das VR-Spiel bietet seit 2020 experimentelle Unterstützung für Handtracking, das seit dem jüngsten Update vom Mai 2025 ein reguläres Feature ist. Die zehn Minuten in der Imbissbude waren für Esther recht anstrengend und am Ende konnte sie nicht einmal den Hotdog zubereiten, um den ich sie bat. Die meisten Zutaten lagen auf dem Boden verstreut.

Was Esther mit ihren Händen zu tun beabsichtigte und was das Spiel als Handlung interpretierte, waren oft zwei völlig verschiedene Dinge. Sie bezeichnete die Erfahrung als „frustrierend“, meinte jedoch, dass sie sich vorstellen könne, in diese Welt zurückzukehren und diese beim zweiten und dritten Mal mehr zu genießen, weil sie noch ein „völliger Neuling“ auf diesem Gebiet sei. Das Handtracking war in diesem Fall also eher ein Hindernis für den Spielspaß.

Das Puzzlespiel Cubism gefiel Esther besser, aber auch hier hatte sie Schwierigkeiten, die eher mit der Handtracking-Technik als mit dem Spiel zu tun hatten. Nach einigen Versuchen fiel es ihr relativ leicht, die Puzzleteile mit den Fingern zu greifen. Schwieriger war es, sie an der richtigen Stelle wieder loszulassen, da das Headset die Bewegung nicht immer erkannte und die Puzzlesteine an den Fingern „festklebten“, wie sie sagte.

Das Beispiel zeigt, dass Handtracking nicht einfach etwas ist, das funktioniert, sondern zuerst gelernt werden muss. Es reicht nicht, dass man ein Objekt einfach greift und loslässt. Man muss es auf eine bestimmte Weise greifen und loslassen. Dies ist eine Hürde, die Handtracking noch nehmen muss.

Spieler berührt digitale Spielemente in physischer Umgebung

Cubism, hier auf einer Quest 2 mit monochromem Passthrough gespielt. | Bild: Thomas Van Bouwel

Feinste Bewegungen, die schlecht erkannt oder von den Computer-Vision-Algorithmen falsch interpretiert werden, sind ein Problem. Ein anderes Problem ist, wenn das System Bewegungen der Hände überinterpretiert und als Interaktionen auslegt, die gar nicht als solche beabsichtigt sind. Ein Phänomen, das der VR-Entwickler Antony Vitillo treffend als Midas-Problem bezeichnete (der habgierige Midas wünschte sich, dass alles, was er anfasste, zu Gold wurde. Als selbst Speisen und Getränke zu Gold wurden und er zu verhungern drohte, bat er den Gott Dionysos, den Wunsch zurückzunehmen). Auch mit diesem Problem hatte Esther in unserem Handtracking-Experiment zu kämpfen.

Der Test endete mit der VR-App Hand Physics Lab, die Esther ein Lächeln ins Gesicht zauberte. Der Handtracking-Experimentierkasten lebt mehr als die anderen Apps von den Unzulänglichkeiten der Technik, was es leichter macht, darüber hinwegzusehen.

Mein Fazit ist, dass Handtracking noch immer in der Experimentierphase steckt. VR-Enthusiasten kennen die Unzulänglichkeiten und wissen, wie man sie umgeht. Einsteiger, die viel Geld für ein Gerät ausgeben, haben einen anderen Anspruch: Es muss einfach funktionieren, vor allem, wenn es die primäre Eingabemethode sein soll. Handtracking wird erstens erst dann gereift sein, wenn es sich anfühlt, als würden wir tatsächlich mit unseren Händen interagieren, anstatt lernen zu müssen, sie so zu nutzen, dass sie das System richtig auslegt. Zweitens muss es fehlerfrei arbeiten. Es ist nicht genug, wenn etwa ein Knopfdruck in 90 Prozent der Fälle erkannt wird. Das ist frustrierend.

Und für die Ingenieurinnen und Ingenieure wird die Aufgabe schwieriger und nicht leichter: Die Erkennung in den nächsten Jahren von 90 auf 99,9 Prozent zu bringen, dürfte wesentlich schwieriger werden als von 0 auf 90 Prozent. Vor diesem Hintergrund kann ich mir nicht vorstellen, dass Meta demnächst damit beginnt, Quest-Headsets ohne Controller zu verkaufen. Aber auch was die Inhalte betrifft, muss noch viel passieren, bis Handtracking allgemein akzeptiert wird. Die allermeisten VR-Apps setzen aus gutem Grund immer noch Controller voraus.

Dieser Beitrag erschien am 16. Juli 2024 bei MIXED.

Meta Quest in 7 Jahren: Diese Eigenschaften erwartet Metas Technikchef

Der Metaverse-Theoretiker Matthew Ball hat diese Woche ein langes und interessantes Interview mit Metas Technikchef Andrew Bosworth veröffentlicht. Darin fragt er Bosworth, wo Meta mit VR-Headsets in den nächsten sieben Jahren wirklich hinkommen kann und will.

Bosworths Angaben sind nicht verbindlich und nur als grobe Richtwerte zu sehen. Aber es wird interessant sein, in sieben Jahren einen Vergleich anzustellen zwischen dem, was sich Meta erhoffte und dem, was tatsächlich eingetreten ist.

Für den vollständigen Kontext empfehle ich, Bosworths Ausführungen im englischen Original zu lesen. Ich greife in diesem Artikel nur ein paar Stellen aus seiner Antwort heraus.

Auflösung

Die Pixeldichte pro Grad des Sichtfelds (Pixel per degree oder PPD) sollte bis 2031 mindestens 45 betragen, noch besser aber im 50er- und 60er-Bereich liegen. Zum Vergleich: Meta Quest 3 liegt bei 25 PPD, Apple Vision Pro bei circa 35 PPD.

„Man will mindestens 45 erreichen, dann wirkt Text wirklich gut. 60 ist realistisch gesehen wahrscheinlich die halbe Retina-Auflösung, aber das kann man aus Gründen, auf die ich nicht näher eingehen werde, nicht wirklich erkennen. Man will also wirklich in den 50er- bis 60er-Bereich der Pixel pro Grad kommen“, sagt Bosworth.

Sichtfeld

Bosworth nennt keine konkrete Angabe und spricht von einem „ordentlichen Sichtfeld“. Er deutet an, dass es nicht schmaler sein werde als das der Quest 2 und Quest 3, da das Sichtfeld sonst negativ auffiele, verspricht aber auch nicht, dass es deutlich größer werde.

„Man möchte also ein weites Sichtfeld haben, sodass man nicht ständig die Ränder sieht. Und ich glaube, dass ein vertikal höheres Sichtfeld für die Immersion wichtiger ist als ein horizontal breiteres Sichtfeld. Sicherlich ist ein breiteres Sichtfeld für uns als Spezies im Hinblick auf die Informationsdichte wichtiger, weil unsere Augen mehr horizontal sehen. Aber die Vertikale ist ein gutes Mittel, um uns davon zu überzeugen, dass wir in uns in einem Raum befinden, und zwar auf eine Art und Weise, die täuscht.“

Formfaktor und Gewicht

Bosworth hält am autarken Formfaktor fest, also keine externe Hardware oder Kabel und hofft, dass das Gewicht in den nächsten sieben Jahren um 100 bis 200 Gramm fällt, wobei es auch auf andere Faktoren als nur das Gewicht ankommt: wie das Gerät ausbalanciert und wie weit entfernt die Optik vom Gesicht entfernt sei. Zum Vergleich: Meta Quest 3 wiegt 515 Gramm mit der Standardkopfhalterung. „Ich denke, dass der Tragekomfort enorm wichtig ist“, sagt Bosworth.

Andrew Bosworth mit dem Holocake-Forschungsprototyp. | Bild: Meta

Audio

Stereoskopisches Audio sei bereits auf einem guten Weg und werde sich weiter verbessern. Bosworth deutet an, dass es in sieben Jahren eine Alternative zu den heutigen Ohrlautsprechern geben könnte.

„Wenn man auf Open Ear setzt, sind die Möglichkeiten begrenzt, also kann man auch mit Closed Ear arbeiten. Im Laufe der Zeit könnten wir den Menschen diese Möglichkeit bieten. So wie wir es heute mit dem Kopfhöreranschluss tun.“

Bildrate

Auch die Bildrate von 120 Hertz, die Quest 2 und Quest 3 maximal unterstützen, fühle sich heute schon ausreichend an. Um darüber hinauszugehen, müsste Meta in anderen Bereichen des Produkts Kompromisse eingehen, was Bosworth als unwahrscheinlich bezeichnet.

Eye-Tracking und Foveated Rendering

Bosworth nennt Eye-Tracking nicht ausdrücklich, aber erwähnt Foveated Rendering.

„Was den Blick betrifft, so glaube ich, dass Foveated Rendering ein Schlüssel ist, um höhere Auflösungen zu erreichen.“

Hardware-Diversität

Schließlich hofft Bosworth, dass es in sieben Jahren eine größere Auswahl von Headsets geben wird, die sich anders als Meta Quest auf bestimmte Bereiche spezialisieren. Zu diesem will Meta das eigene VR-Betriebssystem an OEMs lizenzieren.

„Ich hoffe wirklich, dass man in sieben Jahren eine größere Auswahl an Headsets hat, die alle in der Lage sind, das Ökosystem zu bedienen, das an deinen individuellen Anwendungsfall angepasst ist. Wenn du ein Gamer und einen ASUS-ROG-Monitor mit 240 Hertz gewohnt bist, gibt es dann ein gleichwertiges Headset, mit dem du dieses Erlebnis haben kannst? Dafür musst du zwar an anderer Stelle Abstriche machen, aber das ist eine Entscheidung, die du hoffentlich treffen kannst. Denn in sieben Jahren werden wir nicht frei von diesen grundlegenden Kompromissen zwischen Gewicht, Kosten und Leistung sein. Man muss sich wirklich für anderthalb von diesen drei entscheiden, nicht einmal zwei.“

Dieser Beitrag erschien am 11. Juli 2024 bei MIXED.

Volumetrische Fotos & Videos haben eine Zukunft – dank KI

Herkömmliche Fotos und Video haben eine fixe Perspektive. Das gilt auch für immersive Fotos und Videos im mono- oder stereoskopischen 180- oder 360-Format. Bewegt man den Kopf in den Raum hinein, folgt die Szene der Kopfbewegung, ohne dass man eine neue Perspektive gewinnt. Das fühlt sich unnatürlich an und kann bei manchen Nutzern sogar Übelkeit hervorrufen.

Volumetrische Medien wollen diese Beschränkung durchbrechen und sechs statt nur drei Freiheitsgrade bei der Betrachtung bieten: Anstatt auf die Rotation des Kopfes sollen die Fotos und Videos auf räumliche Bewegung reagieren und dadurch realistischer wirken.

Das Problem ist, dass die Erstellung volumetrischer Medien bislang sehr aufwendig und kompliziert ist. Man benötigt spezielle Studios mit Dutzenden Kameras oder riesige Kamera-Rigs, weshalb wir in den vergangenen zehn Jahren nur wenige Beispiele dieser Art gesehen haben.

In jüngster Zeit wird Künstliche Intelligenz als mögliche Lösung für eine einfache Erstellung volumetrischer Medien diskutiert. Mit Gaussian Splatting beispielsweise kann eine Umgebung relativ schnell mit einem Smartphone in 3D erfasst und später in VR betrachtet werden. Das Start-up Gracia hat gezeigt, wie das auf Quest 3 aussehen könnte.

Ein Beispielfoto aus der VR-App Cinemersive Photos. Der Tiefeneindruck und die simulierte 6DoF-Tiefe sind nur mit Quest erkennbar. | Bild: Cinemersive Labs

Das schottische Start-up Cinemersive Labs versucht es ebenfalls mit KI, allerdings mit einem anderen Ansatz: Es hat ein KI-Modell trainiert, das aus herkömmlichen Fotos und Videos 6DoF-Material macht, sodass man den Kopf durch den Raum bewegen und eine Szene aus leicht verschobenen, neuen Perspektiven betrachten kann. Die kostenlosen VR-Apps Cinemersive Photos und Cinemersive Videoplayer demonstrieren auf Quest-Headsets, wie weit man diese Technologie treiben kann. Das war Grund genug für mich, mir die VR-Apps einmal anzusehen.

Die Beispiele von Cinemersive zeigten mir, dass im Grunde schon viel damit gewonnen ist, wenn man beim Betrachten den Kopf ein wenig in den Raum bewegen kann (laut Cinemersive beträgt der Spielraum 30 cm in jede Richtung). Die Wirkung ist subtil, aber effektiv und verhindert Übelkeit. Die KI-Modelle müssen nur noch besser werden, um visuelle Unzulänglichkeiten zu vermeiden.

Sowohl in den Fotos als auch in den Videos sind Artefakte zu erkennen, in den Fotos noch stärker als in den Videos. Bewegt man den Kopf zur Seite, um zu sehen, was hinter einem Objekt liegt, so sieht man teils dunkle Stellen, teils mehr schlecht als recht gefüllte Lücken. Die Videos sind überzeugender, aber auch hier erkennt man Artefakte an Konturen.

Trotz dieser Unzulänglichkeiten glaube ich an die Zukunft dieser Technologie und kann mir gut vorstellen, dass sie eines nicht allzu fernen Tages ausgereift sein wird.  So wie man heute mit KI aus herkömmlichen 2D-Fotos Fotos mit glaubwürdiger Tiefenwirkung erzeugen kann, so wird man eines Tages die gleichen Fotos ebenfalls mit KI um eine volumetrische Dimension erweitern können, natürlich in gewissen Grenzen, aber ohne auffällige Artefakte.

Ich kann die VR-Apps nur wärmstens weiterempfehlen, da sie einen Vorgeschmack auf die Zukunft geben. Und einige der Bilder und Videos sind wirklich beeindruckend anzusehen.

Dieser Beitrag erschien am 4. Juli 2024 bei MIXED.

Metas „Zeitmaschinen“

Mark Zuckerberg sprach vergangene Woche über den AR-Brillenprototyp, der voraussichtlich auf der Meta Connect 2024 im September erstmals der Öffentlichkeit vorgestellt wird. Er sagte, dass frühe Tester „ganz aus dem Häuschen“ seien, nachdem sie den Prototyp ausprobiert haben.

In seiner jüngsten Frage-Antwort-Runde auf Instagram gibt Technikchef Andrew Bosworth seine Version dieser Geschichte wieder und beschreibt, wie er den Prototyp sieht:

„Ich habe schon einmal darüber gesprochen, und ich stimme Mark zu, dass es wirklich erfreulich war, sie von Leuten außerhalb des Teams ausprobieren zu lassen und die Reaktion darauf zu beobachten.

 

Es ist eine vollwertige AR-Brille, mit großer Klarheit und einem großen Sichtfeld. Sie ist nur für interne Zwecke gedacht. Sie ist ein Prototyp. Und sie ist wirklich eine Zeitmaschine in die Zukunft. Sie zum ersten Mal aufzusetzen, war eines der coolsten Dinge, die ich in meiner Karriere erlebt habe. Sie ist spektakulär.

 

Wir haben viele, viele, viele Jahre daran gearbeitet und sehr viel investiert. Aber jetzt haben wir eine Entwicklerplattform, auf der wir anfangen können, Software und Erfahrungen für verschiedene Eingabemethoden und eine vollständige Augmented Reality zu entwickeln, was die Zukunft ist, auf die wir hinarbeiten.“

„Zeitmaschine“ ist ein von Meta verwendeter Begriff und bezieht sich auf Forschungsprototypen, die mit dem Zweck entwickelt werden, einen Blick in die Zukunft einer Technologie zu gewähren. Sie sind nicht für die Kommerzialisierung gedacht.

Meta präsentierte in der vergangenen Jahren eine Vielzahl von VR-Zeitmaschinen, die in der Form niemals auf den Markt kommen werden und lediglich demonstrieren sollen, welche Wirkung bestimmte VR-Technologien (Gleitsicht, Retina-Auflösung, HDR) haben könnten.

Metas Zeitmaschinen. | Bild: Meta

Auch Metas erste AR-Brille mit Codenamen Orion ist eine Zeitmaschine. Sie soll so teuer in der Herstellung sein, dass Meta nur 1.000 Stück für interne Zwecke und Entwickler produzieren wird. Auf dieser Basis werden allerdings die Software-Grundsteine für eine technisch einfachere, aber kommerzielle Version der AR-Brille mit Codenamen Artemis gelegt, deren Markteinführung angeblich für das Jahr 2027 angesetzt ist.

Meta weckt hohe und hoffentlich realistische Erwartungen an das Gerät. Bosworth nannte ihn „das Fortschrittlichste im Bereich der Unterhaltungselektronik, was wir als Spezies je hervorgebracht haben“ und Entwicklungsleiterin Caitlin Kalinowski meinte, dass der Prototyp den gleichen Wow-Faktor besitzen wie seinerzeit Oculus Rift.

Meta will mit Orion den Hype um AR-Brillen neu anfachen und Investoren davon überzeugen, dass sich die milliardenschweren Einlagen in die Forschung und Entwicklung gelohnt haben. Im Herbst steht also viel auf dem Spiel für Meta.

Dieser Beitrag erschien am 2. Juli 2024 bei MIXED.

VR-Meilenstein: Gorilla Tag hat mehr als 1 Million tägliche Spieler

Gorilla Tag ist längst kein bloßes Spiel mehr, es ist ein VR-Phänomen. Das belegen neue Meilensteine des Studios. Das Studio Another Axiom hat neue Nutzerzahlen veröffentlicht, die die immense Popularität des VR-Spiels belegen.

Gorilla Tag hat demnach:

  • mehr als 1 Million täglich aktive Nutzer erlebt,
  • über 3 Millionen monatlich aktive Nutzer verzeichnet
  • und insgesamt mehr als 10 Millionen individuelle Nutzer registriert,
  • wobei die Nutzer:innen durchschnittlich knapp 60 Minuten pro Spielsitzung in Gorilla Tag verbringen.

Der Umsatz des VR-Spiels beläuft sich mittlerweile auf mehr als 100 Millionen US-Dollar. Gorilla Tag ist Free-To-Play auf Meta Quest und finanziert sich über Mikrotransaktionen. Die Steam-Version ist kostenpflichtig.

Gorilla Tag erschien Anfang 2021 bei Steam und auf der Sideloading-Plattform Sidequest und kurze Zeit später folgte der Launch im App Lab. Erst Ende 2022 schaffte das Spiel den Sprung in den Quest Store.

Das VR-Phänomen Gorilla Tag. | Bild: Another Axiom

In Gorilla Tag verkörpert man einen Affen und nutzt die eigenen Arme, um sich von Oberflächen abzustoßen, auf Bäume zu klettern und durch den virtuellen Dschungel zu schwingen. Dabei spielt man mit anderen Fangen. Gorilla Tag ist durch und durch ein VR-Spiel und auf PCs, Konsolen und Smartphones nicht in der gleichen Form umsetzbar.

Gorilla Tag wird vorwiegend von einem jungen Publikum gespielt, das es als virtuellen Spielplatz und sozialen Treffpunkt nutzt. Die Kinder und Jugendlichen stören sich offenbar weniger am Formfaktor der Headsets und der physischen Intensität, die VR-Nutzung mit sich bringen kann. Als „VR Natives“ der Generation Alpha dürften sie in den kommenden Jahren und Jahrzehnten zu einer für das Wachstum der Branche entscheidenden Nutzerschicht werden, wenn sie es nicht bereits sind.

Dieser Beitrag erschien am 19. Juni 2024 bei MIXED.