Nvidias KI-Avatar saß auf meinem Computerbildschirm und machte mich verrückt

Nvidia hat auf der CES 2025 einen Prototyp eines KI-Avatars vorgestellt, der auf dem Desktop Ihres PCs lebt. Der KI-Assistent, R2Xsieht aus wie eine Videospielfigur und kann Ihnen beim Navigieren in Apps auf Ihrem Computer helfen.

Der R2X-Avatar wird mit den KI-Modellen von Nvidia gerendert und animiert, und Benutzer können den Avatar auf beliebten LLMs ihrer Wahl ausführen, wie etwa GPT-4o von OpenAI oder Grok von xAI. Benutzer können per Text und Sprache mit R2X kommunizieren, Dateien zur Verarbeitung hochladen oder dem KI-Assistenten sogar ermöglichen, das Geschehen live auf Ihrem Bildschirm oder Ihrer Kamera zu verfolgen.

Technologieunternehmen entwickeln in letzter Zeit zahlreiche KI-Avatare, nicht nur für Videospiele, sondern auch für Unternehmens- und Verbraucherkunden. Die ersten Demos sind seltsam, aber einige halten diese Avatare für eine vielversprechende Benutzeroberfläche für KI-Assistenten. Mit R2X versucht Nvidia, generative Videospielfunktionen mit hochmodernen KI-Assistenten zu kombinieren, um einen KI-Assistenten zu schaffen, der wie ein Mensch aussieht und sich auch so anfühlt.

Ähnlich wie die Rückruffunktion von Microsoft (die bereits existiert). aus Datenschutzgründen verzögert), R2X kann ständig Screenshots Ihres Bildschirms erstellen und diese zur Verarbeitung durch ein KI-Modell laufen lassen, obwohl diese Funktion standardmäßig deaktiviert ist. Wenn es aktiviert ist, kann es Feedback zu Anwendungen geben, die auf Ihrem Computer ausgeführt werden, und Ihnen beispielsweise bei der Bearbeitung einer komplexen Codierungsaufgabe helfen.

R2X ist immer noch ein Prototyp und selbst Nvidia gibt zu, dass noch einige Fehler behoben werden müssen. In Demos mit Tech hatte Nvidias Avatar ein unheimliches Tal-Feeling – sein Gesicht blieb manchmal in seltsamen Positionen hängen und sein Ton fühlte sich zeitweise etwas aggressiv an. Und im Großen und Ganzen finde ich es seltsam, dass mich ein kleiner humanoider Avatar anstarrt, während ich meine Arbeit erledige.

Es bot im Allgemeinen hilfreiche Anweisungen und zeigte genau an, was auf dem Bildschirm angezeigt wurde. Aber irgendwann gab uns der Avatar falsche Anweisungen und später konnte der Avatar den Bildschirm überhaupt nicht mehr sehen. Dies kann ein Problem mit dem zugrunde liegenden KI-Modell (in diesem Fall GPT-4o) sein, aber das Beispiel zeigt die Einschränkungen dieser frühen Technologie.

In einer Demo zeigte ein Produktleiter von Nvidia, wie R2X die Apps auf Ihrem Bildschirm anzeigen und Benutzer dabei unterstützen kann. Insbesondere hat uns R2X dabei geholfen, die generative Füllfunktion von Adobe Photoshop zu nutzen. Das Foto, das wir ausgewählt haben, zeigt Nvidia-CEO Jensen Huang, der mit zwei Restaurantmitarbeitern in einem asiatischen Restaurant steht. Nvidias Avatar halluzinierte und gab falsche Anweisungen, wo die generative Füllfunktion zu finden sei. Aber nachdem wir das von uns verwendete KI-Modell auf Grok von xAI umgestellt hatten, erlangte der Avatar seine Fähigkeiten zur Bildschirmdarstellung wieder.

In einer anderen Demo konnte R2X ein PDG vom Desktop aufnehmen und dann Fragen dazu beantworten. Dieser Prozess wird durch eine Funktion zur erweiterten Generierung mit lokalem Abruf unterstützt, die diesen KI-Avataren die Möglichkeit gibt, Informationen aus einem Dokument abzurufen und sie mithilfe des zugrunde liegenden LLM zu verarbeiten.

Nvidia nutzt einige KI-Modelle aus seiner Videospielabteilung, um das Aussehen dieser Avatare zu verbessern. Um Avatare zu generieren, verwendet Nvidia seinen RTX-Algorithmus für neuronale Gesichter. Um die Gesichts-, Lippen- und Zungenbewegung zu automatisieren, verwendet Nvidia ein neues Modell namens Audio2Face™-3D. Dieses Modell schien an manchen Stellen ins Stocken zu geraten und hielt das Gesicht des Avatars in einer unangenehmen Position.

Das Unternehmen gibt außerdem an, dass diese R2X-Avatare als persönliche Assistenten an Microsoft Teams-Besprechungen teilnehmen können.

Ein Produktleiter von Nvidia sagt, das Unternehmen arbeite daran, diesen KI-Avataren auch Agentenfähigkeiten zu verleihen, damit R2X eines Tages Maßnahmen auf Ihrem Desktop ergreifen könnte. Diese Fähigkeiten scheinen noch in weiter Ferne zu liegen und erfordern wahrscheinlich Partnerschaften mit Softwareherstellern wie Microsoft und Adobe, die versuchen, selbst ähnliche Agentensysteme zu entwickeln.

Es ist nicht sofort klar, wie Nvidia die Stimmen in diesen Produkten generiert. Die Stimme von R2X klingt bei Verwendung von GPT-4o anders als alle voreingestellten Stimmen von ChatGPT, während der Grok-Chatbot von xAI noch überhaupt keinen Sprachmodus hat.

Das Unternehmen plant, diese Avatare in der ersten Hälfte des Jahres 2025 als Open-Source-Lösung bereitzustellen. Nvidia betrachtet dies als eine neue Benutzeroberfläche, mit der Entwickler bauen können, sodass Benutzer ihre bevorzugten KI-Softwareprodukte anschließen oder diese Avatare sogar lokal ausführen können.

tch-1-tech