OpenAI hat endlich die Echtzeit-Videofunktionen für ChatGPT veröffentlicht, die es vor fast sieben Monaten vorgeführt hat.
Am Donnerstag gab das Unternehmen während eines Livestreams bekannt, dass der Advanced Voice Mode, seine menschenähnliche Konversationsfunktion für ChatGPT, eine Vision erhält. Mit der ChatGPT-App können Benutzer, die ChatGPT Plus, Team und Pro abonniert haben, ihre Telefone auf Objekte richten und ChatGPT nahezu in Echtzeit reagieren lassen.
Der erweiterte Sprachmodus mit Vision kann über die Bildschirmfreigabe auch verstehen, was auf dem Bildschirm eines Geräts angezeigt wird. Es kann beispielsweise verschiedene Einstellungsmenüs erklären oder Anregungen zu einer Mathematikaufgabe geben.
Um mit Vision auf den erweiterten Sprachmodus zuzugreifen, tippen Sie auf das Sprachsymbol neben der ChatGPT-Chatleiste. Tippen Sie im Sprachmodus auf das Videosymbol unten links, um das Video zu starten. Um den Bildschirm freizugeben, tippen Sie auf das Dreipunktmenü und wählen Sie „Bildschirm teilen“.
Die Einführung des Advanced Voice Mode mit Vision wird laut OpenAI heute beginnen und in der nächsten Woche abgeschlossen sein. Allerdings erhalten nicht alle Benutzer Zugriff. Laut OpenAI erhalten ChatGPT Enterprise und Edu die Funktion erst im Januar und es gibt keinen Zeitplan für ChatGPT-Benutzer in der EU, der Schweiz, Island, Norwegen und Liechtenstein.
In einem Aktuelle Demo In der CNN-Sendung „60 Minutes“ führte OpenAI-Präsident Greg Brockman im Advanced Voice Mode ein Sehquiz mit Anderson Cooper zu seinen anatomischen Fähigkeiten durch. Während Cooper Körperteile auf eine Tafel zeichnete, konnte ChatGPT „verstehen“, was er zeichnete.
„Der Standort ist genau richtig“, sagte der Assistent. „Das Gehirn sitzt direkt im Kopf. Was die Form betrifft, ist es ein guter Anfang. Das Gehirn ist eher oval.“
In derselben Demo machte der Advanced Voice Mode mit Vision jedoch einen Fehler bei einem Geometrieproblem – was darauf hindeutet, dass er zu Halluzinationen neigt.
Der erweiterte Sprachmodus mit Sicht wurde mehrfach verzögert – angeblich Zum Teil, weil OpenAI die Funktion angekündigt hat, lange bevor sie produktionsreif war. Im April versprach OpenAI, dass der Advanced Voice Mode „innerhalb weniger Wochen“ für Benutzer verfügbar sein würde. Monate später erklärte das Unternehmen, es benötige mehr Zeit.
Als der erweiterte Sprachmodus im Frühherbst für einige ChatGPT-Benutzer endlich eingeführt wurde, fehlte ihm die visuelle Analysekomponente. Im Vorfeld der heutigen Veröffentlichung hat OpenAI den größten Teil seiner Aufmerksamkeit darauf gerichtet, das ausschließlich sprachbasierte Advanced Voice Mode-Erlebnis auf weitere Plattformen zu bringen Benutzer in der EU.
Zusätzlich zum Advance Voice Mode mit Vision hat OpenAI einen festlichen „Santa Mode“ eingeführt, der die Stimme des Weihnachtsmanns als voreingestellte Stimme im ChatGPT Advanced Voice Mode hinzufügt. Benutzer können es finden, indem sie in ChatGPT neben der Eingabeaufforderungsleiste auf das Schneeflockensymbol tippen oder klicken.