OpenAI veröffentlicht die hyperrealistische Stimme von ChatGPT für einige zahlende Benutzer

OpenAI hat am Dienstag mit der Einführung des erweiterten Sprachmodus von ChatGPT begonnen und Benutzern damit erstmals Zugriff auf die hyperrealistischen Audioantworten von GPT-4o gewährt. Die Alpha-Version wird heute einer kleinen Gruppe von ChatGPT Plus-Benutzern zur Verfügung stehen, und OpenAI sagt, dass die Funktion im Herbst 2024 schrittweise für alle Plus-Benutzer eingeführt wird.

Als OpenAI im Mai erstmals die Stimme von GPT-4o vorführte, schockierte das Feature das Publikum mit schnellen Reaktionen und einer unheimlichen Ähnlichkeit mit der Stimme eines echten Menschen – insbesondere mit einer. Die Stimme, Sky, ähnelte der von Scarlett Johansson, der Schauspielerin hinter dem künstlichen Assistenten im Film „Her“. Kurz nach der Demo von OpenAI sagte Johansson, sie habe mehrere Anfragen von CEO Sam Altman abgelehnt, ihre Stimme zu verwenden, und nachdem sie die Demo von GPT-4o gesehen hatte, engagierte sie einen Rechtsbeistand, um ihre Ähnlichkeit zu verteidigen. OpenAI bestritt, Johanssons Stimme verwendet zu haben, entfernte die in seiner Demo gezeigte Stimme jedoch später. Im Juni sagte OpenAI, es werde die Veröffentlichung des Advanced Voice Mode verschieben, um seine Sicherheitsmaßnahmen zu verbessern.

Einen Monat später ist das Warten vorbei (mehr oder weniger). OpenAI sagt, dass die Video- und Bildschirmfreigabefunktionen, die während des Spring Update vorgestellt wurden, nicht Teil dieser Alpha-Version sein werden und zu einem „späteren Zeitpunkt“ eingeführt werden. Im Moment ist die GPT-4o-Demo, die alle umgehauen hat, noch immer nur eine Demo, aber einige Premium-Benutzer haben jetzt Zugriff auf die dort gezeigte Sprachfunktion von ChatGPT.

ChatGPT kann jetzt sprechen und zuhören

Möglicherweise haben Sie den derzeit in ChatGPT verfügbaren Sprachmodus bereits ausprobiert, aber OpenAI sagt, dass der erweiterte Sprachmodus anders ist. Die alte Audiolösung von ChatGPT verwendete drei separate Modelle: eines, um Ihre Stimme in Text umzuwandeln, GPT-4, um Ihre Eingabeaufforderung zu verarbeiten, und dann ein drittes, um den Text von ChatGPT in Sprache umzuwandeln. Aber GPT-4o ist multimodal und kann diese Aufgaben ohne die Hilfe von Hilfsmodellen verarbeiten, wodurch Gespräche mit deutlich geringerer Latenzzeit entstehen. OpenAI behauptet auch, dass GPT-4o emotionale Intonationen in Ihrer Stimme erkennen kann, einschließlich Traurigkeit, Aufregung oder Gesang.

In diesem Pilotprojekt können ChatGPT Plus-Benutzer aus erster Hand erleben, wie hyperrealistisch der erweiterte Sprachmodus von OpenAI wirklich ist. Tech konnte die Funktion vor der Veröffentlichung dieses Artikels nicht testen, wir werden sie jedoch überprüfen, sobald wir Zugriff darauf erhalten.

OpenAI gibt an, dass die neue Stimme von ChatGPT schrittweise veröffentlicht wird, um ihre Nutzung genau zu überwachen. Personen in der Alpha-Gruppe erhalten eine Benachrichtigung in der ChatGPT-App, gefolgt von einer E-Mail mit Anweisungen zur Verwendung.

In den Monaten seit der Demo von OpenAI hat das Unternehmen nach eigenen Angaben die Sprachfunktionen von GPT-4o mit mehr als 100 externen Red Teamern getestet, die 45 verschiedene Sprachen sprechen. OpenAI sagt, dass Anfang August ein Bericht über diese Sicherheitsbemühungen erscheinen wird.

Das Unternehmen sagt, dass der erweiterte Sprachmodus auf die vier voreingestellten Stimmen von ChatGPT – Juniper, Breeze, Cove und Ember – beschränkt sein wird, die in Zusammenarbeit mit bezahlten Synchronsprechern erstellt wurden. Die Sky-Stimme, die in der Mai-Demo von OpenAI gezeigt wurde, ist in ChatGPT nicht mehr verfügbar. OpenAI-Sprecherin Lindsay McCallum sagt: „ChatGPT kann die Stimmen anderer Personen, weder Einzelpersonen noch Persönlichkeiten des öffentlichen Lebens, nicht imitieren und blockiert Ausgaben, die von einer dieser voreingestellten Stimmen abweichen.“

OpenAI versucht, Deepfake-Kontroversen zu vermeiden. Im Januar wurde die Sprachklontechnologie des KI-Startups ElevenLabs verwendet, um Präsident Biden zu imitierenund täuschte die Wähler bei den Vorwahlen in New Hampshire.

OpenAI sagt auch, dass es neue Filter eingeführt hat, um bestimmte Anfragen zur Generierung von Musik oder anderen urheberrechtlich geschützten Audiodateien zu blockieren. Im letzten Jahr sind KI-Unternehmen wegen Urheberrechtsverletzungen in rechtliche Schwierigkeiten geraten, und Audiomodelle wie GPT-4o eröffnen eine ganz neue Kategorie von Unternehmen, die eine Klage einreichen können. Insbesondere Plattenlabels, die für ihre Prozessfreudigkeit bekannt sind, haben die KI-Songgeneratoren Suno und Udio bereits verklagt.

tch-1-tech