Als OpenAI im Mai erstmals einen unheimlich realistischen, nahezu in Echtzeit ablaufenden „erweiterten Sprachmodus“ für seine KI-gestützte Chatbot-Plattform ChatGPT vorführte, gab das Unternehmen bekannt, dass die Funktion zahlenden ChatGPT-Nutzern innerhalb weniger Wochen zur Verfügung stehen würde.
Monate später sagt OpenAI, dass es mehr Zeit braucht.
In einem Beitrag auf dem offiziellen Discord-Server von OpenAI erklärt OpenAI, dass geplant war, den erweiterten Sprachmodus in der Alpha-Version Ende Juni einer kleinen Gruppe von ChatGPT Plus-Benutzern zur Verfügung zu stellen, dass jedoch anhaltende Probleme dazu geführt hätten, dass die Einführung auf irgendwann im Juli verschoben werden musste.
„Wir verbessern beispielsweise die Fähigkeit des Modells, bestimmte Inhalte zu erkennen und abzulehnen“, schreibt OpenAI. „Wir arbeiten auch daran, das Benutzererlebnis zu verbessern und unsere Infrastruktur darauf vorzubereiten, auf Millionen von Benutzern zu skalieren und dabei Echtzeitreaktionen aufrechtzuerhalten. Als Teil unserer iterativen Bereitstellungsstrategie werden wir die Alpha-Version mit einer kleinen Gruppe von Benutzern starten, um Feedback zu sammeln und basierend auf unseren Erkenntnissen zu erweitern.“
Laut OpenAI wird der erweiterte Sprachmodus möglicherweise erst im Herbst für alle ChatGPT Plus-Kunden eingeführt, je nachdem, ob er bestimmte interne Sicherheits- und Zuverlässigkeitsprüfungen besteht. Die Verzögerung hat jedoch keine Auswirkungen auf die Einführung der neuen Video- und Bildschirmfreigabefunktionen, die während der Frühjahrspresseveranstaltung von OpenAI separat vorgeführt wurden.
Zu diesen Fähigkeiten gehören das Lösen von Matheaufgaben anhand eines Bildes des Problems und das Erklären verschiedener Einstellungsmenüs auf einem Gerät. Sie sind so konzipiert, dass sie mit ChatGPT auf Smartphones sowie mit Desktop-Clients funktionieren, wie etwa der App für macOS, die heute allen ChatGPT-Benutzern zur Verfügung gestellt wurde.
„Der erweiterte Sprachmodus von ChatGPT kann Emotionen und nonverbale Signale verstehen und darauf reagieren, was uns Echtzeit-Gesprächen mit künstlicher Intelligenz näher bringt“, schreibt OpenAI. „Unsere Mission ist es, Ihnen diese neuen Erfahrungen mit Bedacht zu ermöglichen.“
Bei der Auftaktveranstaltung führten Mitarbeiter von OpenAI auf der Bühne vor, wie ChatGPT nahezu augenblicklich auf Anfragen reagiert, etwa das Lösen einer Matheaufgabe auf einem Blatt Papier, das vor die Smartphone-Kamera eines Forschers gehalten wird.
Der erweiterte Sprachmodus von OpenAI sorgte für ziemliche Kontroversen, da die Standard-Stimme „Sky“ der der Schauspielerin Scarlett Johansson ähnelte. Johansson gab später eine Erklärung ab, in der sie erklärte, sie habe einen Rechtsbeistand engagiert, um sich über die Stimme zu informieren und genaue Details zu ihrer Entwicklung zu erfahren – und sie habe wiederholte Bitten von OpenAI abgelehnt, ihre Stimme für ChatGPT zu lizenzieren.
OpenAI bestritt zwar, Johanssons Stimme ohne Erlaubnis oder ohne Nachahmung verwendet zu haben, entfernte die anstößige Stimme jedoch später.