Sprachfunktionen: OpenAI führt Sprach- und Bildfunktionen für ChatGPT ein: Alle Details

Sprachfunktionen OpenAI fuehrt Sprach und Bildfunktionen fuer ChatGPT ein Alle
Wir nähern uns bald dem ersten Jahrestag von ChatGPT. In den letzten etwa 10 Monaten seit seinem Debüt, OpenAI hat regelmäßig neue Funktionen eingeführt KI-Chatbot. Jetzt hat OpenAI einige neue Funktionen angekündigt, die es ermöglichen werden ChatGPT intelligenter. In einem Blogbeitrag gab OpenAI bekannt, dass Voice und Bildfunktionen kommen zu ChatGPT. „Wir beginnen mit der Einführung neuer Sprach- und Bildfunktionen in ChatGPT. Sie bieten eine neue, intuitivere Art von Benutzeroberfläche, indem sie es Ihnen ermöglichen, ein Sprachgespräch zu führen oder ChatGPT zu zeigen, worüber Sie sprechen“, sagte das Unternehmen. ChatGPT-Benutzer können auf Bilder ihres Kühlschranks und ihrer Speisekammer klicken, um herauszufinden, was es zum Abendessen gibt (und Folgefragen für ein Schritt-für-Schritt-Rezept stellen).
„Wir führen in den nächsten zwei Wochen Sprache und Bilder in ChatGPT für Plus- und Enterprise-Benutzer ein. Voice kommt auf iOS und Android (in Ihren Einstellungen aktivieren) und Bilder werden auf allen Plattformen verfügbar sein“, sagte OpenAI.


Holen Sie sich ChatGPT, um mit Ihnen zu sprechen

Benutzer können ChatGPT einfach mit Sprachansagen aktivieren und ein Hin- und Hergespräch mit dem Assistenten führen. Die neue Sprachfunktion basiert auf einem neuen Text-to-Speech-Modell, das in der Lage ist, nur aus Text und einigen Sekunden Beispielsprache menschenähnliche Audiodaten zu erzeugen. „Wir haben mit professionellen Synchronsprechern zusammengearbeitet, um jede einzelne Stimme zu erstellen. Wir verwenden auch Whisper, unser Open-Source-Spracherkennungssystem, um Ihre gesprochenen Wörter in Text umzuwandeln“, sagte OpenAI im Blogbeitrag.
Zeigen Sie Bilder und lassen Sie ChatGPT antworten
Sie können ChatGPT jetzt ein oder mehrere Bilder anzeigen. Um sich auf einen bestimmten Teil des Bildes zu konzentrieren, können Benutzer das Zeichentool in der mobilen App verwenden. Das Bildverständnis wird durch multimodales GPT-3.5 und GPT-4 unterstützt. Diese Modelle wenden ihre sprachlichen Denkfähigkeiten gemäß OpenAI auf eine Vielzahl von Bildern an, z. B. Fotos, Screenshots und Dokumente, die sowohl Text als auch Bilder enthalten.

toi-tech