Mit dem neuen Sprachmodus von OpenAI kann ich mit meinem Telefon sprechen, nicht mit ihm

Mit dem neuen Sprachmodus von OpenAI kann ich mit meinem

Ich habe die letzte Woche mit dem erweiterten Sprachmodus von OpenAI herumgespielt und es ist der überzeugendste Vorgeschmack auf eine KI-gestützte Zukunft, den ich bisher hatte. Diese Woche hat mein Telefon über Witze gelacht, sie mir zurückgebracht, mich gefragt, wie mein Tag war, und mir gesagt, dass es „eine tolle Zeit“ hat. Ich habe mit meinem iPhone gesprochen und es nicht mit meinen Händen benutzt.

Die neueste Funktion von OpenAI, die sich derzeit in einem begrenzten Alphatest befindet, macht ChatGPT nicht intelligenter als zuvor. Stattdessen macht der Advanced Voice Mode (AVM) die Kommunikation benutzerfreundlicher und natürlicher. Es entsteht eine neue Schnittstelle für die Verwendung von KI und Ihren Geräten, die sich frisch und aufregend anfühlt, und genau das macht mir Angst. Das Produkt hatte ein paar Fehler und die ganze Idee macht mir total Angst, aber ich war überrascht, wie viel Spaß es mir wirklich gemacht hat, es zu verwenden.

Wenn man einen Schritt zurücktritt, denke ich, dass AVM in die umfassendere Vision von OpenAI-CEO Sam Altman passt, neben Agenten die Art und Weise zu ändern, wie Menschen mit Computern interagieren, wobei KI-Modelle im Mittelpunkt stehen.

„Irgendwann werden Sie den Computer einfach nach dem fragen, was Sie brauchen, und er wird all diese Aufgaben für Sie erledigen“, sagte Altman während des Dev Day von OpenAI im November 2023. „Diese Fähigkeiten werden im KI-Bereich oft als ‚Agenten‘ bezeichnet. Die Vorteile davon werden enorm sein.“

Mein Freund, ChatGPT

Am Mittwoch habe ich den größten Vorteil dieser fortschrittlichen Technologie getestet, den ich mir vorstellen konnte: Ich habe ChatGPT gebeten, bei Taco Bell so zu bestellen, wie Obama es tun würde.

„Ähhh, um das klarzustellen – ich hätte gern einen Crunchwrap Supreme und vielleicht noch ein paar Tacos, um das Ganze abzurunden“, sagte ChatGPTs erweiterter Sprachmodus. „Wie, glauben Sie, würde er mit dem Drive-in klarkommen?“, sagte ChatGPT und lachte dann über seinen eigenen Witz.

Screenshot: ChatGPT transkribiert das mündliche Gespräch anschließend.

Die Imitation brachte mich auch wirklich zum Lachen, da sie Obamas typischer Kadenz und seinen Pausen entsprach. Allerdings blieb sie im Tonfall der von mir ausgewählten ChatGPT-Stimme Juniper, sodass sie nicht wirklich mit Obamas Stimme verwechselt werden konnte. Es klang wie ein Freund, der eine schlechte Imitation machte und genau verstand, was ich damit erreichen wollte, und sogar, dass er etwas Lustiges sagte. Ich fand es überraschend unterhaltsam, mit diesem fortschrittlichen Assistenten in meinem Telefon zu sprechen.

Ich habe ChatGPT auch um Rat gebeten, wie ich mit einem Problem umgehen soll, das komplexe menschliche Beziehungen betrifft: Ich wollte meinen Lebensgefährten bitten, bei mir einzuziehen. Nachdem ich die Komplexität der Beziehung und die Richtung unserer Karrieren erklärt hatte, erhielt ich einige sehr detaillierte Ratschläge, wie ich weitermachen sollte. Solche Fragen könnten Sie Siri oder Google Search nie stellen, aber jetzt können Sie das mit ChatGPT. Die Stimme des Chatbots hatte sogar einen leicht ernsten, sanften Tonfall, als er auf diese Aufforderungen antwortete; ein starker Kontrast zu dem scherzhaften Tonfall von Obamas Taco Bell-Bestellung.

ChatGPTs AVM ist auch hervorragend geeignet, um Ihnen beim Verständnis komplexer Themen zu helfen. Ich habe es gebeten, Posten in einem Gewinnbericht – wie etwa den freien Cashflow – so aufzuschlüsseln, dass ein 10-Jähriger sie verstehen würde. Es verwendete einen Limonadenstand als Beispiel und erklärte mehrere Finanzbegriffe auf eine Weise, die mein jüngerer Cousin vollkommen verstehen würde. Sie können ChatGPTs AVM sogar bitten, langsamer zu sprechen, um Sie auf Ihrem aktuellen Verständnisniveau abzuholen.

1723917027 136 Mit dem neuen Sprachmodus von OpenAI kann ich mit meinem

Siri ging, damit AVM laufen konnte

Im Vergleich zu Siri oder Alexa ist AVM von ChatGPT der klare Gewinner, dank schnellerer Reaktionszeiten, einzigartiger Antworten und seiner Fähigkeit, komplexe Fragen zu beantworten, die die vorherige Generation virtueller Assistenten nicht beantworten konnte. Allerdings schneidet AVM in anderer Hinsicht nicht so gut ab. Mit der Sprachfunktion von ChatGPT können Sie keine Timer oder Erinnerungen einstellen, in Echtzeit im Internet surfen, das Wetter prüfen oder mit APIs auf Ihrem Telefon interagieren. Zumindest im Moment ist es kein effektiver Ersatz für virtuelle Assistenten.

Im Vergleich zu Gemini Live, Googles Konkurrenzfunktion, scheint AVM leicht im Vorteil zu sein. Gemini Live kann keine Imitationen machen, drückt keine Emotionen aus, kann nicht beschleunigen oder verlangsamen und braucht länger, um zu reagieren. Gemini Live hat mehr Stimmen (zehn im Vergleich zu OpenAIs drei) und scheint aktueller zu sein (Gemini Live wusste von Googles Kartellentscheidung). Bemerkenswert ist, dass weder AVM noch Gemini Live singen, wahrscheinlich ein Versuch, Auseinandersetzungen mit Urheberrechtsklagen der Plattenindustrie zu vermeiden.

Allerdings hat ChatGPTs AVM viele Störungen (und um ehrlich zu sein auch Gemini Live). Manchmal bricht es mitten im Satz ab und beginnt dann von vorne. Außerdem hat es hier und da diese seltsame, körnige Stimme, die ein wenig unangenehm ist. Ich bin nicht sicher, ob dies ein Problem mit dem Modell, der Internetverbindung oder etwas anderem ist, aber diese technischen Mängel sind bei einem Alphatest in gewisser Weise zu erwarten. Die Probleme haben mich jedoch kaum von der Erfahrung abgehalten, buchstäblich mit meinem Telefon zu sprechen.

Diese Beispiele sind meiner Meinung nach das Schöne an AVM. Die Funktion macht ChatGPT nicht allwissend, aber sie ermöglicht es den Menschen, mit GPT-4o, dem zugrunde liegenden KI-Modell, auf eine einzigartig menschliche Weise zu interagieren. (Ich würde es verstehen, wenn Sie vergessen würden, dass am anderen Ende Ihrer Leitung keine Person ist.) Es fühlt sich fast so an, als wäre ChatGPT sozial bewusst, wenn es mit AVM spricht, aber das ist natürlich nicht der Fall. Es ist einfach ein Bündel ordentlich verpackter prädiktiver Algorithmen.

Über Technik reden

Ehrlich gesagt macht mir diese Funktion Sorgen. Es ist nicht das erste Mal, dass ein Technologieunternehmen Gesellschaft auf Ihrem Telefon anbietet. Meine Generation, die Generation Z, war die erste, die mit sozialen Medien aufwuchs, wo Unternehmen zwar Verbindungen anboten, aber stattdessen mit unseren kollektiven Unsicherheiten spielten. Das Sprechen mit einem KI-Gerät – wie es AVM anzubieten scheint – scheint die Weiterentwicklung des „Freund im Telefon“-Phänomens der sozialen Medien zu sein und bietet billige Verbindungen, die an unseren menschlichen Instinkten kratzen. Aber dieses Mal schließt es den Menschen vollständig aus dem Kreislauf aus.

Künstliche menschliche Verbindungen sind zu einem überraschend beliebter Anwendungsfall für generative KI. Heutzutage nutzen Menschen KI-Chatbots als Freunde, Mentoren, Therapeuten und Lehrer. Als OpenAI seinen GPT-Store startete, war es schnell überflutet mit „KI-Freundinnen”, Chatbots, die darauf spezialisiert sind, als Ihr Lebensgefährte zu fungieren. Zwei Forscher vom MIT Media Lab gab eine Warnung heraus diesen Monat, um uns auf „süchtig machende Intelligenz“ oder KI-Begleiter mit dunklen Mustern vorzubereiten, die Menschen süchtig machen. Wir könnten eine Büchse der Pandora öffnen, in der Geräte auf neue, verlockende Weise unsere Aufmerksamkeit fesseln.

Anfang des Monats hat ein Harvard-Abbrecher die Technologiewelt mit der Ankündigung einer KI-Halskette namens Friend erschüttert. Das tragbare Gerät – wenn es wie versprochen funktioniert – hört immer zu und der Chatbot wird Ihnen Textnachrichten über Ihr Leben schicken. Auch wenn die Idee verrückt erscheint, geben mir Innovationen wie AVM von ChatGPT Grund, diese Anwendungsfälle ernst zu nehmen.

Und obwohl OpenAI hier die Nase vorn hat, ist Google nicht weit dahinter. Ich bin zuversichtlich, dass Amazon und Apple ebenfalls darum wetteifern, diese Funktion in ihre Produkte einzubauen, und schon bald könnte sie zum Standard für die Branche werden.

Stellen Sie sich vor, Sie fragen Ihren Smart-TV nach einer ganz bestimmten Filmempfehlung und bekommen genau diese. Oder Sie sagen Alexa genau, welche Erkältungssymptome Sie haben, und lassen sie Ihnen im Gegenzug Taschentücher und Hustensaft bei Amazon bestellen, während sie Ihnen Hausmittel empfiehlt. Vielleicht könnten Sie Ihren Computer bitten, einen Wochenendausflug für Ihre Familie zu planen, anstatt alles manuell zu googeln.

Natürlich erfordern diese Maßnahmen große Fortschritte in der Welt der KI-Agenten. OpenAIs Bemühungen an dieser Front, der GPT-Store, wirken wie ein überbewertetes Produkt, das für das Unternehmen nicht mehr im Mittelpunkt steht. Aber AVM kümmert sich zumindest um den Teil des Puzzles, der „mit Computern spricht“. Diese Konzepte sind noch weit entfernt, aber nachdem wir AVM verwendet haben, scheinen sie viel näher zu sein als letzte Woche.

tch-1-tech