GPT-4o von OpenAI, das generative KI-Modell, das der kürzlich veröffentlichten Alpha des Advanced Voice Mode in ChatGPT zugrunde liegt, ist das erste des Unternehmens, das sowohl mit Sprach- als auch mit Text- und Bilddaten trainiert wurde. Und das führt dazu, dass es sich manchmal auf seltsame Weise verhält – beispielsweise indem es die Stimme der Person nachahmt, mit der es spricht, oder indem es mitten in einem Gespräch wahllos schreit.
In einem neuer „Red Teaming“-Bericht OpenAI dokumentiert die Stärken und Risiken des Modells und enthüllt einige der seltsameren Eigenheiten von GPT-4o, wie das bereits erwähnte Stimmenklonen. In seltenen Fällen – insbesondere wenn eine Person in einer „Umgebung mit starkem Hintergrundgeräusch“ wie einem Auto auf der Straße mit GPT-4o spricht – „emuliert GPT-4o die Stimme des Benutzers“, sagt OpenAI. Warum? Nun, OpenAI schreibt es dem Modell zu, dass es Schwierigkeiten hat, missgebildete Sprache zu verstehen. Gut so!
Hören Sie sich an, wie es in der folgenden Probe (aus dem Bericht) klingt. Seltsam, oder?
Um es klarzustellen: GPT-4o macht das derzeit nicht – zumindest nicht im erweiterten Sprachmodus. Ein Sprecher von OpenAI teilte Tech mit, dass das Unternehmen eine „systemweite Abhilfe“ für dieses Verhalten hinzugefügt habe.
GPT-4o neigt auch dazu, beunruhigende oder unangemessene „nonverbale Lautäußerungen“ und Klangeffekte zu erzeugen, wie erotisches Stöhnen, heftige Schreie und Schüsse, wenn es auf bestimmte Weise dazu aufgefordert wird. OpenAI sagt, es gebe Hinweise darauf, dass das Modell allgemein lehnt Anfragen zur Generierung von Soundeffekten ab, erkennt jedoch an, dass einige Anfragen tatsächlich durchkommen.
GPT-4o könnte auch gegen Musikurheberrechte verstoßen – oder besser gesagt, es würde das tun, wenn OpenAI nicht Filter implementiert hätte, um dies zu verhindern. In dem Bericht sagte OpenAI, es habe GPT-4o angewiesen, nicht für die begrenzte Alpha des Advanced Voice Mode zu singen, vermutlich um zu vermeiden, den Stil, den Ton und/oder das Timbre bekannter Künstler zu kopieren.
Dies impliziert – bestätigt aber nicht direkt –, dass OpenAI GPT-4o mit urheberrechtlich geschütztem Material trainiert hat. Unklar ist, ob OpenAI beabsichtigt, die Beschränkungen aufzuheben, wenn der Advanced Voice Mode wie bereits angekündigt im Herbst für mehr Benutzer eingeführt wird.
„Um der Audiomodalität von GPT-4o Rechnung zu tragen, haben wir bestimmte textbasierte Filter aktualisiert, damit sie auch bei Audiogesprächen funktionieren [and] „Wir haben Filter entwickelt, um Ausgaben mit Musik zu erkennen und zu blockieren“, schreibt OpenAI in dem Bericht. „Wir haben GPT-4o darauf trainiert, Anfragen nach urheberrechtlich geschütztem Inhalt, einschließlich Audio, abzulehnen, im Einklang mit unseren umfassenderen Praktiken.“
Bemerkenswert ist, dass OpenAI sagte vor kurzem Es wäre „unmöglich“, die heute führenden Modelle zu trainieren, ohne urheberrechtlich geschütztes Material zu verwenden. Obwohl das Unternehmen eine Reihe von Lizenzverträgen mit Datenanbietern abgeschlossen hat, behauptet es auch, dass Fair Use eine angemessene Verteidigung gegen Anschuldigungen ist, dass es ohne Erlaubnis mit IP-geschützten Daten trainiert, darunter Dinge wie Lieder.
Der Red-Teaming-Bericht – was auch immer er wert ist, wenn man bedenkt, welche Pferde OpenAI im Rennen hat – tut zeichnen insgesamt das Bild eines KI-Modells, das durch verschiedene Abschwächungs- und Sicherheitsmaßnahmen sicherer gemacht wurde. GPT-4o weigert sich beispielsweise, Personen anhand ihrer Sprechweise zu identifizieren und lehnt es ab, Suggestivfragen wie „Wie intelligent ist dieser Sprecher?“ zu beantworten. Es blockiert auch Aufforderungen zu gewalttätiger und sexuell aufgeladener Sprache und verbietet bestimmte Inhaltskategorien, wie Diskussionen über Extremismus und Selbstverletzung, vollständig.