Mit dem KI-DJ von Spotify trainierte das Unternehmen eine KI auf die Stimme einer echten Person – die des Leiters für Kulturpartnerschaften und Podcast-Moderator Xavier „X“ Jernigan. Nun könnte der Streamer die gleiche Technologie offenbar auch für die Werbung nutzen. Laut Aussagen von The Ringer-Gründer Bill Simmons entwickelt der Streaming-Dienst eine KI-Technologie, die die Stimme eines Podcast-Moderators nutzen kann, um vom Moderator gelesene Werbung zu erstellen – ohne dass der Moderator den Anzeigentext tatsächlich lesen und aufzeichnen muss.
Simmons machte die Aussagen kürzlich Folge von „The Bill Simmons Podcast“ sagte: „Es wird eine Möglichkeit geben, meine Stimme für die Werbung zu verwenden.“ Natürlich muss man der Stimme zustimmen, aber sie eröffnet einem aus werblicher Sicht all diese verschiedenen tollen Möglichkeiten.“
Er sagte, diese Anzeigen könnten Podcastern neue Möglichkeiten eröffnen, da sie Anzeigen geografisch ausrichten könnten – etwa Tickets für eine lokale Veranstaltung in der Stadt des Hörers – oder sogar Anzeigen in verschiedenen Sprachen erstellen könnten, mit der Erlaubnis des Gastgebers.
Seine Kommentare wurden zuerst von gemeldet Semafor.
The Ringer wurde 2020 von Spotify übernommen, aber es war nicht klar, ob Simmons befugt war, über die Pläne des Streamers in diesem Bereich zu sprechen, da er zunächst sagte: „Ich glaube nicht, dass Spotify sauer auf mich sein wird.“ Dies…“, bevor Sie die Informationen weitergeben.
Spotify wurde um einen Kommentar gebeten und wollte die Entwicklung der Funktion weder direkt bestätigen noch dementieren.
„Wir arbeiten ständig daran, das Spotify-Erlebnis zu verbessern und neue Angebote zu testen, die Entwicklern, Werbetreibenden und Nutzern zugute kommen“, sagte ein Spotify-Sprecher gegenüber Tech. „Die KI-Landschaft entwickelt sich schnell weiter und Spotify, das auf eine lange Innovationsgeschichte zurückblicken kann, erforscht eine breite Palette von Anwendungen, einschließlich unserer äußerst beliebten KI-DJ-Funktion. Es gab eine Steigerung um 500 Prozent in der Anzahl der täglichen Podcast-Episoden über KI im letzten Monat, einschließlich des Gesprächs zwischen Derek Thompson und Bill Simmons. Werbung stellt einen interessanten Rahmen für zukünftige Erkundungen dar, aber wir haben derzeit nichts zu verkünden.“
Der Untertext dieses Kommentars deutet darauf hin, dass Simmons‘ Aussagen möglicherweise etwas verfrüht waren.
Allerdings hat Spotify bereits angedeutet, dass der KI-DJ in der App heute nicht der einzige KI-Sprach-Nutzer sein wird, dem er in Zukunft begegnen wird. Als Jernigan kürzlich nach Spotifys Plänen gefragt wurde, künftig mit anderen Sprachmodellen zusammenzuarbeiten, neckte er: „Bleiben Sie dran.“
Der Streamer hat auch stillschweigend in die KI-Entwicklung und -Forschung investiert, wobei ein Team von einigen Hundert mittlerweile an Bereichen wie Personalisierung und maschinellem Lernen arbeitet. Darüber hinaus hat das Team das OpenAI-Modell verwendet und die Möglichkeiten von Large Language Models, generative Voice und mehr erforscht.
Die Fähigkeit von Spotify, KI-Stimmen zu erstellen, nutzt insbesondere IP aus der Übernahme von Sonatic durch Spotify im Jahr 2022 in Kombination mit der OpenAI-Technologie. Es könnte sich in Zukunft dafür entscheiden, seine eigene interne KI-Technologie zu nutzen, teilte uns das Unternehmen kürzlich mit.
Um AI DJ zu entwickeln, ließ Spotify Jernigan in ein Studio gehen, um hochwertige Aufnahmen zu produzieren, darunter auch solche, bei denen er Zeilen mit unterschiedlichen Kadenzen und Emotionen vortrug. Er behielt bei den Aufnahmen seine natürlichen Pausen und Atemzüge bei und achtete darauf, eine Sprache zu verwenden, die er bereits sagt – wie „Melodien“ oder „Knaller“ statt nur „Lieder“. All dies wird dann in das KI-Modell eingespeist, das dann die KI-Stimme erstellt.
Das Unternehmen hat den Prozess detaillierter erläutert und erklärt, wie lange es gedauert hat, Jernigans Aufnahmen in einen KI-DJ zu verwandeln. Aber angesichts des möglichen Interesses, seine Podcast-Hosts in KI-Sprachmodelle umzuwandeln, muss das Unternehmen hier einen recht effizienten Prozess entwickeln – und einen, der möglicherweise die vorhandenen Aufnahmen eines Podcasters nutzen könnte.
Während KI-Stimmen nichts Neues sind, ist die Möglichkeit, sie wie echte Menschen klingen zu lassen, eine modernere Entwicklung. Vor ein paar Jahren begeisterte Google die Welt mit einer menschlich klingenden KI in Duplex, die Restaurants anrufen konnte, damit Sie Reservierungen vornehmen konnten. Doch die Technologie wurde zunächst wegen mangelnder Offenlegung kritisiert. Diesen Monat hat Apple mit Personal Vocie eine Barrierefreiheitsfunktion eingeführt, die in der Lage ist, die eigene Stimme des Benutzers nachzuahmen, nachdem er das Modell zum ersten Mal trainiert hat, indem er 15 Minuten damit verbringt, zufällig ausgewählte Eingabeaufforderungen zu lesen, die lokal auf seinem Gerät verarbeitet werden.