Die neue „DJ“-Funktion von Spotify ist der erste Schritt in die KI-gestützte Zukunft des Streamers

Die neue „DJ Funktion von Spotify ist der erste Schritt in

Spotify hat größere Pläne für die Technologie hinter seiner neuen AI DJ-Funktion, nachdem es positive Verbraucherreaktionen auf die neue Funktion gesehen hat. Der KI-DJ, der letzte Woche kurz vor dem Stream On-Event des Unternehmens in LA gestartet wurde, kuratiert eine personalisierte Musikauswahl, kombiniert mit gesprochenen Kommentaren, die in einer realistisch klingenden, KI-generierten Stimme geliefert werden. Aber unter der Haube nutzt das Feature die neuesten KI-Technologien und Large Language Models sowie generative Stimme – die alle auf die bestehenden Investitionen von Spotify in Personalisierung und maschinelles Lernen aufgesetzt werden.

Diese neuen Tools müssen nicht unbedingt auf ein einziges Feature beschränkt sein, glaubt Spotify, weshalb es jetzt mit anderen Anwendungen der Technologie experimentiert.

Obwohl das Highlight von Spotifys Stream On-Event die Überarbeitung der mobilen App war, die sich jetzt auf TikTok-ähnliche Discovery-Feeds für Musik, Podcasts und Hörbücher konzentriert, ist der AI DJ jetzt ein wichtiger Bestandteil der neuen Erfahrung des Streaming-Dienstes. Der DJ wurde Ende Februar den Premium-Abonnenten von Spotify in den USA und Kanada vorgestellt und soll die Benutzer so gut kennenlernen, dass er mit einem Knopfdruck alles spielen kann, was Sie hören möchten.

Mit der Überarbeitung der App erscheint der DJ oben auf dem Bildschirm unter dem Musik-Sub-Feed für Abonnenten und dient sowohl als entspannte Möglichkeit, Lieblingsmusik zu streamen, als auch als Mittel, um kostenlose Benutzer zum Upgrade zu bewegen.

Um den Kommentar zu erstellen, der die Musik begleitet, die der DJ streamt, sagt Spotify, dass es die Wissensbasis und die Erkenntnisse seiner eigenen internen Musikexperten genutzt hat. Mithilfe der generativen KI-Technologie von OpenAI kann der DJ dann seinen Kommentar für die Endbenutzer der App skalieren. Und im Gegensatz zu ChatGPT, das versucht, Antworten zu finden, indem es Informationen aus dem breiteren Internet destilliert, stellt Spotifys begrenztere Datenbank mit musikalischem Wissen sicher, dass der Kommentar des DJs sowohl relevant als auch genau ist.

Die tatsächliche Musikauswahl, die der DJ auswählt, stammt aus seinem bestehenden Verständnis der Vorlieben und Interessen eines Benutzers und spiegelt wider, was zuvor in personalisierte Wiedergabelisten wie Discover Weekly und andere programmiert worden wäre.

Die Stimme des KI-DJs wurde unterdessen mithilfe der Technologie erzeugt, die Spotify letztes Jahr von Sonatic erworben hat, und basiert auf der von Spotifys Head of Cultural Partnerships Xavier „X“ Jernigan, dem Moderator von Spotifys inzwischen nicht mehr existierendem Morgenshow-Podcast „The Get Up“. Überraschenderweise klingt die Stimme unglaublich realistisch und überhaupt nicht roboterhaft. (Während des Live-Events von Spotify sprach Jernigan neben seinem KI-Double und die Unterschiede waren schwer zu erkennen. „Ich kann den ganzen Tag auf meine Stimme hören“, scherzte er).

„Der Grund, warum es so gut klingt – das ist eigentlich das Ziel der Sonatic-Technologie, des Teams, das wir erworben haben. Es geht um die Emotion in der Stimme“, erklärt Spotifys Leiter für Personalisierung, Ziad Sultan, in einem Gespräch mit Tech nach Abschluss von Stream On. „Wenn Sie den AI DJ hören, werden Sie hören, wo die Pause zum Atmen ist. Sie hören die unterschiedlichen Intonationen. Man hört Begeisterung für bestimmte Arten von Genres“, sagt er.

Eine natürlich klingende KI-Stimme ist natürlich nicht neu – Google hat die Welt vor Jahren mit seiner eigenen menschlich klingenden KI-Kreation begeistert. Die Implementierung innerhalb von Duplex führte jedoch zu Kritik, da die KI Unternehmen im Auftrag des Endbenutzers anwählte, zunächst ohne offenzulegen, dass es sich nicht um eine echte Person handelte. Bei der Spotify-Funktion sollte es keine ähnlichen Bedenken geben, vorausgesetzt, es heißt sogar ein „KI-DJ“.

Um die KI-Stimme von Spotify natürlich klingen zu lassen, ging Jernigan ins Studio, um hochwertige Sprachaufnahmen zu produzieren, während er mit Experten für Sprachtechnologie zusammenarbeitete. Dort wurde er angewiesen, verschiedene Zeilen mit unterschiedlichen Emotionen zu lesen, die dann in das KI-Modell eingespeist werden. Spotify würde nicht sagen, wie lange dieser Prozess dauert, oder die Einzelheiten detailliert beschreiben, wobei darauf hingewiesen wird, dass sich die Technologie weiterentwickelt und sie als ihre „geheime Sauce“ bezeichnet.

„Aus diesem qualitativ hochwertigen Input, der viele verschiedene Permutationen hat, [Jernigan] muss dann nichts mehr sagen – jetzt ist es rein KI-generiert“, sagt Sultan über die generierte Stimme. Trotzdem taucht Jernigan manchmal in Spotifys Autorenraum auf, um Feedback zu geben, wie er eine Zeile gelesen hat, um sicherzustellen, dass er weiterhin Input hat.

Bildnachweis: Spotify-Screenshot

Aber während der KI-DJ mit einer Kombination aus Sonatic- und OpenAI-Technologie gebaut wird, investiert Spotify auch in interne Forschung, um die neuesten KI- und Large-Language-Modelle besser zu verstehen.

„Wir haben ein Forschungsteam, das an den neuesten Sprachmodellen arbeitet“, sagt Sultan gegenüber Tech. Tatsächlich arbeiten einige Hundert an Personalisierung und maschinellem Lernen. Im Fall des AI DJ verwendet das Team das OpenAI-Modell, bemerkt Sultan. „Aber im Allgemeinen haben wir ein großes Forschungsteam, das alle Möglichkeiten von großen Sprachmodellen, generativer Stimme und Personalisierung versteht. Das geht schnell“, sagt er. „Wir wollen für unsere KI-Expertise bekannt sein.“

Spotify kann jedoch seine eigene interne KI-Technologie verwenden oder auch nicht, um zukünftige Entwicklungen voranzutreiben. Es kann entscheiden, dass es sinnvoller ist, mit einem Partner zusammenzuarbeiten, wie es jetzt mit OpenAI der Fall ist. Aber es ist zu früh, um das zu sagen.

„Wir veröffentlichen ständig Artikel“, sagt Sultan. „Wir werden in die neuesten Technologien investieren – wie Sie sich vorstellen können, sind LLMs in dieser Branche eine solche Technologie. Also werden wir das Know-how weiterentwickeln.“

Mit dieser grundlegenden Technologie kann Spotify in andere Bereiche mit KI, LLMs und generativer KI-Technologie vordringen. Welche Bereiche das im Hinblick auf Verbraucherprodukte sein könnten, will das Unternehmen noch nicht sagen. (Wir haben gehört, dass ein ChatGPT-ähnlicher Chatbot jedoch zu den Optionen gehört, mit denen experimentiert wird. Aber in Bezug auf eine Einführung ist noch nichts entschieden, da es ein Experiment unter vielen anderen ist).

„Wir haben noch keine genauen Pläne bekannt gegeben, wann wir auf neue Märkte, neue Sprachen usw. expandieren könnten. Aber es ist eine Technologie, die eine Plattform ist. Wir können es schaffen und hoffen, dass wir im Laufe der Entwicklung mehr teilen können“, sagt Sultan.

Laut Spotify ist das frühe Verbraucherfeedback für KI vielversprechend

Das Unternehmen wollte keine vollständige Suite von KI-Produkten entwickeln, weil es nicht sicher war, wie die Verbraucher auf den DJ reagieren würden. Würden die Leute einen KI-DJ wollen? Würden sie sich auf die Funktion einlassen? Nichts davon war klar. Immerhin war der Sprachassistent von Spotify („Hey Spotify“) mangels Akzeptanz heruntergefahren worden.

This Week in Apps Metas paid verifications Instagrams founders new

Bildnachweis: Spotify-Screenshot

Aber es gab erste Anzeichen dafür, dass die DJ-Funktion gut abschneiden könnte. Spotify hatte das Produkt vor dem Start intern unter Mitarbeitern getestet, und die Nutzungs- und Reengagement-Metriken waren „sehr, sehr gut“.

Die öffentliche Akzeptanz entspricht bisher dem, was Spotify intern gesehen hat, sagt Sultan. Das bedeutet, dass es Potenzial gibt, zukünftige Produkte auf der Grundlage derselben zugrunde liegenden Grundlagen zu entwickeln.

„Die Leute verbringen Stunden am Tag mit diesem Produkt … es hilft ihnen bei der Auswahl, beim Entdecken, es erzählt ihnen die nächste Musik, die sie hören sollten, und erklärt ihnen warum … so die Reaktion – wenn Sie verschiedene soziale Medien überprüfen, Sie Ich werde sehen, dass es sehr positiv und emotional ist“, sagt Sultan.

Zusätzlich, Spotify geteilt dass die Benutzer an den Tagen, an denen sie sich einschalteten, 25 % ihrer Zeit damit verbrachten, dem DJ zuzuhören, und dass mehr als die Hälfte der Ersthörer am nächsten Tag wiederkommen, um die Funktion zu nutzen. Diese Metriken sind jedoch noch früh, da die Funktion noch nicht zu 100 % in den USA und Kanada eingeführt wurde. Aber sie sind vielversprechend, glaubt das Unternehmen.

„Ich denke, es ist ein erstaunlicher Schritt beim Aufbau einer Beziehung zwischen wirklich wertvollen Produkten und Benutzern“, sagt Sultan. Er warnt jedoch davor, dass die Herausforderung darin bestehen wird, „die richtige Anwendung zu finden und sie dann korrekt zu erstellen“.

„In diesem Fall sagten wir, das sei ein KI-DJ für Musik. Dafür haben wir das Autorenzimmer geschaffen. Wir legen es in die Hände der Benutzer, damit es genau die Aufgabe erfüllt, für die es bestimmt ist. Es funktioniert super gut. Aber es macht auf jeden Fall Spaß, davon zu träumen, was wir noch tun könnten und wie schnell wir es tun könnten“, fügt er hinzu.

tch-1-tech