Xaviar ‚X‘ Jernigan, die Stimme von Spotifys DJ, erklärt, wie es ist, eine KI zu werden

Xaviar X Jernigan die Stimme von Spotifys DJ erklaert wie

Im März startete Spotify sein erstes KI-gestütztes Feature mit dem Debüt seines AI DJ – einem intelligenten Audioguide mit einer überzeugend realistischen Stimme. Diese KI-Persona basierte tatsächlich auf einer realen Person, wie sich herausstellte – Spotifys Head of Cultural Partnerships, Xavier „X“ Jernigan, der die Ehre hatte, das erste Sprachmodell für das KI-Feature zu werden.

Tech setzte sich mit Jernigan zusammen, um mehr über den Prozess zum Training der KI und die Zukunftspläne von Spotify für seine KI-DJ-Bemühungen zu erfahren.

Der neue AI DJ personalisiert das Musikhörerlebnis für die Zuhörer, indem er eine Auswahl an Musik basierend auf ihren Interessen kuratiert. Es hat auch einen gesprochenen Kommentar zu jedem Song – ähnlich wie ein echter Radiomoderator.

Neben Jernigans Hauptrolle bei Spotify ist er auch der Moderator verschiedener Spotify-Podcasts, darunter „The Window“, „Showstopper“ sowie der inzwischen eingestellte Podcast „The Get Up“. Er ist es also gewohnt, dass seine Stimme von Millionen von Zuhörern gehört wird. Dennoch ist es eine einzigartige Erfahrung, seine Stimme als KI in Erinnerung zu behalten.

Spotify wählte Jernigan als erstes Sprachmodell, weil seine „Stimme und Persönlichkeit bereits bei vielen unserer Zuhörer Anklang fanden“, sagte Jernigan gegenüber Tech. „[The company was] ziemlich zuversichtlich, dass ich auch auf diese Weise mitschwingen würde.“

Spotifys Morning Show „The Get Up“ gewann fast 6 Millionen Zuhörer und war ein Top-10-Podcast auf Spotify, bevor sie 2022 abrupt endete, was Jernigans Anziehungskraft demonstrierte.

Trotzdem war es zunächst schwierig, das Stimmmodell für DJ zu sein, gab der Podcast-Moderator zu.

„Ich wurde darauf angesprochen, dieses Stimmmodell für DJs zu sein, und ich war umgehauen, als es mir erklärt wurde“, sagte Jernigan. „Stellen Sie sich vor, wenn Sie das zum ersten Mal hören, haben Sie nichts zum Anschauen und ich denke nur: ‚Warte, was? Ich werde es sein, aber ich bin es nicht, und es ist Text und Stimme, aber es wird wie ich klingen, und es ist KI?“

„Für mich war es eine neue Erfahrung, auf diese Weise mit KI zu arbeiten. Ich war einfach überwältigt“, fügte er hinzu.

Laut Spotify wurde sein AI DJ sowohl mit Sonantic- als auch mit OpenAI-Technologien erstellt.

Sonantic ist ein KI-Startup, das Spotify letztes Jahr übernommen hat. Die Techniker des Unternehmens waren für die Erstellung KI-basierter realistischer Stimmen verantwortlich, einschließlich derjenigen, die für Val Kilmers Stimme in „Top Gun: Maverick“ verwendet wurde.

Vor der Übernahme hatte Spotify einige Jahre damit verbracht, KI-gestützte Technologie zu erforschen und „in einigen Iterationen“ an der DJ-Funktion zu arbeiten, bemerkte Jernigan. Er lehnte es ab, genau mitzuteilen, wie lange der Prozess gedauert hat, sagte aber, dass die Integration der Sonantic-Technologie „wirklich auf Hochtouren gebracht“ habe.

Jernigan erklärte den Prozess des Trainings der KI, der darin bestand, in ein Studio zu gehen, ein Drehbuch vorzulesen und in verschiedenen Kadenzen und Beugungen zu sprechen, um unterschiedliche Emotionen zu vermitteln. Er fütterte die KI mit bestimmten Wörtern, die nur er verwendet, damit sie sich so authentisch wie möglich anfühlt.

„Wir verwenden Wörter, die ich sage … Ich sage nicht ‚Melodien‘ für Songs. So rede ich einfach nicht“, sagte er. „Ich sage ‚Hits‘ oder ‚Bangers‘. Sie werden DJ also solche Worte sagen hören“, fuhr Jernigan fort. „Wir haben sogar einen ganzen Prozess durchgeführt wie: Wie sage ich ‚Hey‘, wie sage ich ‚Hallo‘? Ich trug ein Notizbuch mit mir herum und schrieb einfach diese verschiedenen Sätze auf, die ich sagen würde.“

Er fügte hinzu, dass das Spotify-Team darauf geachtet habe, seine natürlichen Pausen und Atemzüge beizubehalten, damit die KI-Stimme wirklich menschenähnlich klingen würde.

Sogar Jernigans Mutter gab den Ergebnissen ihre Zustimmung.

„[DJ] Mamatest bestanden. Ich habe es ihr vorgespielt, bevor es herauskam, habe es ihr erklärt und ich versuche, sie dazu zu bringen, sich darauf einzulassen“, sagte er. „Sie hat sich alle meine Podcasts angehört, also war sie daran gewöhnt, meine aufgenommene und abgespielte Stimme zu hören, und sie sagte: ‚Das klingt genau wie du.‘ Meine Mama sagte, es klinge wie ich, also wusste ich, dass es genau richtig war.“

Obwohl es bereits realistische KI-Stimmen gibt, würden wir argumentieren, dass der DJ von Spotify im Vergleich zu anderen, die wir gehört haben, der ruhigste und chilligste ist. Obwohl die Duplex-Technologie von Google authentisch klingen mag, ist es nicht unbedingt eine Stimme, der man gerne zuhört, wenn man versucht, zu seiner Sommer-Jam-Playlist zu schwingen.

„Für mich, als ich die Aufführung vom Standpunkt des Synchronsprechers aus machte, war es mein Ziel, mich mit Menschen zu verbinden und mit Menschen zu sprechen und an eine Person zu denken. Als ich also die KI trainierte, stellte ich mir nur eine Person vor, wenn ich im Studio war, mit ihr sprach und ihr Freund war“, fügte er hinzu.

Abgesehen davon, dass die KI-Stimme für die Zuhörer freundlich klingt, wurde auch das Design des DJs selbst so gestaltet, dass es sich zugänglich anfühlt.

Der animierte grüne Kreis, den Nutzer sehen, wenn sie dem DJ zuhören, ist eine Anspielung auf das Spotify-Logo und bewegt sich wie ein Mund, wenn die KI spricht.

„Beim Design haben wir an das gesamte Erlebnis gedacht – wie es funktioniert, wie es klingt, wie es aussieht und wie es für jeden Benutzer individuell gestaltet werden kann“, Emily Galloway, Head of Product Design for Personalization bei Spotify, sagte Tech. „Für die visuelle Seite haben wir schon früh einige Optionen untersucht, die sich technischer anfühlten (stellen Sie sich Dinge wie Schallwellen vor). Doch das fühlte sich nicht richtig an, da wir die KI humanisieren wollten…“

„Wir wollten, dass es einzigartig aussieht und sich anfühlt. Tatsächlich war es so einzigartig, dass ihm ein Geschmacksmuster verliehen wurde“, fügte Galloway hinzu.

Jernigan hat neben der Aufnahme seiner Stimme noch auf andere Weise zum DJ beigetragen.

Damit die KI Expertenkommentare zur Musik liefern kann, hat Spotify einen Autorenraum aus Kuratoren, Kulturexperten und Musikexperten zusammengestellt.

Jernigan hat einen umfangreichen Hintergrund in der Musik, also war er auch ein Teilnehmer im Zimmer des Schriftstellers. Zuvor arbeitete er unter anderem für Top-Künstler wie Diddy, Amy Winehouse und 2 Chainz.

Und während Jernigan das erste Stimmmodell für DJs ist, besteht für Zuhörer das Potenzial, in Zukunft mehr Stimmen zu hören.

Tech fragte Jernigan, ob das Unternehmen Pläne habe, Sprachmodelle einzustellen, die andere Sprachen sprechen.

„Bleiben Sie dran“, deutete er an.

Der AI DJ ist derzeit nur in englischer Sprache für Premium-Abonnenten in den USA und Kanada verfügbar. Ab Februar befindet sich die DJ-Funktion noch im Beta-Test.

„Wir haben eine ganze Reihe wirklich cooler neuer Funktionen auf der ganzen Linie herausgebracht“, sagte Jernigan. „Wir haben wirklich cooles Zeug, das herauskommt.“

tch-1-tech