Google Forscher haben eine erstellt KI die aus Texteingaben Musikstücke generieren kann – ähnlich wie wie ChatGPT kann einen Textbefehl in eine Geschichte verwandeln und DALL-E erzeugt Bilder aus schriftlichen Eingabeaufforderungen. Das KI-Programm kann Texteingaben in Sekunden und sogar minutenlange Musik umwandeln sowie gesummte Melodien in andere Instrumente umwandeln.
Gemäß der am veröffentlichten Forschung GitHubheißt das KI-Modell MusikLM, und das Unternehmen hat eine Reihe von Mustern hochgeladen, die es mit dem Modell hergestellt hat. Die Beispiele werden MusicCaps genannt und sind im Grunde ein Datensatz, der aus 5,5.000 Musik-Text-Paaren besteht, mit Rich-Text-Beschreibungen, die von menschlichen Experten bereitgestellt werden.
„Wir stellen MusicLM vor, ein Modell, das High-Fidelity-Musik aus Textbeschreibungen wie ‚einer beruhigenden Geigenmelodie, unterstützt von einem verzerrten Gitarrenriff‘, generiert. MusicLM stellt den Prozess der bedingten Musikerzeugung als eine hierarchische Sequenz-zu-Sequenz-Modellierungsaufgabe dar und erzeugt Musik bei 24 kHz, die über mehrere Minuten konstant bleibt“, sagte das Unternehmen in der veröffentlichten Studie.
Die KI von Google erstellt 5-Minuten-Melodien
Die Beispiele umfassen 30-Sekunden-Clips sowie 5-minütige Musik in Langform, die wie echte Songs klingen. Sie wurden durch absatzlange Beschreibungen erstellt, und je klarer die Anweisungen sind, desto besser ist die Musik. Darüber hinaus beinhalten die Beispiele auch Genre, Stimmung und sogar bestimmte Instrumente.
„Das Audio wird generiert, indem eine Folge von Textaufforderungen bereitgestellt wird. Diese beeinflussen, wie das Modell die aus der vorherigen Bildunterschrift abgeleiteten semantischen Token fortsetzt“, sagten die Forscher.
Geschichtsmodus
Es gibt auch eine „Story-Modus“-Demo, bei der das Modell im Grunde mehrere Texteingaben mit Zeitdauer für jede Art von Musik erhält, die erstellt werden muss.
Nehmen Sie zum Beispiel diese Eingabeaufforderung:
Zeit zum Meditieren (0:00-0:15)
Zeit zum Aufwachen (0:15-0:30)
Zeit zum Laufen (0:30-0:45)
Zeit um 100% zu geben (0:45-0:60)
„Unsere Experimente zeigen, dass MusicLM bisherige Systeme sowohl in der Audioqualität als auch in der Einhaltung der Textbeschreibung übertrifft. Darüber hinaus zeigen wir, dass MusicLM sowohl auf Text als auch auf eine Melodie konditioniert werden kann, indem es gepfiffene und gesummte Melodien gemäß dem in einer Textunterschrift beschriebenen Stil umwandeln kann“, stellten die Forscher fest.
Gemäß der am veröffentlichten Forschung GitHubheißt das KI-Modell MusikLM, und das Unternehmen hat eine Reihe von Mustern hochgeladen, die es mit dem Modell hergestellt hat. Die Beispiele werden MusicCaps genannt und sind im Grunde ein Datensatz, der aus 5,5.000 Musik-Text-Paaren besteht, mit Rich-Text-Beschreibungen, die von menschlichen Experten bereitgestellt werden.
„Wir stellen MusicLM vor, ein Modell, das High-Fidelity-Musik aus Textbeschreibungen wie ‚einer beruhigenden Geigenmelodie, unterstützt von einem verzerrten Gitarrenriff‘, generiert. MusicLM stellt den Prozess der bedingten Musikerzeugung als eine hierarchische Sequenz-zu-Sequenz-Modellierungsaufgabe dar und erzeugt Musik bei 24 kHz, die über mehrere Minuten konstant bleibt“, sagte das Unternehmen in der veröffentlichten Studie.
Die KI von Google erstellt 5-Minuten-Melodien
Die Beispiele umfassen 30-Sekunden-Clips sowie 5-minütige Musik in Langform, die wie echte Songs klingen. Sie wurden durch absatzlange Beschreibungen erstellt, und je klarer die Anweisungen sind, desto besser ist die Musik. Darüber hinaus beinhalten die Beispiele auch Genre, Stimmung und sogar bestimmte Instrumente.
„Das Audio wird generiert, indem eine Folge von Textaufforderungen bereitgestellt wird. Diese beeinflussen, wie das Modell die aus der vorherigen Bildunterschrift abgeleiteten semantischen Token fortsetzt“, sagten die Forscher.
Geschichtsmodus
Es gibt auch eine „Story-Modus“-Demo, bei der das Modell im Grunde mehrere Texteingaben mit Zeitdauer für jede Art von Musik erhält, die erstellt werden muss.
Nehmen Sie zum Beispiel diese Eingabeaufforderung:
Zeit zum Meditieren (0:00-0:15)
Zeit zum Aufwachen (0:15-0:30)
Zeit zum Laufen (0:30-0:45)
Zeit um 100% zu geben (0:45-0:60)
„Unsere Experimente zeigen, dass MusicLM bisherige Systeme sowohl in der Audioqualität als auch in der Einhaltung der Textbeschreibung übertrifft. Darüber hinaus zeigen wir, dass MusicLM sowohl auf Text als auch auf eine Melodie konditioniert werden kann, indem es gepfiffene und gesummte Melodien gemäß dem in einer Textunterschrift beschriebenen Stil umwandeln kann“, stellten die Forscher fest.