Ein beeindruckendes neues KI-System von Google kann mit einer Textbeschreibung Musik in jedem Genre generieren. Aber das Unternehmen hat aus Angst vor den Risiken keine unmittelbaren Pläne, es freizugeben.
Namens MusikML, Google ist sicherlich nicht das erste generative KI-System für Songs. Es gab andere Versuche, darunter Riffus, eine KI, die Musik komponiert, indem sie sie visualisiert, sowie Dance Diffusion, Googles eigenes AudioML und OpenAIs Jukebox. Aber aufgrund technischer Beschränkungen und begrenzter Trainingsdaten war niemand in der Lage, Songs zu produzieren, die besonders komplex oder High-Fidelity sind.
MusicML ist vielleicht das erste, das das kann.
Ausführlich in einem akademischen Papier diese Woche wurde MusicML an einem Datensatz unbeschrifteter Musik trainiert, um zu lernen, kohärente Songs für Beschreibungen von – wie die Schöpfer es ausdrückten – „erheblicher Komplexität“ (z „Berliner 90er-Techno mit tiefem Bass und starkem Kick.“ Seine Songs klingen bemerkenswerterweise so, als würde ein menschlicher Künstler komponieren, wenn auch nicht unbedingt so einfallsreich oder musikalisch zusammenhängend.
In der Tat ist es schwer zu übertreiben, wie gut Die Samples klingen dort gegeben ist kein Musiker oder Instrumentalist in der Schleife. Auch wenn man mit etwas langen und mäandrierenden Beschreibungen gefüttert wird, schafft es MusicML, Nuancen wie Instrumentalriffs, Melodien und Stimmungen einzufangen.
Die Bildunterschrift für das Beispiel unten enthielt zum Beispiel den Teil „induziert die Erfahrung, im Weltraum verloren zu sein“, und es liefert auf jeden Fall an dieser Front (zumindest für meine Ohren):
Hier ist ein weiteres Beispiel, das aus einer Beschreibung generiert wurde, die mit dem Satz „Der Hauptsoundtrack eines Arcade-Spiels“ beginnt. Plausibel, oder?
Die Fähigkeiten von MusicLM gehen über das Generieren kurzer Songclips hinaus. Die Google-Forscher zeigen, dass das System auf bestehenden Melodien aufbauen kann, egal ob gesummt, gesungen, gepfiffen oder auf einem Instrument gespielt. Darüber hinaus kann MusicLM mehrere nacheinander geschriebene Beschreibungen nehmen (z. B. „Zeit zum Meditieren“, „Zeit zum Aufwachen“, „Zeit zum Laufen“, „Zeit, um 100 % zu geben“) und eine Art melodische „Geschichte“ oder Erzählung erstellen mit einer Länge von bis zu mehreren Minuten, perfekt geeignet für einen Film-Soundtrack.
Siehe unten, die aus der Sequenz „in einem Videospiel gespieltes elektronisches Lied“, „neben einem Fluss gespieltes Meditationslied“, „Feuer“, „Feuerwerk“ stammt.
Das soll nicht heißen, dass MusicLM fehlerlos ist – ganz im Gegenteil, ehrlich gesagt. Einige der Samples haben eine verzerrte Qualität, ein unvermeidbarer Nebeneffekt des Trainingsprozesses. Und während MusicLM Gesang technisch erzeugen kann, einschließlich Chorharmonien, lassen die meisten zu wünschen übrig. Die meisten „Lyriken“ reichen von kaum zusammenhängendem bis hin zu reinem Kauderwelsch, gesungen von synthetisierten Stimmen, die wie Zusammenschlüsse mehrerer Künstler klingen.
Dennoch weisen die Google-Forscher auf die vielen ethischen Herausforderungen hin, die ein System wie MusicML mit sich bringt, einschließlich einer unglücklichen Tendenz, urheberrechtlich geschütztes Material aus Trainingsdaten in die generierten Songs zu integrieren. Während eines Experiments fanden sie heraus, dass etwa 1 % der vom System generierten Musik direkt aus den Songs repliziert wurde, auf die es trainierte – eine Schwelle, die anscheinend hoch genug ist, um sie davon abzuhalten, MusicML in seinem aktuellen Zustand zu veröffentlichen.
„Wir erkennen das Risiko einer potenziellen Veruntreuung kreativer Inhalte im Zusammenhang mit dem Anwendungsfall an“, schrieben die Co-Autoren des Papiers. „Wir betonen nachdrücklich die Notwendigkeit weiterer zukünftiger Arbeiten zur Bewältigung dieser Risiken im Zusammenhang mit der Musikerzeugung.“
Angenommen, MusicML oder ein ähnliches System wird eines Tages verfügbar sein, scheint es unvermeidlich, dass große rechtliche Fragen in den Vordergrund treten werden. Sie haben bereits, wenn auch um einfachere KI-Systeme. Im Jahr 2020 reichte das Plattenlabel von Jay-Z Urheberrechtsverwarnungen gegen einen YouTube-Kanal, Vocal Synthesis, ein, weil er KI verwendet hatte, um Jay-Z-Cover von Songs wie „We Didn’t Start the Fire“ von Billy Joel zu erstellen. Nachdem die Videos zunächst entfernt wurden, stellte YouTube sie wieder her und stellte fest, dass die Deaktivierungsanträge „unvollständig“ waren. Aber Deepfake-Musik steht immer noch auf trübem Rechtsboden.
EIN weißes Papier verfasst von Eric Sunray, jetzt juristischer Praktikant bei der Music Publishers Association, argumentiert, dass KI-Musikgeneratoren wie MusicML das Urheberrecht an Musik verletzen, indem sie „Wandteppiche aus kohärentem Audio aus den Werken erstellen, die sie in der Ausbildung aufnehmen, wodurch das Vervielfältigungsrecht des US-amerikanischen Urheberrechtsgesetzes verletzt wird. ” Nach der Veröffentlichung von Jukebox haben Kritiker auch in Frage gestellt, ob das Training von KI-Modellen auf urheberrechtlich geschütztem Musikmaterial eine faire Nutzung darstellt. Ähnliche Bedenken wurden in Bezug auf die Trainingsdaten geäußert, die in bild-, code- und texterzeugenden KI-Systemen verwendet werden und oft ohne Wissen der Ersteller aus dem Internet geschabt werden.
Aus Benutzersicht ist Andy Baio von Waxy spekuliert dass von einem KI-System erzeugte Musik als abgeleitetes Werk angesehen würde, in welchem Fall nur die Originalelemente urheberrechtlich geschützt wären. Natürlich ist unklar, was an solcher Musik als „originell“ gelten könnte; Die kommerzielle Nutzung dieser Musik bedeutet, Neuland zu betreten. Es ist einfacher, wenn generierte Musik für Zwecke verwendet wird, die unter Fair Use geschützt sind, wie Parodie und Kommentare, aber Baio erwartet, dass Gerichte von Fall zu Fall urteilen müssen.
Es dürfte nicht mehr lange dauern, bis Klarheit in dieser Angelegenheit herrscht. Mehrere Klagen, die vor Gericht geführt werden, könnten sich auf die musikerzeugende KI auswirken, darunter eine, die sich auf die Rechte von Künstlern bezieht, deren Arbeit zum Trainieren von KI-Systemen ohne deren Wissen oder Zustimmung verwendet wird.