Meta tritt mit MusicGen gegen Googles MusicLM AI an, so funktioniert es

Der Audiocraft Forschungsteam bei Meta ist kürzlich gestartet MusicGenein Open-Source-Deep-Learning-Sprachmodell. MusicGen kann auf der Grundlage von Textansagen neue Musik produzieren und diese sogar an einen bestehenden Song anpassen. Das Modell ähnelt Google‚S MusicLM, trainiert mit 20.000 Stunden lizenzierter Musik. Es kann auch Melodien als Input nehmen und diese mit seiner musikalischen Kreativität ergänzen.

Auf der Hugging Face AI-Seite von Facebook gibt es eine Demo, mit der Sie Ihre bevorzugte Musik beschreiben können. Sie können aus einigen Beispielen auswählen, z. B. „ein treibender Popsong der 80er mit starkem Schlagzeug und Synthesizer-Pads im Hintergrund“. Anschließend können Sie Ihre Auswahl mit einem bis zu 30 Sekunden langen Song „konditionieren“. Sie haben die Möglichkeit, einen bestimmten Teil des Songs auszuwählen. Sobald Sie auf „Generieren“ klicken, erstellt die Demo ein hochwertiges Sample mit einer Länge von bis zu 12 Sekunden.Mit einfacheren Worten: Sie können die gewünschte Musikart beschreiben, dann bei Bedarf eine bereits vorhandene Melodie hinzufügen und dann auf „Generieren“ klicken. Es dauert etwa 160 Sekunden, also 2 Minuten und 40 Sekunden, dann entsteht ein einzigartiges Musikstück, das Ihre Textansagen und Melodie enthält.MusicGen verfügt über 20.000 Stunden lizenzierte Trainingsmusik, darunter 10.000 hochwertige Musiktitel aus dem eigenen Datensatz sowie Titel von Shutterstock und Pond5. Das Team nutzte Metas 32-kHz-EnCodec-Audio-Tokenizer, um kleinere Musikstücke zu generieren, die gleichzeitig verarbeitet werden können, wodurch der Prozess beschleunigt wurde. Hugging Face ML-Ingenieur Ahsen Khaliq twitterte, dass MusicGen im Gegensatz zu MusicLM keine selbstüberwachte semantische Darstellung erfordert und nur 50 autoregressive Audioschritte pro Sekunde aufweist.MusicGen ist in vier verschiedenen Modellgrößen erhältlich, wobei die größte das Potenzial hat, die komplexeste Musik zu produzieren. Um das Modell lokal auszuführen, wird empfohlen, mindestens eine zu haben GPU mit 16GB RAM.



Ende des Artikels

gn-tech