Das Tool bündelt drei generative KI-Modelle – AudioGen, EnCodecUnd MusicGen.
MusicGen ist ein Tool, das Texteingaben zum Generieren von Musik verwendet. Es wurde mit über 20.000 Stunden Musik trainiert, die entweder Eigentum von Meta ist oder für diesen speziellen Zweck lizenziert wurde. Der EnCodec-Decoder von Meta hilft Benutzern, Sounds mit weniger Artefakten zu erzeugen und verhindert so, dass Audiomanipulationen zu Verzerrungen führen. AudioGen hingegen erstellt Audio auf der Grundlage schriftlicher Eingabeaufforderungen, indem es beispielsweise das Geräusch bellender Hunde oder Schritte simuliert. Es wurde auf öffentliche Soundeffekte trainiert. A
Meta sagt, dass KI-produzierte Bilder und Texte zwar an Beliebtheit gewonnen haben, der Ton jedoch noch nicht ganz aufgeholt hat. Bisherige Soundprojekte seien komplex und für viele oft unzugänglich gewesen, so das Unternehmen. Das neue Toolkit soll es Entwicklern ermöglichen, ihre Modelle anzupassen und die Grenzen des Möglichen zu erweitern. Darüber hinaus stellt das Unternehmen diese Modelle Forschern als Open-Sourcing zur Verfügung, sodass sie diese Modelle mit ihren Datensätzen als ihre eigenen trainieren können.
„AudioCraft funktioniert für Musik, Ton, Komprimierung und Generierung – alles am selben Ort“, sagte Meta in einem Blogbeitrag, in dem das Tool angekündigt wurde. Das Unternehmen gibt an, dass einer der Vorteile dieses AudioCraft seine Benutzerfreundlichkeit und Wiederverwendbarkeit ist. Daher können Personen, die an der Entwicklung besserer Klanggeneratoren, Komprimierungsalgorithmen oder Musikgeneratoren interessiert sind, dieses Tool verwenden und es verbessern, indem sie auf dem aufbauen, was andere bereits erreicht haben.
Allerdings ist AudioCraft nicht für normale Benutzer gedacht, da für die effektive Nutzung des Tools technische Kenntnisse erforderlich sind. Nach Angaben des Unternehmens ist es in erster Linie für Forschungszwecke konzipiert. Die Entwickler arbeiten derzeit daran, die Leistung und Steuerungsmethoden dieser Modelle zu verbessern, um ihre Fähigkeiten zu erweitern.
In letzter Zeit, Google veröffentlichte außerdem sein Text-zu-Musik-Tool, MusicLMdas auf ähnliche Weise funktioniert und Musik aus Textansagen erstellt.