Meta hat eine „offene“ Implementierung der viralen Funktion zum Generieren eines Podcasts in Googles NotebookLM veröffentlicht.
Angerufen NotizbuchLamaEs überrascht nicht, dass das Projekt für einen Großteil der Verarbeitung Metas eigene Llama-Modelle verwendet. Wie NotebookLM kann es hin und her, Podcast-ähnliche Digests der darauf hochgeladenen Textdateien generieren.
NotebookLlama erstellt zunächst ein Transkript aus einer Datei – z. B. einem PDF eines Nachrichtenartikels oder Blogbeitrags. Anschließend werden „mehr Dramatisierung“ und Unterbrechungen hinzugefügt, bevor das Transkript in offene Text-zu-Sprache-Modelle eingespeist wird.
Die Ergebnisse klingen bei weitem nicht so gut wie bei NotebookLM. Im NotizbuchLama Proben Ich habe es mir angehört, die Stimmen haben ganz offensichtlich einen roboterhaften Charakter und neigen dazu, an seltsamen Stellen übereinander zu reden.
Die Meta-Forscher hinter dem Projekt sagen jedoch, dass die Qualität mit stärkeren Modellen verbessert werden könnte.
„Das Text-to-Speech-Modell begrenzt die Natürlichkeit des Klangs“, schrieben sie auf der GitHub-Seite von NotebookLlama. „[Also,] Ein anderer Ansatz zum Schreiben des Podcasts wäre, dass zwei Agenten das Thema, das sie interessiert, diskutieren und die Podcast-Gliederung schreiben. Im Moment verwenden wir ein einziges Modell, um die Podcast-Gliederung zu schreiben.“
NotebookLlama ist nicht das erste versuchen um die Podcast-Funktion von NotebookLM zu replizieren. Einige Projekte waren erfolgreicher als andere. Aber keinem – nicht einmal NotebookLM selbst – ist es gelungen, das Halluzinationsproblem zu lösen, das jede KI heimsucht. Das heißt, KI-generierte Podcasts sind es Es wird bestimmt einiges erfundenes Zeug enthalten.