Offenes Buch-Repository Project Gutenberg hat praktisch über Nacht Tausende seiner Titel in Hörbücher verwandelt mit synthetischer Sprache, jetzt zum Herunterladen oder Streamen auf mehreren Diensten verfügbar. Die Auswahl ist etwas eigenwillig (wie die des Archivs im Allgemeinen), aber sie ist dennoch ein eindrucksvoller Beweis für die Zugänglichkeit in der Literatur.
Die Herstellung eines Hörbuchs mittels traditioneller Erzählung dauert selbst im besten Fall natürlich ziemlich lange, und natürlich muss der Leser für seine Zeit bezahlt werden, und da ist noch die Frage der Bearbeitung und Veröffentlichung. Bei vielen Titeln macht es finanziell keinen Sinn, ein Hörbuch zu produzieren, was bedeutet, dass viele ältere und unbekanntere Titel für Menschen, die dieses Format bevorzugen, weiterhin schwierig zu konsumieren sind.
Projekt Gutenberg widmet sich natürlich der Verbreitung gemeinfreier Literatur in möglichst vielen Formaten, und das Schließen dieser Lücke steht wahrscheinlich schon seit Jahren auf ihrer To-Do-Liste. Aber erst durch die Zusammenarbeit mit dem MIT und Microsoft gelang es ihnen, die Art von Code-Magie anzuwenden, die nötig war, um mithilfe von KI-generierter Sprache diese Bücher zum Leben zu erwecken.
Das Problem mit dem Archiv von PG, so wertvoll es auch ist, besteht darin, dass die Dateien nicht einheitlich formatiert sind. Sie stammen aus verschiedenen Quellen, sind oft fehlerbehaftete optische Zeichenerkennungsprozesse und werden oft von Freiwilligen unvollständig bearbeitet und korrigiert. Selbst wenn sie fehlerfrei wären, bedeutet dies nicht, dass das Format problemlos von einer Maschine gelesen werden könnte: Sie würden am Ende eine Erzählung von Seitenzahlen, Fußnoten und anderen Ephemera erhalten.
„Jedes der E-Books im Projekt Gutenberg liegt in seinem eigenen, eigenwilligen HTML-Format vor und enthält jede Menge Text, den man nicht vorgelesen hören möchte, wie Tabellen, Inhaltsverzeichnisse, Indizes, Seitenzahlen usw. Der schwierigste Teil des Projekts war das Extrahieren der gute Text zum Vorlesen.“ erklärte Projekt-Co-Leiter Mark Hamilton, verbunden mit Microsoft und MIT.
Um dieses Problem zu lösen, entwickelten sie ein System, das das Archiv durchsuchte, ähnlich formatierte Buchdateien identifizierte und dann herausfand, welche dieser Cluster am besten für das automatische Auslesen geeignet waren.
Dieser erste Band, der in seiner Auswahl etwas eingeschränkt ist, ist ein wenig eigenwillig: Beispielsweise gibt es nur ein Dickens-Buch (noch dazu das unvollendete „Edwin Drood“), aber ein Dutzend Bände in der Art von „Notes and Queries, Nummer 176“. , 12. März 1853 Ein Medium der gegenseitigen Kommunikation für Literaten, Künstler, Antiquare, Genealogen usw.
„Wir haben die Bücher für den ersten Stapel auf der Grundlage dessen ausgewählt, was der automatisierte Parser unserer Meinung nach einigermaßen gut leisten konnte“, fuhr Hamilton fort. „Trotzdem sind einige wichtige Erfolge durch das Raster gefallen. Nachdem wir nun die erste Charge herausgebracht haben, arbeiten wir daran, das System zu verallgemeinern, um in einer zukünftigen Version näher an die vollen 60.000 Bücher heranzukommen.“
Was die Erzählung selbst betrifft, hat das Team mehrere Tools für maschinelles Lernen und synthetische Sprache zusammengestellt, die in den letzten Jahren verbessert und zugänglicher geworden sind. Vor ein paar Jahren war klar, dass die automatisierte Produktion von Hörbüchern bald Einzug halten würde, und das ist auch der Fall – und zwar in großem Maßstab.
Hier ist wie die Arbeit zum Projekt beschreibt ihren Ansatz, ein generiertes Hörbuch ansprechend zu gestalten:
Um eine emotionale Lesart des Textes zu erzeugen, verwenden wir ein automatisches Sprecher- und Emotionsinferenzsystem, um die Lesestimme und den Ton basierend auf dem Kontext dynamisch zu ändern. Dadurch werden Passagen mit mehreren Charakteren und emotionalen Dialogen lebensechter und ansprechender. Dazu segmentieren wir den Text zunächst in Erzählung und Dialog und identifizieren für jeden Dialogabschnitt den Sprecher. Anschließend prognostizieren wir die Emotionen jedes Dialogs auf selbstüberwachte Weise. Schließlich weisen wir dem Erzähler und den Charakterdialogen separate Stimmen und Emotionen zu, indem wir das in vorgeschlagene multi-stile und kontextbasierte neuronale Text-to-Speech-Modell verwenden.
Die ersten etwa 5.000 Bücher sind zum kostenlosen Anhören verfügbar auf Spotify, Apple Podcasts und den Internetarchivund der zu ihrer Erstellung verwendete Code wird auf GitHub dokumentiert.