Forscher bei Amazon haben das bisher größte Text-to-Speech-Modell trainiert, das ihrer Meinung nach „emergente“ Eigenschaften aufweist, die seine Fähigkeit verbessern, selbst komplexe Sätze auf natürliche Weise zu sprechen. Der Durchbruch könnte das sein, was die Technologie braucht, um dem unheimlichen Tal zu entkommen.
Diese Modelle würden immer wachsen und sich verbessern, aber die Forscher hofften insbesondere, den Leistungssprung zu sehen, den wir beobachteten, sobald Sprachmodelle eine bestimmte Größe überschritten. Aus uns unbekannten Gründen werden LLMs, sobald sie über einen bestimmten Punkt hinauswachsen, viel robuster und vielseitiger und können Aufgaben ausführen, für die sie nicht ausgebildet wurden.
Das heißt nicht, dass sie an Empfindungsvermögen oder ähnlichem gewinnen, sondern nur, dass ihre Leistung bei bestimmten Konversations-KI-Aufgaben ab einem bestimmten Punkt mit Hockeyschlägern abnimmt. Das Team von Amazon AGI – kein Geheimnis, was es anstrebt – ging davon aus, dass das Gleiche passieren könnte, wenn auch die Text-to-Speech-Modelle wachsen, und ihre Untersuchungen legen nahe, dass dies tatsächlich der Fall ist.
Das neue Modell heißt Großes adaptives, streambares TTS mit neuen Fähigkeiten, die sie in die Abkürzung BASE TTS umgewandelt haben. Die größte Version des Modells nutzt 100.000 Stunden öffentlich zugängliche Sprache, 90 % davon auf Englisch, der Rest auf Deutsch, Niederländisch und Spanisch.
Mit 980 Millionen Parametern scheint BASE-large das größte Modell in dieser Kategorie zu sein. Zum Vergleich trainierten sie auch Modelle mit 400 Millionen und 150 Millionen Parametern auf der Grundlage von 10.000 bzw. 1.000 Stunden Audio. Die Idee dahinter: Wenn eines dieser Modelle aufkommendes Verhalten zeigt, ein anderes jedoch nicht, gibt es einen Bereich dafür, wo diese Verhaltensweisen beginnen hervorkommen.
Wie sich herausstellte, zeigte das mittelgroße Modell den Leistungssprung, nach dem das Team suchte, nicht unbedingt in Bezug auf die normale Sprachqualität (sie wird besser bewertet, aber nur um ein paar Punkte), sondern in der Reihe neu auftretender Fähigkeiten, die sie beobachteten und maßen . Hier finden Sie Beispiele für knifflige Texte im Papier erwähnt:
- Zusammengesetzte Nomen: Die Beckhams beschlossen, ein charmantes, aus Stein erbautes, malerisches Ferienhaus auf dem Land zu mieten.
- Emotionen: „Oh mein Gott! Gehen wir wirklich auf die Malediven? Das ist unglaublich!“ Jennie quiekte und hüpfte voller unbändiger Freude auf den Zehenspitzen.
- Fremdwörter: „Herr. Henry, bekannt für seine Mise en Place, arrangierte ein Sieben-Gänge-Menü, jedes Gericht ein Glanzstück.
- Paralinguistik (also lesbare Nichtwörter): „Shh, Lucy, shhh, wir dürfen deinen kleinen Bruder nicht wecken“, flüsterte Tom, als sie auf Zehenspitzen am Kinderzimmer vorbeigingen.
- Satzzeichen: Sie erhielt eine seltsame SMS von ihrem Bruder: „Emergency @ home; Rufen Sie so schnell wie möglich an! Mama und Papa machen sich Sorgen … #familymatters.‘
- Fragen: Aber die Brexit-Frage bleibt: Werden die Minister nach all den Irrungen und Wirrungen rechtzeitig die Antworten finden?
- Syntaktische Komplexitäten: Der Film, in dem De Moya, der kürzlich mit dem Preis für sein Lebenswerk ausgezeichnet wurde, im Jahr 2022 die Hauptrolle spielte, war trotz der gemischten Kritiken ein Kassenschlager.
„Diese Sätze sind für herausfordernde Aufgaben konzipiert – das Parsen von Garden-Path-Sätzen, die Betonung langatmiger zusammengesetzter Substantive, das Erzeugen emotionaler oder geflüsterter Sprache oder das Erzeugen der richtigen Phoneme für Fremdwörter wie „qi“ oder Satzzeichen wie „@“. – nichts davon ist explizit für die Ausführung von BASE TTS ausgebildet“, schreiben die Autoren.
Solche Funktionen stören normalerweise Text-to-Speech-Engines, die falsch aussprechen, Wörter überspringen, eine seltsame Betonung verwenden oder andere Fehler machen. Der BASE TTS hatte immer noch Probleme, schnitt aber weitaus besser ab als seine Zeitgenossen – Modelle wie Tortoise und VALL-E.
Es gibt eine Reihe von Beispielen dafür, dass diese schwierigen Texte mit dem neuen Modell ganz natürlich gesprochen werden an der Stelle, die sie dafür geschaffen haben. Natürlich wurden diese von den Forschern ausgewählt, also sind sie notwendigerweise Rosinenpickerei, aber es ist trotzdem beeindruckend. Hier sind ein paar, falls Sie keine Lust haben, sich durchzuklicken:
Da die drei BASE-TTS-Modelle eine gemeinsame Architektur haben, scheint es klar zu sein, dass die Größe des Modells und der Umfang seiner Trainingsdaten der Grund dafür zu sein scheinen, dass das Modell einige der oben genannten Komplexitäten bewältigen kann. Bedenken Sie, dass es sich immer noch um ein experimentelles Modell und Verfahren handelt – kein kommerzielles Modell oder ähnliches. Spätere Forschungen müssen den Wendepunkt für die Entstehungsfähigkeit identifizieren und herausfinden, wie das resultierende Modell effizient trainiert und eingesetzt werden kann.
Bemerkenswert ist, dass dieses Modell, wie der Name schon sagt, „streambar“ ist – das heißt, es muss nicht ganze Sätze auf einmal generieren, sondern erfolgt von Moment zu Moment mit einer relativ niedrigen Bitrate. Das Team hat außerdem versucht, die Sprachmetadaten wie Emotionalität, Prosodie usw. in einen separaten Stream mit geringer Bandbreite zu packen, der Vanilla-Audio begleiten könnte.
Es scheint, dass Text-to-Speech-Modelle im Jahr 2024 einen Durchbruch erleben könnten – pünktlich zur Wahl! Der Nutzen dieser Technologie, insbesondere für die Barrierefreiheit, lässt sich jedoch nicht leugnen. Das Team weist jedoch darauf hin, dass es sich geweigert hat, die Quelle des Modells und andere Daten zu veröffentlichen, da die Gefahr besteht, dass böswillige Akteure sie ausnutzen. Die Katze wird jedoch irgendwann aus diesem Sack herauskommen.