Mit Acapela kann jeder seine eigene Stimme in wenigen Minuten kostenlos sichern – nur für den Fall

Mit Acapela kann jeder seine eigene Stimme in wenigen Minuten

Synthetische Sprache kann heutzutage ein ängstliches Objekt sein, wenn sie mit Deepfakes und anderen KI-Täuschungen gepaart wird, aber sie ist auch ein unverzichtbares Werkzeug für alle, die nicht mehr alleine sprechen können. Die Acapela Group hat diese Leute mit ihrem neuen genau im Auge „Meine eigene Stimme“ Service, der jeden lässt ein KI-Sprachprofil trainieren kostenlos.

Acapela ist seit rund 25 Jahren im Text-to-Speech-Bereich tätig und wurde kürzlich vom Tech-Zugänglichkeitsgiganten Tobii Dynavox übernommen, obwohl sie immer noch unabhängig agieren.

Wie viele Branchen wurde auch die Zugänglichkeit stark durch das Aufkommen von maschinellen Lernprozessen im Verbrauchermaßstab beeinflusst. Vor 7 oder 8 Jahren, erinnerte sich Acapela-Mitbegründer Remy Cadic, war es nicht nur mühsam, eine synthetische Stimme für sich selbst anzupassen, sondern die Ergebnisse waren auch nicht besonders gut.

„Es war sehr zeitaufwändig – der Patient musste 8 Stunden lang trainieren. Jetzt können wir eine Stimme mit nur 50 aufgezeichneten Sätzen speichern; Es dauert ungefähr 10 Minuten und die Stimme ist am nächsten Tag fertig“, sagte er. „Bei neuronalen Text-to-Speech-Techniken findet definitiv eine Revolution statt.“

Sie machten keine Witze darüber, wie schnell und einfach es ist: Ich habe selbst den neuen Prozess „Meine eigene Stimme“ durchlaufen, und es waren wirklich nur 50 kurze Sätze, die aus einem (zufälligen, wie es schien) Korpus von Romanen und Rezeptbüchern gezogen wurde , und Artikel. Die Aufnahmeoberfläche war einfach und leicht zu navigieren, und tatsächlich war meine Stimme einen Tag oder so später einsatzbereit. Die Qualität ist in Ordnung – nicht unheimlich, wie es einige Modelle da draußen sein können, aber eindeutig meine eigene Stimme (wie angekündigt) und in der Lage, mit jedem Satz umzugehen, den ich auf der Demoseite darauf geworfen habe.

Jetzt, da es da ist, kann ich es, wenn ich es jemals brauche, gegen eine Gebühr herunterladen, um es auf jedem kompatiblen Spracherzeugungssystem zu verwenden. Dazu gehören natürlich TD Talk und Geräte von Tobii Dynavox; das Unternehmen habe gerade letzte Woche ein neues herausgebrachtin der Tat – diese Dinger werden ziemlich glatt.

Delaina testet das neue Tobii-Dynavox-Gerät.

Und das ist der eigentliche Punkt von all dem – es ist keine technische Demonstration der Leistungsfähigkeit der neuralen Sprachtechnologie oder eine Demo, die es jedem ermöglicht, sie mit einer Promi-Stimme zum Klonen zu füttern. Es ist ein Tool, das speziell für Menschen entwickelt wurde, die bis vor kurzem keine Optionen oder bestenfalls einen schwierigen, komplexen Prozess hatten, wenn sie ihre Stimme bewahren wollten.

Viele, die mit degenerativen Erkrankungen, Krebs oder bestimmten Eingriffen konfrontiert sind, wissen, dass sie innerhalb weniger Monate oder Jahre möglicherweise nicht mehr gut oder überhaupt nicht mehr sprechen können. Den Prozess des Bankings ihrer Stimme so einfach wie möglich zu gestalten, ist ein Service, den viele zu schätzen wissen werden.

„Ein großer Vorteil ist, dass wir es auch für Kinder anpassen – wir haben das Aufnahmeskript leichter lesbar gemacht und das System abgestimmt, um die Qualität der synthetischen Kinderstimmen zu verbessern. Wir waren weltweit die ersten, die das getan haben, und wir gehen immer noch in diese Richtung“, sagte Cadic.

In der Lage zu sein, die Bankstimme aufzunehmen und neu aufzunehmen oder künstlich zu altern, ist eine neue und herausfordernde Fähigkeit, aber eine, die Ergebnisse zu erzielen scheint:

Die Kompatibilität mit Offline-Geräten, die nicht über den neuesten neuronalen Verarbeitungschip verfügen, ist ebenfalls ein wichtiges Unterscheidungsmerkmal. „Es gibt Online-Lösungen, bei denen es einfach ist, eine Stimme zu erstellen, aber sie ist nur über die Cloud verfügbar, und das ist einfach nicht praktikabel“, sagte er.

Das Unternehmen hat auch festgestellt, dass Vielfalt und Nachdenklichkeit im Trainingsprozess genauso wichtig sind wie in anderen KI-Anwendungen. Ein Problem, auf das Cadic bei einigen superschnellen Schulungstechniken hingewiesen hat, ist, dass „es so ziemlich nur versucht, den Sprecher im Schulungsmaterial zu finden, der dem Benutzer am nächsten ist. Aber wenn es im Training keinen Sprecher gibt, der nahe an der Originalstimme ist, wird es einfach nicht so klingen.“

Acapela-Produktmanager Nicolas Mazars fügte hinzu, dass dieses, wie viele KI-Probleme, die ihre Ursache in unzureichenden Trainingsdaten haben, nicht gleichmäßig verteilt ist: „Dieser Prozess funktioniert gut für den durchschnittlichen 50-jährigen Weißen, aber nicht für einen Afroamerikaner, oder Sie sprechen nicht gut Englisch. Wir arbeiten in 23 Sprachen und haben viele Benutzer mit Behinderungen. Wir versuchen uns auf das Feedback der Nutzer zu verlassen und von ihnen etwas für sie zu entwickeln.“

Der Erfassungs- und Bankvorgang ist kostenlos; Sie können sich hier für ein Konto anmelden und trainieren Sie in wenigen Minuten Ihre eigene synthetische Stimme. Sie zahlen nur, wenn Sie es herunterladen und auf einem Gerät installieren möchten.

tch-1-tech