Haben Sie Mühe, Ihren Kollegen mit starkem Akzent zu verstehen? Sie können nicht verstehen, was der Kundendienstmitarbeiter am anderen Ende der Leitung sagt? Die Technik eilt zur Rettung. Es stellt sich heraus, dass das Hören eines Akzents, mit dem Sie nicht vertraut sind, die kognitive Belastung dramatisch erhöhen kann (und damit auch die Menge an Energie, die Sie aufwenden, um jemanden zu verstehen). Sayso versucht, dieses Problem anzugehen, indem es Entwicklern eine API zur Verfügung stellt, die akzentuiertes Englisch nahezu in Echtzeit von einem Akzent in einen anderen ändern kann.
Als jemand, der mit Akzent spricht, habe ich gemischte Gefühle gegenüber dieser Technologie. Ich mag ein bisschen Vielfalt in der Art, wie Menschen um mich herum klingen, und es ist leicht zu erkennen, wie diese Technologie missbraucht werden könnte; Es wäre zum Beispiel nicht toll, wenn jeder, der mit einem bestimmten Akzent spricht, automatisch in denselben Akzent „korrigiert“ würde. Auf der anderen Seite entscheiden sich die Leute dafür, Zoom-Hintergründe und TikTok-Filter zu verwenden, und wenn sie gut gehandhabt werden, ist es ziemlich einfach zu sehen, wie jemand sich dafür entscheiden könnte, das Vorhandensein eines starken Akzents aus „kosmetischen“, Zugänglichkeits- oder Lesbarkeitsgründen zu reduzieren ; und da ist kein Mangel an Menschen, die aufgrund von Akzenten keine Spracherkennungssysteme verwenden können. Lustige Meme u Leute, die ihre Autos anschreien beiseite, Es ist ein echtes Problem.
Viele Sprache-zu-Text-Technologien verwenden die Verarbeitung natürlicher Sprache (NLP), um eine qualifizierte Vermutung anzustellen, was jemand sagt. Die Technologie von Sayso kümmert sich nicht um die eigentlichen Wörter; Es nimmt die einzelnen Töne und ändert sie, um sie besser lesbar zu machen.
„Wir machen nichts mit Worten und Sätzen. Stattdessen führen wir eine direkte Wellenformoperation durch – wir arbeiten mit entwirrten Sprachelementen. Was ich damit meine, sind Dinge wie Stimme, Intonation, Sprache, Inhalt, Akzent, wir können mit Füllern wie Uhms und Aahs arbeiten. Und wir können eine oder mehrere Komponenten gleichzeitig ändern, und wir können sie in Echtzeit ändern, wenn wir wollen“, erklärt Ganna Tymco, Gründer und CEO von Sayso. „Als wir anfingen, war es das Ziel, Menschen dabei zu helfen, sich leicht zu verstehen. Aber dann erweiterte diese Vision die klare Kommunikation mit Technologie. Das ist die größere, umfassendere Vision mit Spracherkennung und intelligenten Sprechertechnologien, die sprecherspezifisch sind.“
Das Unternehmen erklärt, dass es auf organische Weise an Sprache herangeht; die Art und Weise, wie Mund, Zunge und Lippen Klänge formen und wie Stimmbänder der Mischung etwas Würze verleihen.
„Artikulatorische Gesten sind nur Gruppen von Lauten. Der interessante Teil ist, dass dies sprach- und akzentunabhängig ist. Unser Mund kann nur eine bestimmte Anzahl von Lauten hervorbringen, egal welche Sprache verwendet wird. Unsere Stimme wird durch diese Artikulationsgesten gefiltert, und die Ausgabe ist viel komplexer. Wir nehmen diese Schallwelle und hacken sie in sehr kleine Stücke – Millisekunden lang“, erklärt Tymco. „Das ist für die Echtzeitverarbeitung geeignet. Wir ordnen Sprache mit einem Akzent einem anderen Akzent zu. Wir haben also parallele Daten und wir bringen unserem System bei, zu sehen, wie die Schallwelle für den Sprecher mit einem Akzent im Vergleich zum sprechenden Sprecher aussehen würde. Und dann ändern wir die Form der Schallwelle, um sie besser an die gewünschten Akzente anzupassen. Das wirklich Schöne daran ist, dass es universell ist. Es ist also akzentunabhängig.“
Das Unternehmen begann damit, bestimmte Akzentpaare abzubilden. Sayso fing an, seine Systeme mit Hindi-Englisch und US-Englisch-Akzentpaaren zu trainieren, erweiterte es dann aber auch um chinesische, spanische und japanische Akzente. Das System berücksichtigt nicht Kadenz, Wortwahl, Ton und Betonung. Tatsächlich ist es stolz darauf, so wenig wie möglich am Klang ändern zu können; nur bestimmte Klänge zuordnen, um die Akzente besser lesbar zu machen. Es kann politisch unkorrekt erscheinen (ganz zu schweigen von unsäglich langweilig), alle Stimmen so zu verändern, dass sie wie Brad Pitt oder Angelina Jolie klingen, aber der Gründer versicherte mir, dass es nuancierter ist. Mit einer zukünftigen Version der Technologie des Unternehmens ist es möglich, wenn es mir lieber ist, dass jeder, mit dem ich spreche, so klingt, als hätte er einen zwielichtigen holländischen Akzent, wie ich selbst. Es wäre auch möglich, alle Akzente demjenigen zuzuordnen, mit dem jeder besser vertraut ist – was bedeutet, dass jeder Gesprächspartner einen anderen Akzent hören könnte, der seinem eigenen am ähnlichsten ist.
„Vielfalt, Inklusion und Zugänglichkeit stehen im Mittelpunkt meiner Arbeit hier. Ich habe damit angefangen, weil ich einen Akzent habe und weil die Leute ihn nicht verstehen. Ich habe für ein wirklich großes Unternehmen hier im Silicon Valley gearbeitet“, erklärt Tymco, ohne den Namen des betreffenden Unternehmens zu nennen. „Ich habe das Video für sie gemacht. Ich benutzte meine Stimme, um ein Voiceover zu machen. Ihnen gefiel das Video, und sie wollten nichts ändern, sagten aber, dass meine Stimme nicht geeignet sei. Ich dachte, hey, was stimmt nicht mit meiner Stimme? Ich habe mich gefragt, ob es eine Software gibt, mit der ich meinen Akzent ändern könnte. Es gab keinen, und sie mussten einen Schauspieler engagieren und das Ganze wiederholen. Aber es hat mich dazu gebracht, sehr tief darüber nachzudenken.“
Das Unternehmen argumentiert, dass Menschen, die an den Akzent des anderen gewöhnt sind, sich leichter verstehen. Wenn Sie in Neuseeland sind, ist es einfacher, andere Kiwis zu verstehen, als beispielsweise einen schottischen Akzent zu entziffern.
„Wir möchten wirklich, dass es den Menschen leichter fällt, sich gegenseitig zu verstehen, und was am einfachsten zu verstehen ist, ist das, womit wir am vertrautesten sind. Wir beginnen mit etwas, das als MVP relativ universell ist“, erklärt Tymco. „Aber Wir können alles zu allem ändern. Und das Ziel ist, dass Sie wählen, was für Sie einfacher klingt, wenn Sie jemandem zuhören. Ich finde Akzente schön und möchte sie nicht ausradieren.“
Auch wenn sich das Ändern des Akzents als moralische und/oder ethische Hölle herausstellen kann, kann es auch eher technische Gründe für Saysos Technologie geben. Wenn ich beispielsweise Unternehmer interviewe, zeichne ich meine Interviews auf und nutze einen Transkriptionsdienst, um sicherzustellen, dass ich eine schriftliche Darstellung des Interviews habe. Es besteht ein sehr starker Zusammenhang damit, wie nah der Akzent eines Gründers dem Standard-Hollywood-Englisch ist und wie gut die Transkription ist. Für jemanden mit einem starken niederländischen oder indischen Akzent sind die Transkriptionen weitaus schlechter – die Verarbeitung des Audios durch einen Sayso-ähnlichen Filter, bevor versucht wird, die Transkription auf der Audiodatei auszuführen, kann zu weitaus besseren Transkriptionen führen.
„[transcription] ist Teil unserer Geschäftsstrategie“, erklärt Tymco. „Automatische Untertitel zum Beispiel können weit daneben liegen. Ich bin oft erstaunt, wie schlecht sie sind, und niemand überprüft sie manuell. Unsere Technologie ist definitiv für die Transkription geeignet.“
Das Unternehmen stellte eine Demonstration bereit, um einen Schnappschuss davon zu zeigen, wie die umgewandelte Sprache klingt: