Die Synchronisation ist ein lukrativer Markt, wobei Verified Market Research voraussagt, dass allein die Filmsynchronisationsdienste bis 2027 jährlich 3,6 Milliarden US-Dollar einbringen könnten. Aber es ist auch ein mühsamer und kostspieliger Prozess. An Durchschnitt, es kann eine Stunde Aufnahmestudiozeit für fünf Minuten Erzählung dauern; eines Taschenrechner legt den Preis sogar für ein einfaches Video auf 75 $ pro Minute fest.
Das Versprechen der KI in diesem Bereich, insbesondere der Verarbeitung natürlicher Sprache, beschleunigt die Aufgabe, indem menschlich klingende Dubs in mehreren Sprachen erstellt werden. Ein britisches Startup, das dies verfolgt, Papercup, behauptet, seine Technologie werde von den Mediengiganten Sky News, Discovery und Business Insider eingesetzt und zur Übersetzung von 30 Staffeln der legendären Show von Bob Ross verwendet. TDie Freude am Malen.
CEO Jesse Shemen schätzt, dass sich in den letzten 12 Monaten mehr als 300 Millionen Menschen Videos angesehen haben, die von Papercup übersetzt wurden.
„Es gibt ein erhebliches Missverhältnis zwischen der Nachfrage nach Lokalisierung und Übersetzung und der Fähigkeit, die Nachfrage zu erfüllen“, sagte Shemen. „Zeigt Vorlieben [Netflix’s] ‚Squid Game‘ bestätigt die These, dass Menschen überall und in jeder Sprache erstellte Inhalte ansehen werden, wenn sie unterhaltsam und interessant sind. Deshalb ist die Branche so auf Wachstum eingestellt.“
Papercup gab heute bekannt, dass es 20 Millionen US-Dollar in einer von Octopus Ventures angeführten Finanzierungsrunde der Serie A mit Beteiligung von Local Globe, Sands Capital, Sky und Guardian Media Ventures, Entrepreneur First und BDMI aufgebracht hat. Damit beläuft sich die Gesamtsumme des in London ansässigen Unternehmens auf rund 30,5 Millionen US-Dollar, von denen der größte Teil für die Erforschung ausdrucksstarker KI-generierter Stimmen und die Erweiterung der Unterstützung von Papercup für Fremdsprachen verwendet wird, sagte Shemen Tech per E-Mail.
Papercup wurde 2017 von Shemen und Jiameng Gao gegründet und bietet eine KI-gestützte Synchronisationslösung, die menschliche Stimmen in einem Zielfilm oder einer Zielshow identifiziert und Synchronisationen in einer neuen Sprache generiert. Produzenten von Videoinhalten laden ihre Videos hoch, geben eine Sprache an, warten darauf, dass die Muttersprachlerteams von Papercup den Ton auf Qualität prüfen, und erhalten eine Übersetzung mit einem synthetischen Voiceover.
Shemen behauptet, dass die Plattform von Papercup Dubs in einem Umfang und Tempo generieren kann, die mit manuellen Methoden nicht erreicht werden können. Neben den benutzerdefinierten Übersetzungen, die es für Kunden erstellt, bietet Papercup einen Katalog von Stimmen mit „realistischen“ Tönen und Emotionen. Viele davon wurden laut Shemen neben Filmen und Fernsehen in der internen Kommunikation, Unternehmensankündigungen und Schulungsmaterialien verwendet.
„Unser ‚Human-in-the-Loop‘-Ansatz bedeutet, dass menschliche Übersetzer die Qualitätskontrolle übernehmen und Genauigkeit garantieren, aber viel weniger praktisch sein müssen, als wenn sie die gesamte Übersetzung liefern würden, was bedeutet, dass sie schneller und über mehr Übersetzungen hinweg arbeiten können“, sagte Shemen . „Die Menschen haben sich während der Pandemie mehr Videoinhalte angesehen, was die Nachfrage nach unseren Dienstleistungen deutlich erhöht hat.“
Der Markt für KI-generierte „synthetische Medien“ wächst. Video- und sprachorientierte Firmen wie Synthesia, Respeecher, Resemble AI und Deepdub haben KI-Synchronisationstools für Shows und Filme auf den Markt gebracht. Über Startups hinaus hat sich Nvidia entwickelt Technologie die das Video auf eine Weise verändert, die die Gesichtsausdrücke eines Schauspielers nimmt und sie mit einer neuen Sprache abgleicht.
Aber es könnte auch Nachteile geben. Wie Die der Washington Post Steven Zeitchik weist darauf hinKI-synchronisierte Inhalte ohne Liebe zum Detail könnten ihren „lokalen Flair“ verlieren. Ausdrücke in einer Sprache bedeutet möglicherweise nicht dasselbe in einer anderen. Darüber hinaus werfen KI-Dubs ethische Fragen auf, z. B. ob man das tun soll neu erstellen die Stimme eines Verstorbenen.
Ebenfalls unklar sind die Auswirkungen der Stimmen, die von den Darbietungen arbeitender Schauspieler erzeugt werden. Das Wall Street Journal Berichte dass mehr als ein Unternehmen versucht hat, Morgan Freemans Stimme in privaten Demos zu replizieren, und dass Studios zunehmend Bestimmungen in Verträge aufnehmen, die darauf abzielen, synthetische Stimmen anstelle von Darstellern zu verwenden, „wenn nötig“ – zum Beispiel, um Dialoglinien während der Postproduktion zu optimieren .
Shemen positioniert Papercup als eine weitgehend neutrale Plattform, die jedoch die Nutzung ihrer Plattform auf potenziellen Missbrauch (wie das Erstellen von Deepfakes) überwacht. Laut Shemen wird an der Echtzeitübersetzung von Inhalten wie Nachrichten und Sportereignissen gearbeitet, ebenso wie an der Fähigkeit, die Ausdruckskraft seiner KI-generierten Stimmen genauer zu steuern und zu verfeinern.
„Der Wert von [dubbing] ist klar: Menschen behalten 41 % der Informationen, wenn sie sich ein kurzes Video ansehen, das nicht in ihrer Sprache ist – wenn sie untertitelt sind, behalten sie 50 % und wenn sie über Papercup synchronisiert werden, behalten sie 70 %. Das ist eine Steigerung von 40 % allein durch die Untertitelung“, sagte Shemen. „Mit wahrhaft emotionaler sprachübergreifender KI-Synchronisation bewältigt Papercup alle Formen von Inhalten und macht Video und Audio zugänglicher und angenehmer für alle.“
Papercup beschäftigt derzeit 38 Mitarbeiter in London und ein Übersetzernetzwerk auf drei Kontinenten. Bis Ende des Jahres rechnet das Unternehmen mit einer Verdopplung.