Unter der Leitung eines Gründers, der ein Video-Startup an Apple verkauft hat, nutzt Panjaya Deepfake-Techniken, um sich in die Videosynchronisation einzumischen

Es gibt eine große Chance für generative KI in der Welt der Übersetzung, und ein Startup namens Panjaya bringt das Konzept auf die nächste Ebene: ein hyperrealistisches, auf Gen-KI basierendes Synchronisierungstool für Videos, das die ursprüngliche Stimme einer Person, die die neue Sprache spricht, nachbildet, wobei sich das Video und die physischen Bewegungen des Sprechers automatisch anpassen, um auf natürliche Weise mit der neuen Sprache übereinzustimmen Sprachmuster.

Nachdem das Startup die letzten drei Jahre im Verborgenen agierte, stellt es mit BodyTalk die erste Version seines Produkts vor und erhält gleichzeitig seine erste externe Finanzierung in Höhe von 9,5 Millionen US-Dollar.

Panjaya ist die Idee von Hilik Shani und Ariel Shalom, zwei Deep-Learning-Spezialisten, die den Großteil ihres Berufslebens stillschweigend an Deep-Learning-Technologie für die israelische Regierung gearbeitet haben und nun General Manager bzw. CTO des Startups sind. Sie haben 2021 mit dem Startup-Juckreiz ihre G-Mann-Hüte an den Nagel gehängt und vor 1,5 Jahren kam Guy Piekarz als CEO hinzu.

Piekarz ist kein Gründer von Panjaya, aber er ist ein bemerkenswerter Name, den man an Bord haben sollte: Im Jahr 2013 verkaufte er ein von ihm gegründetes Startup tat gefunden zu Apple. Matcha, wie das Startup genannt wurde, war ein früher, lebhafter Akteur im Bereich der Erkennung und Empfehlung von Streaming-Videos und wurde in den frühen Tagen der TV- und Streaming-Strategie von Apple übernommen, als es sich dabei noch mehr um Gerüchte als um tatsächliche Produkte handelte. Matcha wurde gebootstrappt und für einen Song verkauft: 10 bis 15 Millionen US-Dollar – bescheiden, wenn man bedenkt, wie stark Apple schließlich die Streaming-Medien vorangetrieben hat.

Piekarz blieb fast ein Jahrzehnt bei Apple und baute Apple TV und dann seine Sportsparte auf. Dann wurde er über Viola Ventures, einen seiner Unterstützer, mit Panjaya bekannt gemacht (andere sind R-Squared Ventures, JFrog-Mitbegründer und CEO Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd von Storm Ventures und Ali Behnam von Riviera Partners). , und Oded Vardi.

„Ich hatte Apple inzwischen verlassen und hatte vor, etwas völlig anderes zu machen“, sagte Piekarz. „Allerdings hat mich der Anblick einer Demo der Technologie umgehauen, und der Rest ist Geschichte.“

BodyTalk ist interessant, weil es gleichzeitig mehrere Technologien einbezieht, die sich mit unterschiedlichen Aspekten synthetischer Medien befassen.

Den Anfang macht die audiobasierte Übersetzung, die derzeit Übersetzungen in 29 Sprachen anbieten kann. Die Übersetzung wird dann mit einer Stimme gesprochen, die den Originalsprecher nachahmt, die wiederum auf eine Version des Originalvideos gesetzt wird, bei der die Lippen und andere Bewegungen des Sprechers an die neuen Wörter und Formulierungen angepasst werden. All dies wird automatisch für Videos erstellt, nachdem Benutzer sie auf die Plattform hochgeladen haben, die auch über ein Dashboard mit weiteren Bearbeitungstools verfügt. Zukünftige Pläne umfassen eine API sowie eine Annäherung an die Echtzeitverarbeitung. (Im Moment läuft BodyTalk „nahezu in Echtzeit“ und die Verarbeitung von Videos dauert nur wenige Minuten, sagte Piekarz.)

„Wir nutzen die Besten ihrer Art dort, wo wir sie brauchen“, sagte Piekarz über den Einsatz großer Sprachmodelle und anderer Tools von Drittanbietern durch das Unternehmen. „Und wir bauen unsere eigenen KI-Modelle, für die der Markt keine wirkliche Lösung hat.“

Ein Beispiel dafür sei die Lippensynchronisation des Unternehmens, fuhr er fort. „Unsere gesamte Lippensynchronisations-Engine wurde von unserem KI-Forschungsteam selbst entwickelt, da wir nichts gefunden haben, das dieses Niveau und diese Qualität für mehrere Sprecher, Blickwinkel und alle geschäftlichen Anwendungsfälle, die wir unterstützen möchten, erreicht.“

Der Fokus liegt derzeit nur auf B2B; Zu den Kunden zählen JFrog und die TED-Medienorganisation. Das Unternehmen plant, im Medienbereich weiter zu expandieren, insbesondere in Bereichen wie Sport, Bildung, Marketing, Gesundheitswesen und Medizin.

Die resultierenden Übersetzungsvideos sind sehr unheimlich, nicht unähnlich dem, was man mit Deepfakes bekommt, obwohl Piekarz bei diesem Begriff zusammenzuckt, der im Laufe der Jahre negative Konnotationen angenommen hat, die das genaue Gegenteil des Marktes sind, auf den das Startup abzielt.

„‚Deepfake‘ ist nichts, woran wir interessiert sind“, sagte er. „Wir wollen diesen ganzen Namen vermeiden.“ Stellen Sie sich Panjaya stattdessen als Teil der „tiefen realen Kategorie“ vor, sagte er.

Indem das Unternehmen nur auf den B2B-Markt abzielt und kontrolliert, wer Zugriff auf seine Tools erhält, schaffe es „Leitplanken“ rund um die Technologie, um sie vor Missbrauch zu schützen, fügte er hinzu. Er geht auch davon aus, dass es längerfristig mehr Tools geben wird, einschließlich Wasserzeichen, die helfen sollen, zu erkennen, ob Videos verändert wurden, um synthetische Medien zu erstellen, sei es legitim oder schändlich. „Wir wollen auf jeden Fall ein Teil davon sein und keine Fehlinformationen zulassen“, sagte er.

Der nicht ganz so feine Druck

Es gibt eine Reihe von Startups, die mit Panjaya im weiteren Bereich der KI-basierten Übersetzung von Videos konkurrieren, darunter große Namen wie Vimeo und Eleven Labs sowie kleinere Player wie Speechify und Synthesis. Für sie alle fühlt es sich ein wenig so an, als würde man gegen den Strom schwimmen, wenn man Möglichkeiten entwickelt, die Funktionsweise des Synchronisierens zu verbessern. Das liegt daran, dass Untertitel heutzutage zu einem festen Bestandteil der Art und Weise geworden sind, wie Videos konsumiert werden.

Im Fernsehen gibt es dafür eine ganze Reihe von Gründen: schlechte Lautsprecher, Hintergrundgeräusche in unserem geschäftigen Leben, murmelnde Schauspieler, begrenzte Produktionsbudgets und mehr Soundeffekte. CBS In einer Umfrage unter amerikanischen Fernsehzuschauern wurde festgestellt, dass mehr als die Hälfte von ihnen „einige (21 %) oder die ganze Zeit (34 %)“ Untertitel beibehielt.

Aber manche lieben Bildunterschriften, einfach weil sie unterhaltsam zu lesen sind, und darum hat sich ein ganzer Kult gebildet.

In sozialen Medien und anderen Apps werden Untertitel einfach in das Erlebnis integriert. TikTok beispielsweise startete im November 2023 damit, die Untertitelung standardmäßig für alle Videos zu aktivieren.

Dennoch gibt es international nach wie vor einen riesigen Markt für synchronisierte Inhalte, und auch wenn Englisch oft als Verkehrssprache des Internets angesehen wird, gibt es Belege von Forschungsgruppen wie CSA dass Inhalte, die in Muttersprachen bereitgestellt werden, insbesondere im B2B-Kontext ein höheres Interesse wecken. Panjaya ist der Meinung, dass natürlichere, muttersprachliche Inhalte noch besser abschneiden könnten.

Einige seiner Kunden scheinen diese Theorie zu unterstützen. Laut TED verzeichneten Talks, die mit den Tools von Panjaya synchronisiert wurden, eine Steigerung der Aufrufe um 115 %, wobei sich die Abschlussraten für diese übersetzten Videos verdoppelten.

tch-1-tech