Es gibt eine große Chance für generative KI in der Welt der Übersetzung, und ein Startup namens Panjaya bringt das Konzept auf die nächste Ebene: ein hyperrealistisches, auf Gen-KI basierendes Synchronisierungstool für Videos, das die ursprüngliche Stimme einer Person, die die neue Sprache spricht, nachbildet, wobei sich das Video und die physischen Bewegungen des Sprechers automatisch anpassen, um auf natürliche Weise mit der neuen Sprache übereinzustimmen Sprachmuster.
Nachdem das Startup die letzten drei Jahre im Verborgenen agierte, stellt es mit BodyTalk die erste Version seines Produkts vor und erhält gleichzeitig seine erste externe Finanzierung in Höhe von 9,5 Millionen US-Dollar.
Panjaya ist die Idee von Hilik Shani und Ariel Shalom, zwei Deep-Learning-Spezialisten, die den Großteil ihres Berufslebens stillschweigend an Deep-Learning-Technologie für die israelische Regierung gearbeitet haben und nun General Manager bzw. CTO des Startups sind. Sie haben 2021 mit dem Startup-Juckreiz ihre G-Mann-Hüte an den Nagel gehängt und vor 1,5 Jahren kam Guy Piekarz als CEO hinzu.
Piekarz ist kein Gründer von Panjaya, aber er ist ein bemerkenswerter Name, den man an Bord haben sollte: Im Jahr 2013 verkaufte er ein von ihm gegründetes Startup tat gefunden zu Apple. Matcha, wie das Startup genannt wurde, war ein früher, lebhafter Akteur im Bereich der Erkennung und Empfehlung von Streaming-Videos und wurde in den frühen Tagen der TV- und Streaming-Strategie von Apple übernommen, als es sich dabei noch mehr um Gerüchte als um tatsächliche Produkte handelte. Matcha wurde gebootstrappt und für einen Song verkauft: 10 bis 15 Millionen US-Dollar – bescheiden, wenn man bedenkt, wie stark Apple schließlich die Streaming-Medien vorangetrieben hat.
Piekarz blieb fast ein Jahrzehnt bei Apple und baute Apple TV und dann seine Sportsparte auf. Dann wurde er über Viola Ventures, einen seiner Unterstützer, mit Panjaya bekannt gemacht (andere sind R-Squared Ventures, JFrog-Mitbegründer und CEO Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd von Storm Ventures und Ali Behnam von Riviera Partners). , und Oded Vardi.
„Ich hatte Apple inzwischen verlassen und hatte vor, etwas völlig anderes zu machen“, sagte Piekarz. „Allerdings hat mich der Anblick einer Demo der Technologie umgehauen, und der Rest ist Geschichte.“
BodyTalk ist interessant, weil es gleichzeitig mehrere Technologien einbezieht, die sich mit unterschiedlichen Aspekten synthetischer Medien befassen.
Den Anfang macht die audiobasierte Übersetzung, die derzeit Übersetzungen in 29 Sprachen anbieten kann. Die Übersetzung wird dann mit einer Stimme gesprochen, die den Originalsprecher nachahmt, die wiederum auf eine Version des Originalvideos gesetzt wird, bei der die Lippen und andere Bewegungen des Sprechers an die neuen Wörter und Formulierungen angepasst werden. All dies wird automatisch für Videos erstellt, nachdem Benutzer sie auf die Plattform hochgeladen haben, die auch über ein Dashboard mit weiteren Bearbeitungstools verfügt. Zukünftige Pläne umfassen eine API sowie eine Annäherung an die Echtzeitverarbeitung. (Im Moment läuft BodyTalk „nahezu in Echtzeit“ und die Verarbeitung von Videos dauert nur wenige Minuten, sagte Piekarz.)
„Wir nutzen die Besten ihrer Art dort, wo wir sie brauchen“, sagte Piekarz über den Einsatz großer Sprachmodelle und anderer Tools von Drittanbietern durch das Unternehmen. „Und wir bauen unsere eigenen KI-Modelle, für die der Markt keine wirkliche Lösung hat.“
Ein Beispiel dafür sei die Lippensynchronisation des Unternehmens, fuhr er fort. „Unsere gesamte Lippensynchronisations-Engine wurde von unserem KI-Forschungsteam selbst entwickelt, da wir nichts gefunden haben, das dieses Niveau und diese Qualität für mehrere Sprecher, Blickwinkel und alle geschäftlichen Anwendungsfälle, die wir unterstützen möchten, erreicht.“
Der Fokus liegt derzeit nur auf B2B; Zu den Kunden zählen JFrog und die TED-Medienorganisation. Das Unternehmen plant, im Medienbereich weiter zu expandieren, insbesondere in Bereichen wie Sport, Bildung, Marketing, Gesundheitswesen und Medizin.