DeepL hat sich mit Online-Textübersetzungen einen Namen gemacht, von denen es behauptet, sie seien differenzierter und präziser als Dienste von Unternehmen wie Google – ein Pitch, der das deutsche Startup auf eine Bewertung von 2 Milliarden US-Dollar und mehr als 100.000 zahlende Kunden katapultiert hat. Da der Hype um KI-Dienste nun weiter zunimmt, wird die Plattform um einen weiteren Modus erweitert: Sprache. Benutzer können DeepL nun verwenden, um jemandem zuzuhören, der in einer Sprache spricht, und diese automatisch in Echtzeit in eine andere zu übersetzen.
Englisch, Deutsch, Japanisch, Koreanisch, Schwedisch, Niederländisch, Französisch, Türkisch, Polnisch, Portugiesisch, Russisch, Spanisch und Italienisch sind die gesprochenen Sprachen, die DeepL heute „hören“ kann. Mittlerweile sind übersetzte Untertitel für alle 33 Sprachen verfügbar, die derzeit von DeepL Translator unterstützt werden.
DeepL Voice reicht derzeit nicht aus, um das Ergebnis selbst als Audio- oder Videodatei zu liefern: Der Dienst ist auf Echtzeit-, Live-Gespräche und Videokonferenzen ausgerichtet und kommt als Text rüber. Im ersten Schritt können Sie Ihre Übersetzungen so einrichten, dass sie als „Spiegel“ auf einem Smartphone angezeigt werden – die Idee besteht darin, dass Sie das Telefon zwischen sich auf einen Besprechungstisch legen, damit beide Seiten die übersetzten Wörter sehen können – oder als Transkription Sie teilen Seite an Seite mit jemandem. Der Videokonferenzdienst sieht die Übersetzungen als Untertitel.
Das könnte sich im Laufe der Zeit ändern, deutete Jarek Kutylowski, der Gründer und CEO des Unternehmens (Bild oben), in einem Interview an. Dies ist das erste Sprachprodukt von DeepL, aber es wird wahrscheinlich nicht das letzte sein. „[Voice] Hier wird die Übersetzung im nächsten Jahr eine Rolle spielen“, fügte er hinzu.
Es gibt weitere Beweise, die diese Aussage stützen. Google – einer der größten Konkurrenten von DeepL – hat ebenfalls damit begonnen, in Echtzeit übersetzte Untertitel in seinen Videokonferenzdienst Meet zu integrieren. Und es gibt eine Vielzahl von KI-Startups, die Sprachübersetzungsdienste entwickeln. Dazu gehören Bemühungen des KI-Sprachspezialisten Eleven Labs (Synchronisation von Eleven Labs) und andere wie Panjaya, das Übersetzungen mit „deepfake“ Stimmen und Videos erstellt, die zum Ton passen. Letzteres nutzt die API von Eleven Labs, und laut Kutylowski nutzt Eleven Labs selbst Technologie von – Sie haben es erraten – DeepL, um seinen Übersetzungsdienst zu betreiben.
Die Audioausgabe ist nicht das Einzige, was noch auf den Markt kommt.
Derzeit gibt es auch keine API für das Voice-Produkt. Das Hauptgeschäft von DeepL konzentriert sich auf B2B und Kutylowski sagte, das Unternehmen arbeite direkt mit Partnern und Kunden zusammen, um es zu nutzen.
Es gibt auch keine große Auswahl an Integrationen: Der einzige Videoanrufdienst, der die Untertitel von DeepL unterstützt, ist derzeit Teams, das „die meisten unserer Kunden abdeckt“, sagte Kutylowski. Es gibt keine Informationen darüber, wann und ob Zoom oder Google Meet künftig DeepL Voice integrieren werden.
Das Produkt wird für DeepL-Benutzer lange auf sich warten lassen, nicht nur, weil wir von einer Vielzahl anderer KI-Sprachdienste für Übersetzungen überschwemmt wurden. Kutylowski sagte, dass dies seit 2017, dem Jahr der Einführung von DeepL, die häufigste Kundenanfrage sei.
Ein Grund für das Warten liegt zum Teil darin, dass DeepL bei der Entwicklung seines Produkts einen ziemlich bewussten Ansatz gewählt hat. Im Gegensatz zu vielen anderen in der Welt der KI-Anwendungen, die sich auf die großen Sprachmodelle anderer Unternehmen stützen und diese optimieren, ist es das Ziel von DeepL, seinen Service von Grund auf aufzubauen. Im Juli das Unternehmen freigegeben ein neues LLM, das für Übersetzungen optimiert ist und angeblich GPT-4, Google und Microsoft übertrifft, nicht zuletzt, weil sein Hauptzweck die Übersetzung ist. Darüber hinaus wurde die Qualität der schriftlichen Ausgabe und des Glossars weiter verbessert.
Ebenso ist eines der Alleinstellungsmerkmale von DeepL Voice, dass es in Echtzeit funktioniert, was wichtig ist, da viele derzeit auf dem Markt erhältliche „KI-Übersetzungsdienste“ tatsächlich mit Verzögerungen arbeiten, was ihre Verwendung in Live-Situationen schwieriger/unmöglich macht Dies ist der Anwendungsfall, den DeepL speziell anspricht. Kutylowski deutete an, dass dies ein weiterer Grund sei, warum sich dieses neue Sprachverarbeitungsprodukt auf textbasierte Übersetzungen konzentriert: Sie können sehr schnell berechnet und produziert werden, während die Verarbeitung und die KI-Architektur noch einen weiten Weg vor sich haben, bevor Audio produziert werden kann und Video so schnell.
Während man sich vielleicht vorstellen kann, dass Videokonferenzen und Meetings wahrscheinlich Anwendungsfälle für DeepL-Sprache sind, merkte Kutylowski an, dass das Unternehmen sich einen weiteren wichtigen Anwendungsfall in der Dienstleistungsbranche vorstellt, wo Mitarbeiter an vorderster Front, beispielsweise in Restaurants, den Dienst nutzen könnten, um bei der Kommunikation zu helfen einfacher mit Kunden in Kontakt treten.
Das könnte nützlich sein, verdeutlicht aber auch einen der schwierigeren Punkte des Dienstes. In einer Welt, in der wir uns plötzlich alle des Datenschutzes und der Besorgnis darüber, wie neue Dienste und Plattformen private oder proprietäre Informationen klauen, viel bewusster sind, bleibt abzuwarten, wie sehr die Menschen daran interessiert sein werden, dass ihre Stimmen gehört und genutzt werden Hier entlang.
Kutylowski bestand darauf, dass die Stimmen zwar zur Übersetzung an seine Server übertragen werden (die Verarbeitung findet nicht auf dem Gerät statt), dass jedoch nichts von seinen Systemen gespeichert oder für das Training seiner LLMs verwendet wird und dass es letztendlich mit seinen Kunden zusammenarbeiten wird, um diese zu erstellen Stellen Sie sicher, dass sie nicht gegen die DSGVO oder andere Datenschutzbestimmungen verstoßen.