Meta stellte im August sein multimodales KI-Übersetzungsmodell namens SeamlessM4T vor. Dieses Tool unterstützt fast 100 Sprachen für Text und 36 Sprachen für Sprache. Mit einer aktualisierten „v2“-Architektur erweitert das Unternehmen nun die Fähigkeiten des Tools, um Konversationsübersetzungen spontaner und ausdrucksvoller zu gestalten. Dies ist ein entscheidender Schritt hin zu authentischeren Gesprächen in allen Sprachen, da der Mangel an ausdrucksstarken Übersetzungen bisher eine große Herausforderung darstellte.Der SeamlessM4T ist für die nahtlose Übersetzung und Transkription verschiedener Sprach- und Textfunktionen konzipiert. Es kann fast 100 Sprachen für Speech-to-Text- und Text-to-Text-Funktionen übersetzen und unterstützt gleichzeitig Speech-to-Speech- und Text-to-Speech-Funktionen in denselben Sprachen. Darüber hinaus können die Übersetzungen in jeder der 36 anderen Sprachen ausgegeben werden, einschließlich Englisch.
Die erste der beiden neuen Funktionen heißt „SeamlessExpressive“. Wie der Name schon sagt, ermöglicht es die Übersetzung Ihrer Ausdrücke zusammen mit Ihrer Rede. Dazu gehören Ihre Tonhöhe, Lautstärke, emotionaler Ton (z. B. Aufregung, Traurigkeit oder Flüstern), Sprechgeschwindigkeit und Pausen. Dadurch klingen übersetzte Reden weniger roboterhaft und natürlicher. Die Funktion unterstützt mehrere Sprachen, darunter Englisch, Spanisch, Deutsch, Französisch, Italienisch und Chinesisch. Das zweite Feature heißt „SeamlessStreaming“. Dadurch kann das Tool mit der Übersetzung einer Rede beginnen, während der Sprecher noch spricht, sodass andere die Übersetzung schneller hören können. Obwohl es eine kurze Latenzzeit von knapp zwei Sekunden gibt, entfällt die Notwendigkeit, zu warten, bis jemand einen Satz beendet hat. Die Herausforderung besteht darin, dass verschiedene Sprachen unterschiedliche Satzstrukturen haben. Deshalb musste Meta einen Algorithmus entwickeln, der teilweise Audioeingaben untersuchen kann, um festzustellen, ob genügend Kontext vorhanden ist, um mit der Generierung einer übersetzten Ausgabe zu beginnen, oder ob weiter zugehört werden sollte.SeamlessM4T wird auf der bestehenden PyTorch-basierten Multitask-Modellarchitektur UnitY entwickelt. Diese Architektur verfügt bereits über die Fähigkeit, verschiedene modale Übersetzungen sowie eine automatische Spracherkennung durchzuführen. Darüber hinaus nutzt das Modell das BERT 2.0-System für die Audiokodierung, das Eingaben zur Analyse in ihre Komponenten-Tokens zerlegt, sowie einen Vocoder der HiFi-GAN-Einheit, um gesprochene Antworten zu generieren.
FacebookTwitterLinkedin
Ende des Artikels