„Heute veröffentlichen wir SeamlessM4T, ein neues multimodales KI-Modell, mit dem Menschen, die verschiedene Sprachen sprechen, effektiver kommunizieren können“, sagte Meta-CEO Mark Zuckerberg sagte in einem Beitrag auf seinem Instagram-Kanal.
Zuckerberg sagte, dass das KI-Modell Sprache-zu-Text, Text-zu-Sprache, Sprache-zu-Sprache, Text-zu-Text-Übersetzung und Spracherkennung für bis zu 100 Sprachen durchführen kann.
Das Unternehmen plant, das KI-Modell bei der Übersetzung und Transkription in Facebook, Instagram, WhatsApp, Messenger und Threads zu integrieren.
So funktioniert das SeamlessM4T-KI-Modell
Laut Meta unterstützt das Modell die Spracherkennung in bis zu 100 Sprachen, bei der Text-zu-Sprache-Übersetzung ist die Zahl jedoch geringer.
- Spracherkennung für fast 100 Sprachen
- Sprach-zu-Text-Übersetzung für fast 100 Eingabe- und Ausgabesprachen
- Sprach-zu-Sprache-Übersetzung, die fast 100 Eingabesprachen und 36 (einschließlich Englisch) Ausgabesprachen unterstützt
- Text-zu-Text-Übersetzung für fast 100 Sprachen
- Text-zu-Sprache-Übersetzung, die fast 100 Eingabesprachen und 35 (einschließlich Englisch) Ausgabesprachen unterstützt
„Im Einklang mit unserem Ansatz der offenen Wissenschaft veröffentlichen wir SeamlessM4T unter einer Forschungslizenz, damit Forscher und Entwickler auf dieser Arbeit aufbauen können. Wir veröffentlichen auch die Metadaten von SeamlessAlign, dem bislang größten offenen multimodalen Übersetzungsdatensatz. Insgesamt wurden 270.000 Stunden Sprach- und Textausrichtungen ausgewertet“, sagte das Unternehmen.
Laut Meta baut SeamlessM4T auf früheren Fortschritten in diesem Bereich auf, wie beispielsweise No Language Left Behind (NLLB) vom letzten Jahr, einem maschinellen Text-zu-Text-Übersetzungsmodell, das 200 Sprachen unterstützt und in Wikipedia als einer der Übersetzungsanbieter integriert ist .
Das Unternehmen stellte außerdem eine Demo des Universal Speech Translator vor, dem ersten direkten Sprache-zu-Sprache-Übersetzungssystem für Hokkien, einer Sprache, die über kein weit verbreitetes Schriftsystem verfügt.
Das Unternehmen stellte außerdem Massively Multilingual Speech vor, das Spracherkennung, Spracherkennung und Sprachsynthesetechnologie für mehr als 1.100 Sprachen bietet.