Das neue MMS-Modell von Meta will mit KI die Sprachen der Welt retten

Das neue MMS Modell von Meta will mit KI die Sprachen
Wie die meisten anderen großen Technologieunternehmen Meta hat stark auf künstliche Intelligenz (KI) gesetzt. Der Ansatz des Unternehmens KI war ein bisschen anders als solche wie Google Und Microsoft. Meta stellte ein neues großes Sprachmodell (LLM) vor mit dem Ziel, die Sprachen der Welt zu bewahren. Wird als massiv mehrsprachige Sprache bezeichnet (MMS) erweitert das Modell „die Text-to-Speech- und Speech-to-Text-Technologie von rund 100 Sprachen auf mehr als 1.100 – mehr als zehnmal so viele wie zuvor – und kann außerdem mehr als 4.000 gesprochene Sprachen identifizieren, also 40-mal mehr Vor.“
Wie wird das Modell genutzt?
Einem Blogbeitrag von Meta zufolge sind viele Sprachen auf der Welt vom Aussterben bedroht, und die Einschränkungen der aktuellen Technologie zur Spracherkennung und -generierung werden diesen Trend nur beschleunigen. „Wir möchten es den Menschen erleichtern, in ihrer bevorzugten Sprache auf Informationen zuzugreifen und Geräte zu nutzen, und heute kündigen wir eine Reihe von Modellen der künstlichen Intelligenz (KI) an, die ihnen dabei helfen könnten, genau das zu tun“, sagte das Unternehmen im Blog Post.
Wie wird das Modell funktionieren?
Meta sagte, dass die größte Herausforderung darin bestehe, Audiodaten für Tausende von Sprachen zu sammeln. Die größten existierenden Sprachdatensätze umfassen höchstens 100 Sprachen, erklärte Meta. Beispielsweise wurden religiöse Texte wie die Bibel in viele verschiedene Sprachen übersetzt und deren Übersetzungen wurden umfassend für die textbasierte Sprachübersetzungsforschung untersucht. Meta hatte zu diesen Übersetzungen öffentlich zugängliche Audioaufnahmen von Personen, die diese Texte in verschiedenen Sprachen lasen. „Im Rahmen des MMS-Projekts haben wir einen Datensatz mit Lesungen des Neuen Testaments in mehr als 1.100 Sprachen erstellt, der durchschnittlich 32 Stunden Daten pro Sprache lieferte“, sagte das Unternehmen.
Meta berücksichtigte dann unbeschriftete Aufnahmen verschiedener anderer christlicher religiöser Lesungen und erhöhte die Zahl der verfügbaren Sprachen auf über 4.000. „Während diese Daten aus einem bestimmten Bereich stammen und häufig von männlichen Sprechern gelesen werden, zeigt unsere Analyse, dass unsere Modelle für männliche und weibliche Stimmen gleich gut funktionieren. Und obwohl der Inhalt der Audioaufnahmen religiöser Natur ist, zeigt unsere Analyse, dass dies das Modell nicht dazu verleitet, eine religiösere Sprache zu produzieren“, sagte das Unternehmen.

toi-tech