Amazonas hat angekündigt, dass sein KI-gestützter Transkriptionsdienst jetzt mit besserer Unterstützung für über 100 Sprachen, darunter auch einige indische Sprachen, verfügbar ist. Das Unternehmen sagte, dass sein „modellbasiertes Sprachfundamentsystem der nächsten Generation mit mehreren Milliarden Parametern“ bei der Erweiterung seiner Automatik geholfen habe Spracherkennung Unterstützung.
Amazon Transkribieren ist ein automatischer Spracherkennungsdienst (ASR), der es Benutzern erleichtert, Apps mit Sprach-zu-Text-Funktionen hinzuzufügen.
Das Unternehmen sagte, dass das Sprachgrundlagenmodell des Dienstes mithilfe selbstüberwachter Algorithmen trainiert wird, die dabei helfen, inhärente universelle Muster menschlicher Sprache über Sprachen und Akzente hinweg zu lernen.
„Es wird auf Millionen Stunden unbeschrifteter Audiodaten aus über 100 Sprachen trainiert. Die Trainingsrezepte werden durch intelligente Datenstichproben optimiert, um die Trainingsdaten zwischen den Sprachen auszugleichen und sicherzustellen, dass traditionell unterrepräsentierte Sprachen auch ein hohes Genauigkeitsniveau erreichen“, sagte Amazon.
Unterstützung für indische Sprachen
Unter den über 100 Sprachen unterstützt Amazon Transcribe die indischen Sprachen Bengali, Englisch (Indisch), Gujarati, Hindi, Kannada, Malayalam, Marathi, Punjabi, Tamil und Telugu.
Der E-Commerce-Riese sagte, dass Amazon Transcribe durch die Nutzung des Speech-Foundation-Modells in der Lage sei, „bedeutende Ergebnisse“ zu liefern Genauigkeitsverbesserung in den meisten Sprachen zwischen 20 und 50 %.
Bei Telefongesprächen liege die Genauigkeitsverbesserung zwischen 30 und 70 %, sagte Amazon und fügte hinzu, dass das ASR-Modell auch eine Verbesserung der Lesbarkeit mit genauerer Interpunktion und Groß-/Kleinschreibung liefere.
Das KI-Übersetzungsmodell von Meta
Anfang des Jahres kündigte Meta außerdem ein generatives KI-gestütztes Übersetzungsmodell an, das fast 100 gesprochene Sprachen erkennt. Das Modell heißt SeamlessM4T und steht für Massively Multilingual and Multimodal Machine Translation. Es soll in der Lage sein, Sprache in Text und Text in Text für fast 100 Sprachen in 35 Ausgabesprachen zu übersetzen.
Mittlerweile ist die Speech-to-Text-Sprachunterstützung von Google für über 125 Sprachen und Varianten verfügbar.
Amazon Transkribieren ist ein automatischer Spracherkennungsdienst (ASR), der es Benutzern erleichtert, Apps mit Sprach-zu-Text-Funktionen hinzuzufügen.
Das Unternehmen sagte, dass das Sprachgrundlagenmodell des Dienstes mithilfe selbstüberwachter Algorithmen trainiert wird, die dabei helfen, inhärente universelle Muster menschlicher Sprache über Sprachen und Akzente hinweg zu lernen.
„Es wird auf Millionen Stunden unbeschrifteter Audiodaten aus über 100 Sprachen trainiert. Die Trainingsrezepte werden durch intelligente Datenstichproben optimiert, um die Trainingsdaten zwischen den Sprachen auszugleichen und sicherzustellen, dass traditionell unterrepräsentierte Sprachen auch ein hohes Genauigkeitsniveau erreichen“, sagte Amazon.
Unterstützung für indische Sprachen
Unter den über 100 Sprachen unterstützt Amazon Transcribe die indischen Sprachen Bengali, Englisch (Indisch), Gujarati, Hindi, Kannada, Malayalam, Marathi, Punjabi, Tamil und Telugu.
Der E-Commerce-Riese sagte, dass Amazon Transcribe durch die Nutzung des Speech-Foundation-Modells in der Lage sei, „bedeutende Ergebnisse“ zu liefern Genauigkeitsverbesserung in den meisten Sprachen zwischen 20 und 50 %.
Bei Telefongesprächen liege die Genauigkeitsverbesserung zwischen 30 und 70 %, sagte Amazon und fügte hinzu, dass das ASR-Modell auch eine Verbesserung der Lesbarkeit mit genauerer Interpunktion und Groß-/Kleinschreibung liefere.
Das KI-Übersetzungsmodell von Meta
Anfang des Jahres kündigte Meta außerdem ein generatives KI-gestütztes Übersetzungsmodell an, das fast 100 gesprochene Sprachen erkennt. Das Modell heißt SeamlessM4T und steht für Massively Multilingual and Multimodal Machine Translation. Es soll in der Lage sein, Sprache in Text und Text in Text für fast 100 Sprachen in 35 Ausgabesprachen zu übersetzen.
Mittlerweile ist die Speech-to-Text-Sprachunterstützung von Google für über 125 Sprachen und Varianten verfügbar.