Projekt ELLORA: Wie Microsoft hilft, „seltene“ indische Sprachen mit KI zu bewahren

Projekt ELLORA Wie Microsoft hilft „seltene indische Sprachen mit KI
Forscher an der Microsoft-Forschung (MSR) Lab in Indien arbeiten daran, digitale Ökosysteme für indische Sprachen zu schaffen, die online nicht genügend Präsenz haben, sagte das Unternehmen. Das Team bereitet Datensätze vor, die zum Aufbau von KI-Technologien für ihre Online-Präsenz verwendet werden, die im Wesentlichen darauf abzielen, sie für zukünftige Generationen zu erhalten.
Microsofts Projekt ELLORA
Um „seltene“ indische Sprachen online zu bringen, Microsoft startete 2015 das Projekt ELLORA oder Enabling Low Resource Languages. Im Rahmen des Projekts bauen Forscher digitale Ressourcen der Sprachen auf. Sie sagen, dass ihr Zweck darin besteht, eine Sprache für die Nachwelt zu bewahren, damit Benutzer dieser Sprachen „an der digitalen Welt teilnehmen und interagieren können“.
Wie erstellt ELLORA einen Sprachdatensatz?
Die Forscher kartieren Ressourcen, einschließlich gedruckter Literatur, um einen Datensatz zum Trainieren ihres KI-Modells zu erstellen. Das Team arbeitet auch mit diesen Communities an dem Projekt, sagte Microsoft.
„Indem sie die Community in den Datenerfassungsprozess einbeziehen, können sie [researchers] hoffen, einen Datensatz zu erstellen, der sowohl genau als auch kulturell relevant ist“, bemerkte das Unternehmen.

Microsoft arbeitet mit Mundas zusammen
Microsoft arbeitet derzeit mit der Mundas-Gemeinschaft von etwa einer Million Menschen zusammen, die sich über die ostindischen Bundesstaaten Jharkhand, Orissa und Westbengalen verteilen.
Die Community spricht Mundari, aber laut den Microsoft-Forschern ist die Community besorgt über die Langlebigkeit ihrer Sprache, da Kindern in Schulen nur bekannte Sprachen wie Bengali, Hindi und Odiya beigebracht werden.
Eine Handvoll Forscher des MSR-Labors in Indien haben daran gearbeitet, digitale Ökosysteme für Sprachen wie Mundari zu schaffen, die ein geschriebenes Skript haben, aber nicht genug Präsenz in der digitalen Welt haben.
Die Sprache des Internets ist Englisch
Englisch ist seit den frühesten Jahren die Sprache des Internets. Die Dinge haben sich verbessert und jetzt gibt es acht von fast 6.000 Sprachen auf der ganzen Welt, die online bevorzugt werden. Dies bedeutet, dass 88 % der Sprachen der Welt im Internet nicht ausreichend präsent sind. Es bedeutet auch, dass 1,2 Milliarden Menschen, das sind 20 % der Weltbevölkerung, ihre Sprache nicht verwenden können, um sich in der digitalen Welt zurechtzufinden.

Hindi-zu-Mundari: In Arbeit
Microsoft sagt, dass sein Forschungsteam derzeit an einer Textübersetzung von Hindi nach Mundari sowie an einem Spracherkennungsmodell arbeitet, das der Community Zugang zu mehr Inhalten in Mundari verschaffen wird.
Microsoft sagte, dass seine Forscher 2018 mit dem IIT Kharagpur zusammengearbeitet und „eine Studie gesponsert haben, um herauszufinden, was die Community braucht, um die Sprache am Leben zu erhalten“.
Sie bauen auch ein Text-to-Speech-Modell, das keine signifikanten digitalen Inhalte hat, um Modelle für maschinelles Lernen zu trainieren. IIT Kharagpur-Professoren arbeiteten zunächst mit Mitgliedern der Gemeinde zusammen, um ihnen zu helfen, Sätze manuell von Hindi nach Mundari zu übersetzen. Die Sprachsammlung erfolgt auf einem Smartphone mit der Karya-App.
Die Forscher entwickelten auch eine neue Technologie namens Interneural Machine Translation (INMT), die hilft, das nächste Wort vorherzusagen, wenn jemand zwischen Sprachen übersetzt, und den Übersetzungsprozess beschleunigt.

Außer, abgesondert, ausgenommen Munda-SpracheMicrosoft arbeitet auch mit Gondi-Sprechern und der Idu Mishmi-Community in Arunachal Pradesh zusammen.
Das Sprachübersetzungs-KI-Tool von Meta
Auch Facebook Parent-Meta arbeitet an etwas Ähnlichem. Letztes Jahr gab das Unternehmen bekannt, dass es ein KI-Übersetzungstool entwickelt hat, das eine ungeschriebene (oder mündliche) Sprache in gesprochenes Englisch umwandeln kann. Eine ungeschriebene Sprache ist eine Sprache, die kein weit verbreitetes Schriftsystem hat und hauptsächlich gesprochen wird.
Das Unternehmen sagte, dass seine KI in der Lage war, Hokkien – eine mündliche Sprache – ins Englische umzuwandeln. Hokkien ist eine von 3.500 Sprachen, die gesprochen werden und kein schriftliches System haben (oder zumindest nicht breit genug sind, um ein KI-Modell zu trainieren).

Ist ChatGPT der Google-Killer? | OpenAI-ChatGPT

toi-tech