Die Technologie der künstlichen Intelligenz (KI) hat mehrere Anwendungsfälle und einer davon ist die Bereitstellung des Zugriffs digitale Dienstleistungen in ihren Muttersprachen. In einem so großen Land wie Indien, in dem die Menschen über 121 Sprachen sprechen, ist es eine schwierige Aufgabe, ihnen digitale Dienste in ihrer Muttersprache zur Verfügung zu stellen.
Die Regierung baut Sprachdatensätze auf Bhashiniein KI-geführter Sprachübersetzung System, das Open-Source-Datensätze in lokalen Sprachen für die Entwicklung von KI-Tools erstellt, das im Gegenzug darauf abzielt, mehr Dienste digital bereitzustellen.
Die Rolle der KI bei der Online-Bereitstellung von Sprachen
Bemerkenswert ist, dass nur wenige dieser 121 Sprachen von der natürlichen Sprachverarbeitung (NLP) abgedeckt werden, dem Zweig der künstlichen Intelligenz, der es Computern ermöglicht, Texte und gesprochene Wörter zu verstehen. Dies bedeutet, dass Hunderte Millionen Inder von nützlichen Informationen ausgeschlossen sind.
„Damit KI-Tools für alle funktionieren, müssen sie auch auf Menschen eingehen, die kein Englisch, Französisch oder Spanisch sprechen“, zitierte die Nachrichtenagentur Reuters Kalika Bali, leitende Forscherin bei Microsoft Research Indiawie gesagt.
„Aber wenn wir so viele Daten in indischen Sprachen sammeln müssten, wie in ein großes Sprachmodell wie GPT einfließen, müssten wir noch zehn Jahre warten. Was wir also tun können, ist, Ebenen auf generativen KI-Modellen wie ChatGPT oder Llama zu erstellen“, sagte Bali.
Wie KI-Modelle trainiert werden
KI-Modelle werden auf bestimmte Datensätze, beispielsweise geschriebene Texte, trainiert. Allerdings haben mehrere indische Sprachen überwiegend eine mündliche Überlieferung, was bedeutet, dass es nicht viele Textaufzeichnungen gibt, was es schwierig macht, Daten in weniger verbreiteten Sprachen zu sammeln.
Jetzt kommt Bhashini, das eine Crowdsourcing-Initiative umfasst, bei der Menschen Sätze in verschiedenen Sprachen beisteuern, von anderen transkribierte Audioaufnahmen oder Texte validieren, Texte übersetzen und Bilder beschriften können.
„Die Regierung drängt sehr stark darauf, Datensätze zu erstellen, um große Sprachmodelle in indischen Sprachen zu trainieren, und diese werden bereits in Übersetzungstools für Bildung, Tourismus und vor Gericht verwendet“, so Pushpak Bhattacharyya, Leiter des Computation for Indian Language Technology Lab in Mumbai, wurde zitiert.
Metas SeamlessM4T-Modell
Anfang des Jahres kündigte Mark Zuckerberg, CEO von Meta, ein KI-gestütztes Sprachübersetzungsmodell an, das Sprache in bis zu 100 Sprachen übersetzen und transkribieren kann. Zuckerberg sagte, dass das KI-Modell Sprache-zu-Text, Text-zu-Sprache, Sprache-zu-Sprache, Text-zu-Text-Übersetzung und Spracherkennung leisten kann.
Das Modell kann nützlich sein, um Informationen in Sprachen zu kommunizieren und zu verstehen, die Menschen nicht beherrschen, insbesondere in Sprachen, in denen es kein weit verbreitetes Schriftsystem gibt oder in denen keine Texte mehr zum Trainieren von KI-Modellen vorhanden sind.
Die Regierung baut Sprachdatensätze auf Bhashiniein KI-geführter Sprachübersetzung System, das Open-Source-Datensätze in lokalen Sprachen für die Entwicklung von KI-Tools erstellt, das im Gegenzug darauf abzielt, mehr Dienste digital bereitzustellen.
Die Rolle der KI bei der Online-Bereitstellung von Sprachen
Bemerkenswert ist, dass nur wenige dieser 121 Sprachen von der natürlichen Sprachverarbeitung (NLP) abgedeckt werden, dem Zweig der künstlichen Intelligenz, der es Computern ermöglicht, Texte und gesprochene Wörter zu verstehen. Dies bedeutet, dass Hunderte Millionen Inder von nützlichen Informationen ausgeschlossen sind.
„Damit KI-Tools für alle funktionieren, müssen sie auch auf Menschen eingehen, die kein Englisch, Französisch oder Spanisch sprechen“, zitierte die Nachrichtenagentur Reuters Kalika Bali, leitende Forscherin bei Microsoft Research Indiawie gesagt.
„Aber wenn wir so viele Daten in indischen Sprachen sammeln müssten, wie in ein großes Sprachmodell wie GPT einfließen, müssten wir noch zehn Jahre warten. Was wir also tun können, ist, Ebenen auf generativen KI-Modellen wie ChatGPT oder Llama zu erstellen“, sagte Bali.
Wie KI-Modelle trainiert werden
KI-Modelle werden auf bestimmte Datensätze, beispielsweise geschriebene Texte, trainiert. Allerdings haben mehrere indische Sprachen überwiegend eine mündliche Überlieferung, was bedeutet, dass es nicht viele Textaufzeichnungen gibt, was es schwierig macht, Daten in weniger verbreiteten Sprachen zu sammeln.
Jetzt kommt Bhashini, das eine Crowdsourcing-Initiative umfasst, bei der Menschen Sätze in verschiedenen Sprachen beisteuern, von anderen transkribierte Audioaufnahmen oder Texte validieren, Texte übersetzen und Bilder beschriften können.
„Die Regierung drängt sehr stark darauf, Datensätze zu erstellen, um große Sprachmodelle in indischen Sprachen zu trainieren, und diese werden bereits in Übersetzungstools für Bildung, Tourismus und vor Gericht verwendet“, so Pushpak Bhattacharyya, Leiter des Computation for Indian Language Technology Lab in Mumbai, wurde zitiert.
Metas SeamlessM4T-Modell
Anfang des Jahres kündigte Mark Zuckerberg, CEO von Meta, ein KI-gestütztes Sprachübersetzungsmodell an, das Sprache in bis zu 100 Sprachen übersetzen und transkribieren kann. Zuckerberg sagte, dass das KI-Modell Sprache-zu-Text, Text-zu-Sprache, Sprache-zu-Sprache, Text-zu-Text-Übersetzung und Spracherkennung leisten kann.
Das Modell kann nützlich sein, um Informationen in Sprachen zu kommunizieren und zu verstehen, die Menschen nicht beherrschen, insbesondere in Sprachen, in denen es kein weit verbreitetes Schriftsystem gibt oder in denen keine Texte mehr zum Trainieren von KI-Modellen vorhanden sind.