Il est possible que parmi vos résolutions du Nouvel An figure l’apprentissage d’une langue, l’anglais par exemple. Ce besoin s’est transformé avec l’arrivée de l’intelligence artificielle. Avec cette technologie, il est de plus en plus facile de traduire d’une langue à une autre. Que ce soit depuis votre téléphone portable, via des écouteurs ou des lunettes de soleil comme les Ray-Ban de Meta, le L’IA peut vous aider à parcourir le mondeen évitant la barrière de la langue.
Justement, des chercheurs de la société mère WhatsApp et Instagram (Meta) ont présenté un nouveau modèle d’intelligence artificielle qui promet un saut qualitatif dans les systèmes de traduction simultanée actuels. Traduction dans plus de 100 langues en temps réel, au format texte ou vocal et réduction du bruit ou une interférence qui empêche la compréhension dans la conversation.
Différents experts du domaine, sans rapport avec ce projet, ont évalué positivement ce qui a été présenté par l’entreprise de Mark Zuckerberg. « SEAMLESSM4T représente une avancée significative » Maite Martín, professeur du Département d’informatique de l’Université de Jaén a déclaré à SMC Espagne. Cet expert souligne l’inclusion de langues moins représentées dans la technologie comme le maltais ou le swahili. Les résultats du travail ont été reflétés dans l’article. publié dans la revue Naturedont l’auteur principal est l’Espagnole Marta Costa-Jussà, mène des recherches fondamentales sur l’intelligence artificielle dans les bureaux Meta en Californie.
Plus de 100 langues
Meta a créé le poisson Babel ou ce qui est pareil système capable de traduire la voix et le texte en direct dans jusqu’à 101 langues. Le géant technologique fait référence à un élément classique de la science-fiction qui, dans le roman Le Guide du voyageur galactique, a permis de le traduire simultanément, pour annoncer sa dernière avancée en matière d’intelligence artificielle.
Ce petit poisson pourrait être inséré dans l’oreille, d’où il traduirait instantanément la langue parlée par l’interlocuteur. En fait, cette idée se retrouve facilement, ce sont les écouteurs avec IA intégrée qui ont peuplé le marché en proposant une traduction instantanée. Par exemple, les écouteurs WT2 Edge, testés par l’équipe Omicrono-EL ESPAÑOL, permettent d’entretenir une conversation fluide en 40 langues et accents en utilisant un appareil similaire aux AirPods d’Apple.
Cependant, il reste encore beaucoup de progrès à faire dans ce domaine, plusieurs obstacles à surmonter, et la proposition d’Objectif dépasserait ce qui a été réalisé jusqu’à présent. Nommé comme SANS COUTURESM4Til s’agit d’un modèle multimodal et multilingue capable de reconnaître automatiquement jusqu’à 96 langues dans une conversation parlée et de traduire en direct 101 langues différentes de la parole à la parole, de la parole au texte, du texte au texte et du texte à la parole.
L’un des obstacles restants dans ces modèles est de travailler avec des voix plutôt que du texte, ainsi que de comprendre les langues parlées dans les petites communautés. Les méta-chercheurs affirment que SEAMLESSM4T peut dépasser jusqu’à 23% plus de précision que les systèmes existants dans les tâches de traduction voix-parole et voix-texte de 8 %. Ces résultats ont été reflétés dans l’article publié dans la revue Naturedont l’auteur principal est l’Espagnole Marta Costa-Jussà, mène des recherches fondamentales sur l’intelligence artificielle dans les bureaux Meta en Californie.
Par l’intermédiaire de SMC Espagne, Raquel Fernández, professeur de linguistique informatique et de systèmes de dialogue à l’Université d’Amsterdam, explique que, bien que ce modèle représente une avancée substantielle en raison de sa capacité à traduire vers et depuis la parole dans un grand nombre de langues, il a également « des problèmes de traitement de la parole en fonction de facteurs tels que le sexe, l’accent ou la langue. »
Même montre des préjugés sexistes dans certaines phrases espagnoles, par exemple, se traduisant par « Je suis une femme au foyer » lorsque la phrase anglaise originale ne fait pas référence au sexe de la personne. Ces obstacles, ainsi que la moindre efficacité lors du travail avec la voix parlée par rapport au texte, sont présents dans la majorité de l’industrie et des produits qui sont générés.
Avec suppression du bruit
« Au-delà de la qualité, lorsqu’on teste sa robustesse, notre système est, en moyenne, d’environ 50 % plus résistant aux bruits de fond et aux variations des haut-parleurs dans les tâches de conversion voix-texte que les systèmes de pointe précédents. La robustesse du modèle face au bruit de fond et à la variabilité due au locuteur est un autre aspect positif.
Malgré ces réalisations, les auteurs du document de recherche affirment qu’une optimisation plus poussée du modèle est nécessaire avant de le diffuser dans un produit de consommation. Pour l’instant, ont mis l’outil à disposition de la communauté scientifique. Peut-être qu’à partir de maintenant, lorsque ce modèle sera plus complet, il pourra être utilisé sur les différentes plateformes et produits de l’entreprise, comme les lunettes de réalité virtuelle Meta Quest et les modèles solaires Ray-Ban qui permettent d’enregistrer des vidéos.