« La intelligence artificielle peut faire beaucoup de choses, mais ne vous inquiétez pas si vous leur parlez à Valence. » C’est avec cette phrase que l’histoire commence. Campagne NEL-VIVESune initiative développée par CÉNIDEle Centre d’Intelligence Numérique du Université d’Alicante, avec lequel il cherche à former l’IA en collectant les différentes voix de la Communauté valencienne pour promouvoir la diffusion du valencien dans la sphère numérique. Un projet ambitieux auquel beaucoup de temps et d’efforts ont été consacrés et qui commence maintenant à faire ses premiers pas.
Pour réaliser une collecte de voix, une plateforme a été développée hébergé sur le site VIVES chargé d’enregistrer de manière totalement sécurisée les différentes voix des variantes dialectales. Tout cela dans le but de constituer un corpus de données linguistiques ce qui permettra ensuite aux chercheurs d’entraîner divers systèmes d’IA à comprendre et à parler le valencien. Toutes les variantes et accents hébergés au sein de la même plateforme Web. Sur cette page, les volontaires ont la possibilité de laisser leur voix afin d’avoir autant d’échantillons que possible pour cette vaste collecte de données.
« Ce projet s’adresse à un public intergénérationnel. Nous souhaitons que cette initiative puisse capter les voix de tous âges parlant autant de variantes que possible: Tortosí, Nord, Centre, Sud et Alacantí. De cette façon, nous contribuons tous à préserver le valencien à l’ère numérique« , il assure Manuel Palomar, directeur du CENID.
À propos de NEL-VIVES
Cette campagne fait partie du projet ‘NEL’ (Nouvelle économie linguistique), une initiative coordonnée entre différentes langues de l’étatcoordonné entre quatre propres projets avec des méthodologies, des objectifs et des techniques partagés. Tous les ressources générées par le projety compris les modèles et prototypes, sont généralement accessible aux chercheurs et aux entreprisesafin qu’ils puissent les utiliser et les appliquer, contribuant ainsi au progrès qualitatif des entreprises du secteur sur les marchés nationaux et internationaux.
Image d’une des affiches promotionnelles de cette campagne Cenid. INFORMATION
« NEL cherche à développer le infrastructures nécessaires à l’inclusion des langues ibériques dans les applications d’IA est attractif et viable, tant pour les grandes entreprises technologiques que pour l’industrie nationale », conclut Manuel Palomar. « Nous voulons encourager tous ceux qui souhaitent participer en faisant don de leur voix afin qu’ensemble nous puissions écrire l’histoire. »
Les différentes affiches promotionnelles montrent différentes images conçues par l’intelligence artificielle. Une femme, un bâtiment, des baskets, soulignant ce que cet outil est capable de faire. Ajoutant que la machine ne comprend toujours pas quand on lui parle en valencien. C’est précisément l’objectif de l’initiative, que le Valencien ne soit pas étranger à l’intelligence artificielle et la connaisse en profondeur.
Les principaux objectifs du projet VIVES sont : la création de corpus massif (en format texte et vocal) de valencien; booster campagnes d’acquisition de données vocales et textuelles basé sur la participation citoyenne et les ressources existantes dans l’administration publique, les Cortes valenciennes et la radio et télévision valenciennes (A punt) ; L’étude des implications sur la vie privée des personnes et la garantie de la préservation de leur vie privée lors de la capture et de l’analyse des données ; générer des modèles de langage pour chacune des variétés du valencien, et établir une corrélation et une comparaison entre elles ; générer des modèles de langage spécialisés dans un domaine spécifique (tourisme et audiovisuel) ou dans une tâche spécifique (par exemple, résumés et simplification de textes) ; définir stratégies de qualité des données; étudier le interaction entre les systèmes qui utilisent les modèles du langue et ses utilisateurs, avec un accent particulier sur les considérations éthiques de cette interaction ; promouvoir l’inclusion numérique dans l’administration publique et fournir des outils numériques pour les personnes handicapées et la diversité cognitive, pour parvenir à des langues accessibles.