Pourquoi les logiciels d’IA « adoucissent » les accents sont problématiques

« Pourquoi n’est-ce pas une belle chose ? » » Sharath Keshava Narayana, perplexe, a demandé à propos de son appareil d’IA masquant les accents.

Produite par son entreprise, Sanas, cette technologie récente cherche à « adoucir » les accents des employés des centres d’appels en temps réel pour prétendument les protéger des préjugés et de la discrimination. Il a suscité un large intérêt tant dans le anglophone et monde francophone depuis son lancement en septembre 2022.

Cependant, tout le monde n’est pas convaincu des qualités antiracistes du logiciel. Les critiques prétendent plutôt que cela nous plonge dans une dystopie contemporaine où la technologie est utilisée pour effacer les différences, les marqueurs d’identité et les cultures des individus.

Pour les comprendre, on pourrait faire pire que de revoir ce qui constitue un accent en premier lieu. Comment les supprimer ? Et de quelle manière leur repassage les plie-t-il bien plus que les ondes sonores ?

Comment l’intelligence artificielle peut faire taire un accent

Les « accents » peuvent être définis comme un ensemble d’indices oraux (voyelles, consonnes, intonation, etc.) qui contribuent à l’élaboration plus ou moins consciente d’hypothèses sur l’identité des individus (par exemple géographique ou sociale). Un accent peut être qualifié de régional ou étranger selon différents récits.

Avec des technologies de start-up qui s’apparentent généralement à des boîtes noires, nous disposons de peu d’informations sur les outils déployés par Sanas pour standardiser notre façon de parler. Cependant, on sait que la plupart des méthodes visent à transformer au moins partiellement la structure de l’onde sonore afin de rapprocher certains signaux acoustiques à un critère perspicace. La technologie modifie le timbre de certaines voyelles et consonnes ainsi que des paramètres tels que le rythme, l’intonation ou l’accentuation. Dans le même temps, la technologie cherchera à sauvegarder autant d’indices vocaux que possible pour permettre la reconnaissance de la voix originale du locuteur, comme avec clonage de voixun processus qui peut aboutir à fausse voix escroqueries. Ces technologies permettent de dissocier ce qui relève de la parole de ce qui relève de la voix.

Le traitement automatique et en temps réel de la parole pose des difficultés technologiques dont la principale est la qualité du signal sonore à traiter. Les développeurs de logiciels ont réussi à les surmonter en s’appuyant sur l’apprentissage en profondeur, les réseaux de neuronesainsi que grandes bases de données de fichiers audio vocauxqui permettent de mieux gérer les incertitudes du signal.

Dans le cas des langues étrangères, Sylvain Detey, Lionel Fontan et Thomas Pellegrini identifient certaines des problématiques inhérentes au développement de ces technologiesy compris la norme à utiliser à des fins de comparaison, ou le rôle que les fichiers audio vocaux peuvent avoir dans leur détermination.

Le mythe de l’accent neutre

Mais l’identification des accents ne se limite pas à la seule acoustique. Donald L. Rubin a montré que les auditeurs peuvent recréer l’impression d’un accent perçu simplement en associant à la parole des visages d’origines supposées différentes. En fait, en l’absence de ces autres signaux, les locuteurs sont pas très doué pour reconnaître les accents qu’ils n’entendent pas régulièrement ou qu’ils pourraient imaginer de manière stéréotypée, comme l’allemand, que beaucoup associent à consonnes « agressives ».

Le désir pieux d’aplanir les accents pour combattre les préjugés soulève la question de ce qu’est un accent « neutre ». Rosina Lippi-Green souligne que l’idéologie de la langue standardL’idée selon laquelle il existe une manière de s’exprimer qui n’est pas marquée domine une grande partie de la société mais n’a aucun fondement factuel. Vijay Ramjattan relie en outre les efforts colossaux récents pour développer des outils de « réduction » et de « suppression » de l’accent avec le modèle néolibéral, dans le cadre duquel les gens se voient attribuer des compétences et des attributs dont ils dépendent. Le capitalisme récent perçoit la langue comme une compétence, et c’est pourquoi le « mauvais accent » conduit à une réduction des opportunités.

L’intelligibilité devient ainsi un prétexte pour reprocher aux individus leur manque de compétences dans des tâches nécessitant une communication orale selon Janine Roessel. Plutôt que de forcer les individus ayant « un accent à le réduire », des chercheurs comme Munro et Derwing ont montré qu’il est possible d’entraîner les individus à adapter leurs capacités orales aux variations phonologiques. De plus, ce n’est pas aux individus de changer, mais aux politiques publiques de mieux protéger ceux qui sont victimes de discrimination en raison de leur accent…accentisme.

Supprimer ou conserver, la poule ou l’œuf ?

Dans le domaine de la sociologie, Wayne Brekhus nous appelle à porter une attention particulière à l’invisible, en pesant autant ce qui n’est pas marqué que ce qui l’est, le « manque d’accent » ainsi que son envers. Cela nous amène à reconsidérer les relations de pouvoir qui existent entre les individus et la manière dont on homogénéise le marqué : celui qui a (selon d’autres) un accent.

Nous sommes donc amenés à la question de Catherine Pascal : comment les technologies émergentes peuvent affiner notre rôle de « citoyen » plutôt que de « machine ». « Supprimer un accent », c’est valoriser un type « d’accent » dominant en négligeant le fait que d’autres cofacteurs vont participer à la perception de cet accent ainsi qu’à l’émergence de discriminations. « Supprimer l’accent » ne supprime pas la discrimination. Au contraire, l’accent donne la parole à l’identité, participant ainsi aux phénomènes d’humanisation, d’appartenance à un groupe, voire d’empathie : l’accent est un canal d’altérité.

Si des technologies telles que l’IA et l’apprentissage profond nous offrent des possibilités inexploitées, elles peuvent également conduire à une dystopie où la déshumanisation éclipse des priorités telles que le bien commun ou la diversité, comme le précise le texte. Déclaration universelle de l’UNESCO sur la diversité culturelle. Plutôt que de les cacher, il semble nécessaire de sensibiliser les recruteurs à la manière dont les accents peuvent contribuer à la satisfaction des clients et que les politiques s’emparent de cette question.

Des projets de recherche tels que PROSOPHON à l’Université de Lorraine (France)qui regroupent des chercheurs en linguistique appliquée et en psychologie du travail, visent à sensibiliser les recruteurs à leurs responsabilités en matière de sensibilisation aux préjugés, mais aussi à responsabiliser les candidats « avec un accent ». En posant la question : « Pourquoi n’est-ce pas une belle chose ? des entreprises comme SANAS nous rappellent pourquoi les technologies basées sur une oppression intériorisée ne rendent pas les gens heureux au travail.

Fourni par La conversation

Cet article est republié à partir de La conversation sous licence Creative Commons. Lis le article original.

ph-tech