Blanche-Neige, Cendrillon et La Belle au bois dormant ont plus en commun que leurs origines en tant que personnages de contes de fées classiques et, maintenant, font partie de la célèbre liste de personnages de Disney. Leurs contes de fées sont également pleins de préjugés et de stéréotypes sexistes, selon des spécialistes de la littérature – et maintenant de l’IA.
Une équipe de chercheurs de l’Université Northeastern, de l’Université de Californie à Los Angeles et d’IBM Research a créé un cadre d’intelligence artificielle capable d’analyser les livres d’histoires pour enfants et de détecter les cas de préjugés sexistes. Leurs recherches ont été publiées sur le arXiv serveur de préimpression.
La façon dont les contes de fées décrivent et enseignent les leçons, la morale et les rôles socioculturels aux enfants, en particulier aux jeunes filles, fait l’objet de discussions dans le milieu universitaire et au-delà depuis des décennies. Ces histoires sont pleines de princesses qui ont besoin d’être sauvées et de beaux princes qui sont là pour les sauver.
L’espoir est que l’outil de vérification orthographique piloté par l’IA que son équipe a créé sera utilisé par les écrivains et les éditeurs, ainsi que par les chercheurs, pour créer des histoires plus inclusives pour les enfants, déclare Dakuo Wang, professeur agrégé à Northeastern et l’un des les chercheurs du projet.
« Si à l’avenir j’ai une petite fille, je ne veux pas qu’elle se sente découragée d’assumer ces tâches ou de relever ces défis [or] disons, quelqu’un viendra me sauver ou ce n’est pas censé être quelque chose que je ferais en tant que fille « , dit Wang. » Si nous pouvons développer une technologie pour détecter ou signaler automatiquement ce genre de préjugés et de stéréotypes sexistes, alors cela peut au moins servir de garde-corps ou de filet de sécurité non seulement pour les anciens contes de fées, mais aussi pour les nouvelles histoires écrites et créées chaque jour aujourd’hui. »
Tout ce travail a commencé dans le cadre des recherches en cours de l’équipe sur la façon dont l’IA peut aider à développer les compétences d’apprentissage des langues pour les jeunes enfants. L’équipe s’intéressait déjà aux contes de fées en tant qu’outils d’apprentissage des langues et avait collecté des centaines d’histoires du monde entier à utiliser comme « corpus » pour leur algorithme à analyser.
Ils ont recruté un groupe d’experts en éducation – des enseignants et des universitaires – pour passer au peigne fin les histoires et créer une liste de questions et réponses qui aiderait à prouver si un enfant apprenait de ces histoires. Le résultat final était de 10 000 paires de questions-réponses – et la prise de conscience que toutes ces histoires, peu importe d’où elles venaient, contenaient des stéréotypes de genre « tenaces et profonds ».
La princesse mange une pomme empoisonnée, est emprisonnée, kidnappée ou maudite ou meurt et n’a aucun moyen de changer sa situation. Pendant ce temps, des personnages masculins – princes, rois et héros – tuaient des dragons, brisaient les malédictions et sauvaient la princesse.
Des recherches antérieures dans ce domaine se sont concentrées sur ce que Wang appelle le « niveau superficiel » de biais. Cela impliquait d’analyser des histoires et d’identifier des paires de mots ou d’expressions, comme « prince » et « courageux », qui relient les idées et les identités de manière spécifique. Mais Wang et le reste de l’équipe voulaient aller plus loin.
Ils se sont concentrés sur les «chaînes d’événements narratifs temporels», la combinaison spécifique et l’ordre des événements et des actions qu’un personnage vit ou entreprend.
« C’est en fait l’expérience et l’action qui définissent qui est cette personne, et ces actions influencent nos lecteurs sur ce que [they] devrait faire ou ne devrait pas faire pour imiter ce personnage fictif », dit Wang.
À l’aide des centaines d’histoires qu’ils avaient recueillies, l’équipe a créé des processus automatisés pour extraire les noms et les sexes des personnages avec chaque événement. Ils ont ensuite aligné ces événements comme une chaîne pour chaque personnage. Ils ont également automatisé un processus pour regrouper les événements et les actions par catégories spécifiques. Chaque événement a été analysé et a reçu un rapport de cotes, à quelle fréquence il était lié à un personnage masculin ou féminin.
Sur les 33 577 événements analysés dans l’étude, 69 % ont été attribués à des personnages masculins et 31 % à des personnages féminins. Les événements associés aux personnages féminins étaient souvent liés à des tâches domestiques comme le toilettage, le nettoyage, la cuisine et la couture, tandis que ceux des personnages masculins étaient liés à l’échec, au succès ou à l’agression.
Avec toutes ces informations, Wang et l’équipe ont créé un outil de traitement du langage naturel qui pourrait aller au-delà de l’analyse d’événements individuels pour trouver des biais dans les chaînes d’événements.
« Quelqu’un est sauvé, puis se marie et vit heureux pour toujours ; d’autres ont tué le monstre, sauvé la princesse et vécu heureux pour toujours », a déclaré Wang. « Ce n’est pas la partie » vivre heureux pour toujours « ou la partie » se marier « qui sont différentes. Ce sont en fait les événements qui se produisent avant ces événements dans une chaîne qui font la différence. »
En automatisant ce processus, Wang dit qu’il espère que l’outil sera utilisé par des personnes extérieures à la communauté des chercheurs qui créent ou recréent réellement ces histoires. Dans le processus, ils peuvent commencer à empêcher les histoires de transmettre ces idées obsolètes et nuisibles à la prochaine génération.
« Avec notre outil, ils peuvent simplement télécharger leur premier brouillon dans un outil comme celui-ci et cela devrait générer un score ou un mètre qui indique, « Voici les choses que vous pouvez ou non vouloir vérifier. Si cette intention n’est pas ce que vous voudriez exprimer, alors peut-être devriez-vous penser à une réécriture. Voici quelques suggestions », dit Wang.
À l’avenir, Wang et l’équipe prévoient d’étendre leur travail pour examiner d’autres formes de préjugés. Ils utiliseront également leur outil pour évaluer les biais d’autres IA. Ils espèrent utiliser leur algorithme pour analyser si ChatGPT a les mêmes préjugés et stéréotypes sexistes lorsqu’il crée du contenu basé sur ces histoires.
« Nous proposons qu’il s’agit en fait d’une tâche, une tâche que la communauté technique peut réellement aider à conquérir », a déclaré Wang. « Nous ne disons pas que notre méthode est la meilleure. Nous disons simplement que notre méthode est la première à accomplir cette tâche, et cette tâche est tellement prédominante. Peut-être devrions-nous porter une partie de notre attention sur ces défis et tâches sociaux existants. »
Plus d’information:
Paulina Toro Isaza et al, Les contes de fées sont-ils justes ? Analyser les préjugés sexistes dans les chaînes d’événements narratifs temporels des contes de fées pour enfants, arXiv (2023). DOI : 10.48550/arxiv.2305.16641