Des chercheurs de l’USC Viterbi School of Engineering ont utilisé des technologies d’intelligence artificielle pour conclure que les personnages masculins sont quatre fois plus répandus dans la littérature que les personnages féminins.
Mayank Kejriwal, directeur de recherche à l’Institut des sciences de l’information (ISI) de l’USC, s’est inspiré des travaux en cours sur les préjugés sexistes implicites et de sa propre expertise en traitement du langage naturel (PNL). Alors que de nombreuses études publiées étudient et analysent les aspects qualitatifs de la représentation féminine dans la littérature et les médias, les recherches de Kejriwal ont particulièrement utilisé ses points forts : collecter des données quantitatives via des algorithmes d’apprentissage automatique existants.
Pour produire ces résultats, Kejriwal et Nagaraj ont accédé aux données via le corpus du projet Gutenberg qui contient 3 000 livres en anglais, une tentative supplémentaire d’atténuer les biais des chercheurs. Le genre de livres allait de l’aventure et de la science-fiction au mystère et à la romance, et dans des supports variés, notamment des romans, des nouvelles et de la poésie.
Akarsh Nagaraj, MS ’21, co-auteur de l’étude et ingénieur en apprentissage automatique chez Meta, a aidé à découvrir le déséquilibre littéraire 4: 1 homme-femme.
« Les préjugés sexistes sont bien réels, et lorsque nous voyons quatre fois moins de femmes dans la littérature, cela a un impact subliminal sur les personnes qui consomment la culture », a déclaré Kejriwal, professeur assistant de recherche au département de génie industriel et des systèmes Daniel J Epstein. « Nous avons quantitativement révélé de manière indirecte dans quel préjugé persiste dans la culture. »
Nagaraj a noté l’importance de la façon dont leurs méthodes et les résultats de l’étude leur ont permis de mieux comprendre les préjugés dans la société et leurs implications. « Les livres sont une fenêtre sur le passé, et les écrits de ces auteurs nous donnent un aperçu de la façon dont les gens perçoivent le monde et de la façon dont il a changé. »
Des hommes partout… et des personnages principaux
L’étude décrit plusieurs méthodes pour définir la prévalence féminine dans la littérature. Ils ont utilisé Named Entity Recognition (NER), une méthode NLP de premier plan utilisée pour extraire des caractères spécifiques au genre. « L’une des façons dont nous définissons cela consiste à examiner le nombre de pronoms féminins dans un livre par rapport aux pronoms masculins », a déclaré Kejriwal. L’autre technique consiste à quantifier le nombre de personnages féminins qui en sont les personnages principaux.
Cela a permis à l’équipe de recherche de déterminer si les personnages masculins étaient au cœur de l’histoire.
Les résultats de l’étude ont également montré que l’écart entre les personnages masculins et féminins diminue sous la paternité féminine. « Cela nous a clairement montré qu’à cette époque, les femmes se représenteraient bien plus qu’un écrivain masculin », a déclaré Nagaraj.
Les méthodes diversifiées de l’équipe pour mesurer et déterminer la représentation féminine dans la littérature n’étaient pas sans limites, cependant, lorsque les auteurs ne sont ni hommes ni femmes. « Lorsque nous avons publié l’article sur l’ensemble de données, les examinateurs ont critiqué le fait que nous ignorions les genres non dichotomiques », a déclaré Kejriwal. « Mais nous étions d’accord avec eux, d’une certaine manière. Nous pensons que c’est complètement supprimé, et nous ne pourrons pas trouver beaucoup [transgender individuals or non-dichotomous individuals]. »
Des dichotomies difficiles
Kejriwal a reconnu que les outils d’IA pour identifier les mots au pluriel, tels que « ils », qui peuvent faire référence à un individu non dichotomique, n’existent pas encore. Pourtant, les conclusions de l’étude établissent le cadre pour aborder ces problèmes sociaux et créer les technologies qui peuvent remédier à ces déficits.
L’étude fournit également un plan pour les travaux futurs sur la quantification des résultats qualitatifs qu’ils ont découverts grâce aux méthodologies de l’étude. Sans le biais inhérent aux enquêtes conçues par l’homme, la technologie NLP leur a également permis de trouver des associations d’adjectifs avec des caractères sexospécifiques, approfondissant leur compréhension du biais et de son omniprésence dans la société.
« Même avec des attributions erronées, les mots associés aux femmes étaient des adjectifs comme ‘faible’, ‘aimable’, ‘joli’ et parfois ‘stupide' », a déclaré Nagaraj. « Pour les personnages masculins, les mots les décrivant comprenaient ‘leadership’, ‘pouvoir’, ‘force’ et ‘politique’. »
Bien que l’équipe n’ait finalement pas quantifié cette facette de son étude, cette différence dans les descriptions qualitatives entre les personnages spécifiques au sexe offre une possibilité future d’enquête qualitative plus complète sur les associations de mots avec le sexe.
« Notre étude nous montre que le monde réel est complexe mais qu’il y a des avantages pour tous les différents groupes de notre société qui participent au discours culturel », a déclaré Kejriwal. « Lorsque nous faisons cela, nous avons tendance à avoir une vision plus réaliste de la société. »
Kejriwal espère que l’étude servira à souligner l’importance de la recherche interdisciplinaire, c’est-à-dire l’utilisation de la technologie de l’IA pour mettre en évidence les problèmes sociaux urgents et les inégalités qui peuvent être résolus. Les parties prenantes ayant une formation spécialisée, y compris les informaticiens, peuvent proposer des outils pour traiter les données et répondre aux questions, et les décideurs politiques peuvent utiliser ces données pour mettre en œuvre des changements.
Akarsh Nagaraj et al, Ensemble de données pour étudier la disparité entre les sexes dans les textes littéraires anglais, Données en bref (2022). DOI : 10.1016/j.dib.2022.107905