Studie zeigt, dass Männer in der Literatur viermal häufiger vertreten sind als Frauen

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

Forscher der USC Viterbi School of Engineering haben mithilfe von KI-Technologien festgestellt, dass männliche Charaktere in der Literatur viermal häufiger vorkommen als weibliche Charaktere.

Mayank Kejriwal, Forschungsleiter am Information Sciences Institute (ISI) der USC, ließ sich von aktuellen Arbeiten zu impliziten geschlechtsspezifischen Vorurteilen und seiner eigenen Expertise in der Verarbeitung natürlicher Sprache (NLP) inspirieren. Während viele veröffentlichte Studien die qualitativen Aspekte der weiblichen Repräsentation in Literatur und Medien untersuchen und analysieren, nutzte Kejriwals Forschung insbesondere seine Stärken – das Sammeln quantitativer Daten durch bestehende Algorithmen für maschinelles Lernen.

Um diese Ergebnisse zu erzielen, griffen Kejriwal und Nagaraj auf Daten über das Korpus des Gutenberg-Projekts zu, das 3.000 englischsprachige Bücher enthält, ein zusätzlicher Versuch, die Voreingenommenheit der Forscher zu mildern. Das Genre der Bücher reichte von Abenteuer und Science-Fiction bis hin zu Mystery und Romantik und in verschiedenen Medien, darunter Romane, Kurzgeschichten und Gedichte.

Akarsh Nagaraj, MS ’21, Co-Autor der Studie und Machine Learning Engineer bei Meta, half dabei, das literarische Ungleichgewicht von 4:1 zwischen Männern und Frauen aufzudecken.

„Geschlechterbedingte Vorurteile sind sehr real, und wenn wir in der Literatur viermal weniger Frauen sehen, hat dies einen unterschwelligen Einfluss auf die Menschen, die die Kultur konsumieren“, sagte Kejriwal, wissenschaftlicher Assistenzprofessor am Daniel J. Epstein Department of Industrial and Systems Engineering. „Wir haben auf indirekte Weise quantitativ aufgezeigt, welche Vorurteile in der Kultur bestehen bleiben.“

Nagaraj wies darauf hin, wie wichtig es sei, dass ihre Methoden und die Ergebnisse der Studie ihnen ein besseres Verständnis für Vorurteile in der Gesellschaft und deren Auswirkungen vermittelten. „Bücher sind ein Fenster zur Vergangenheit, und das Schreiben dieser Autoren gibt uns einen Einblick, wie Menschen die Welt wahrnehmen und wie sie sich verändert hat.“

Überall Männer … und Hauptfiguren

Die Studie skizziert mehrere Methoden zur Definition der weiblichen Prävalenz in der Literatur. Sie verwendeten Named Entity Recognition (NER), eine bekannte NLP-Methode, die zum Extrahieren geschlechtsspezifischer Zeichen verwendet wird. „Wir definieren dies unter anderem dadurch, dass wir uns ansehen, wie viele weibliche Pronomen in einem Buch im Vergleich zu männlichen Pronomen vorkommen“, sagte Kejriwal. Die andere Technik besteht darin, zu quantifizieren, wie viele weibliche Charaktere die Hauptfiguren darin sind.

Auf diese Weise konnte das Forschungsteam feststellen, ob die männlichen Charaktere im Mittelpunkt der Geschichte standen.

Die Ergebnisse der Studie zeigten auch, dass die Diskrepanz zwischen männlichen und weiblichen Charakteren unter weiblicher Autorschaft abnimmt. „Es hat uns deutlich gezeigt, dass Frauen sich damals viel mehr repräsentierten als ein männlicher Schriftsteller“, sagte Nagaraj.

Die vielfältigen Methoden des Teams zur Messung und Bestimmung des Frauenanteils in der Literatur kamen jedoch nicht ohne Einschränkungen, wenn die Autoren weder männlich noch weiblich sind. „Als wir das Datensatzpapier veröffentlichten, kritisierten Gutachter, dass wir nicht-dichotome Geschlechter ignorieren“, sagte Kejriwal. „Aber wir haben ihnen in gewisser Weise zugestimmt. Wir glauben, dass es vollständig unterdrückt ist, und wir werden nicht viele finden können [transgender individuals or non-dichotomous individuals].“

Herausfordernde Dichotomien

Kejriwal räumte ein, dass es noch keine KI-Tools zur Identifizierung von Pluralwörtern wie „they“ gibt, die sich möglicherweise auf eine nicht-dichotome Person beziehen. Dennoch bilden die Ergebnisse der Studie den Rahmen, um solche sozialen Probleme anzugehen und die Technologien zu entwickeln, die diese Defizite beheben können.

Die Studie bietet auch eine Blaupause für zukünftige Arbeiten zur Quantifizierung der qualitativen Ergebnisse, die sie durch die Methoden der Studie entdeckt haben. Ohne die inhärente Voreingenommenheit von von Menschen gestalteten Umfragen ermöglichte die NLP-Technologie ihnen auch, Adjektivassoziationen mit geschlechtsspezifischen Charakteren zu finden, wodurch ihr Verständnis von Voreingenommenheit und ihrer Verbreitung in der Gesellschaft vertieft wurde.

„Selbst bei falschen Zuschreibungen waren die mit Frauen assoziierten Wörter Adjektive wie ‚schwach‘, ‚liebenswert‘, ‚hübsch‘ und manchmal ‚dumm‘“, sagte Nagaraj. „Für männliche Charaktere umfassten die sie beschreibenden Wörter ‚Führung‘, ‚Macht‘, ‚Stärke‘ und ‚Politik‘.“

Während das Team diesen Aspekt ihrer Studie letztendlich nicht quantifizierte, bietet dieser Unterschied in den qualitativen Beschreibungen zwischen geschlechtsspezifischen Charakteren künftig Spielraum für umfassendere qualitative Untersuchungen zu Wortassoziationen mit Geschlecht.

„Unsere Studie zeigt uns, dass die reale Welt komplex ist, aber es gibt Vorteile für alle verschiedenen Gruppen in unserer Gesellschaft, die am kulturellen Diskurs teilnehmen“, sagte Kejriwal. „Wenn wir das tun, entsteht tendenziell ein realistischeres Bild der Gesellschaft.“

Kejriwal hofft, dass die Studie dazu dienen wird, die Bedeutung interdisziplinärer Forschung hervorzuheben – d. h. den Einsatz von KI-Technologie, um drängende soziale Probleme und Ungleichheiten aufzuzeigen, die angegangen werden können. Interessengruppen mit spezialisiertem Hintergrund, einschließlich Informatiker, können Tools zur Verarbeitung von Daten und zur Beantwortung von Fragen anbieten, und politische Entscheidungsträger können diese Daten verwenden, um Veränderungen herbeizuführen.

Mehr Informationen:
Akarsh Nagaraj et al, Datensatz zur Untersuchung der Geschlechterdisparität in englischen literarischen Texten, Daten in Kürze (2022). DOI: 10.1016/j.dib.2022.107905

Bereitgestellt von der University of Southern California

ph-tech