Forscher finden heraus, dass KI bei Hypothekenvergabeentscheidungen rassistische Vorurteile aufweist

Der Einsatz von KI bei Hypothekendarlehensentscheidungen könnte laut einer neuen Studie zur Diskriminierung schwarzer Antragsteller führen. Forscher sagen jedoch, dass es möglicherweise eine überraschend einfache Lösung gibt, um diese potenzielle Voreingenommenheit abzumildern.

In einem Experiment, bei dem führende kommerzielle Large Language Models (LLMs) zur Auswertung von Kreditantragsdaten eingesetzt wurden, stellten die Forscher von Lehigh fest, dass LLMs durchweg empfahlen, schwarzen Antragstellern mehr Kredite zu verweigern und höhere Zinsen zu berechnen als ansonsten identischen weißen Antragstellern.

Angesichts der historischen und anhaltenden Unterschiede zwischen den Rassen beim Eigenheimbesitz ist diese Entdeckung besonders alarmierend.

„Dieses Ergebnis deutet darauf hin, dass LL.M. aus den Daten lernen, mit denen sie geschult werden, zu denen eine Geschichte rassistischer Ungleichheiten bei Hypothekendarlehen gehört, und dass sie möglicherweise Auslöser für rassistische Vorurteile aus anderen Kontexten einbeziehen“, sagte Donald Bowen III, Assistenzprofessor für Finanzen an der Fakultät für Betriebswirtschaftslehre und einer der Autoren von die Studieverfügbar als Arbeitspapier auf SSRN.

Die Studie verwendete echte Daten zu Hypothekenanträgen, die aus einer Stichprobe von 1.000 Kreditanträgen im Datensatz des Home Mortgage Disclosure Act (HMDA) von 2022 entnommen wurden, um 6.000 experimentelle Kreditanträge zu erstellen. Im Experiment manipulierten die Forscher Rassen- und Kreditscorevariablen, um ihre Auswirkungen zu bestimmen.

Die Ergebnisse waren ernüchternd: Schwarze Antragsteller hatten durchweg mit höheren Hürden beim Erwerb eines Eigenheims zu kämpfen, selbst wenn ihre Finanzprofile mit denen der weißen Antragsteller identisch waren.

Basierend auf den experimentellen Ergebnissen mit dem GPT-4 Turbo LLM von OpenAI müssten schwarze Antragsteller im Durchschnitt einen um etwa 120 Punkte höheren Kredit-Score aufweisen als weiße Antragsteller, um die gleiche Genehmigungsquote zu erhalten, und einen um etwa 30 Punkte höheren, um den gleichen Zinssatz zu erhalten.

Die Models zeigten auch eine Voreingenommenheit gegenüber Bewerbern hispanischer Herkunft, im Allgemeinen jedoch in geringerem Ausmaß als gegenüber Bewerbern schwarzer Herkunft.

Bei „riskanteren“ Anträgen mit niedriger Kreditwürdigkeit, hohem Schulden-Einkommens-Verhältnis oder hohem Beleihungswert war die Voreingenommenheit gegenüber Antragstellern aus Minderheiten am stärksten.

Die Forscher testeten auch andere LLMs, darunter GPT 3.5 Turbo (2023 und 2024) und GPT 4 von OpenAI sowie Claude 3 Sonnet und Opus von Anthropic und Llama 3-8B und 3-70B von Meta.

Die Tendenz hinsichtlich der Zinsempfehlungen war im gesamten Spektrum der LLMs im Allgemeinen konsistent. Die Forscher stellten jedoch fest, dass die Zustimmungsraten verschiedener Modelle stark voneinander abwichen.

ChatGPT 3.5 Turbo zeigte die höchste Unterscheidungskraft, während ChatGPT 4 (2023) praktisch keine zeigte.

„Angesichts der Bemühungen der LLM-Entwickler, Vorurteile insgesamt zu reduzieren, und der großen Menge an Vorschriften zur fairen Kreditvergabe ist es ziemlich überraschend, dass es hier zu rassistischen Vorurteilen kommt“, sagte Bowen und wies darauf hin, dass die Trainingsdaten dieser Modelle mit ziemlicher Sicherheit Bundesvorschriften enthalten, die die Berücksichtigung der Rasse als Faktor bei Kreditvergabeentscheidungen verbieten.

Aber noch überraschender war die Fähigkeit, anhaltende Verzerrungen in den Ergebnissen mit einer einfachen Lösung zu beseitigen: indem man den LLM anwies, bei Entscheidungen keine Voreingenommenheit walten zu lassen.

Als den LLMs bei ihren Entscheidungen keine Berücksichtigung der Rassenzugehörigkeit gestattet wurde, verschwand die rassistische Voreingenommenheit praktisch.

„Die Verzerrung wurde dadurch nicht teilweise verringert oder überkorrigiert. Sie wurde fast vollständig rückgängig gemacht“, sagte Bowen.

Weitere Informationen:
Donald E. Bowen III et al., Messen und Mildern von rassistischen Vorurteilen bei der Kreditvergabe in großen Sprachmodellen, SSRN (2024). DOI: 10.2139/ssrn.4812158. papers.ssrn.com/sol3/papers.cf … ?abstract_id=4812158

Zur Verfügung gestellt von der Lehigh University

ph-tech