Obwohl der US Equal Credit Opportunity Act Diskriminierung bei der Hypothekenvergabe verbietet, sind viele Kreditnehmer immer noch von Vorurteilen betroffen. Eins 2021 Zeitschrift für Finanzwirtschaft Studie ergab, dass Kreditnehmern aus Minderheitengruppen fast 8 % höhere Zinsen berechnet wurden und Kredite 14 % häufiger abgelehnt wurden als Kreditnehmer aus privilegierten Gruppen.
Wenn diese Vorurteile in maschinelle Lernmodelle einfließen, die Kreditgeber verwenden, um die Entscheidungsfindung zu rationalisieren, können sie weitreichende Folgen für die Wohnungsgerechtigkeit haben und sogar dazu beitragen, die rassische Vermögenskluft zu vergrößern.
Wenn ein Modell mit einem unfairen Datensatz trainiert wird, z. B. einem, bei dem einem höheren Anteil schwarzer Kreditnehmer Kredite verweigert wurden, im Vergleich zu weißen Kreditnehmern mit demselben Einkommen, derselben Kreditwürdigkeit usw., wirken sich diese Verzerrungen auf die Vorhersagen des Modells aus, wenn es angewendet wird reale Situationen. Um die Ausbreitung der Hypothekenkreditdiskriminierung einzudämmen, haben MIT-Forscher einen Prozess entwickelt, der Verzerrungen in Daten beseitigt, die zum Trainieren dieser maschinellen Lernmodelle verwendet werden.
Während andere Methoden versuchen, diese Voreingenommenheit zu beseitigen, ist die Technik der Forscher im Bereich der Hypothekendarlehen neu, da sie Voreingenommenheit aus einem Datensatz entfernen kann, der mehrere sensible Attribute wie Rasse und ethnische Zugehörigkeit sowie mehrere „sensible“ Optionen für jeden hat Attribute wie Schwarz oder Weiß und Hispanic oder Latino oder Nicht-Hispanic oder Latino. Vertrauliche Attribute und Optionen sind Merkmale, die eine privilegierte Gruppe von einer unterprivilegierten Gruppe unterscheiden.
Die Forscher verwendeten ihre Technik, die sie DualFair nennen, um einen maschinell lernenden Klassifikator zu trainieren, der faire Vorhersagen darüber macht, ob Kreditnehmer einen Hypothekenkredit erhalten werden. Als sie es auf Hypothekenkreditdaten aus mehreren US-Bundesstaaten anwandten, reduzierte ihre Methode die Diskriminierung in den Vorhersagen erheblich, während sie eine hohe Genauigkeit beibehielt.
„Als Sikh-Amerikaner haben wir häufig mit Vorurteilen zu tun, und wir halten es für inakzeptabel, dass sich diese in Algorithmen in realen Anwendungen verwandeln. Für Dinge wie Hypothekendarlehen und Finanzsysteme ist es sehr wichtig, dass Vorurteile diese Systeme nicht infiltrieren weil es die Lücken betonen kann, die bereits gegenüber bestimmten Gruppen vorhanden sind“, sagt Jashandeep Singh, ein Senior an der Floyd Buchanan High School und Co-Hauptautor der Zeitung mit seinem Zwillingsbruder Arashdeep. Die Singh-Brüder wurden kürzlich ins MIT aufgenommen.
Zusammen mit Arashdeep und Jashandeep Singh sind Ariba Khan im zweiten Studienjahr am MIT und Seniorautor Amar Gupta, ein Forscher am Computer Science and Artificial Intelligence Laboratory am MIT, der den Einsatz sich entwickelnder Technologien zur Bekämpfung von Ungerechtigkeit und anderen gesellschaftlichen Problemen untersucht. Die Forschungsergebnisse wurden kürzlich online veröffentlicht und erscheinen in einer Sonderausgabe von Machine Learning and Knowledge Extraction.
Doppelt nehmen
DualFair bekämpft zwei Arten von Verzerrungen in einem Hypothekendarlehensdatensatz – Label-Verzerrung und Auswahlverzerrung. Label Bias tritt auf, wenn das Gleichgewicht zwischen günstigen oder ungünstigen Ergebnissen für eine bestimmte Gruppe ungerecht ist. (Schwarzen Antragstellern werden häufiger Kredite verweigert, als sie sollten.) Auswahlverzerrung entsteht, wenn die Daten nicht repräsentativ für die größere Bevölkerung sind. (Der Datensatz enthält nur Personen aus einer Nachbarschaft, in der die Einkommen historisch niedrig sind.)
Der DualFair-Prozess eliminiert Label-Bias, indem ein Datensatz in die größte Anzahl von Untergruppen unterteilt wird, basierend auf Kombinationen sensibler Attribute und Optionen, wie z. B. weiße Männer, die nicht spanisch oder lateinamerikanisch sind, schwarze Frauen, die spanisch oder lateinamerikanisch sind usw.
Durch die Aufschlüsselung des Datensatzes in so viele Untergruppen wie möglich kann DualFair Diskriminierung aufgrund mehrerer Merkmale gleichzeitig angehen.
„Bisher haben Forscher meist versucht, voreingenommene Fälle als binär zu klassifizieren. Es gibt mehrere Parameter, die voreingenommen sind, und diese mehreren Parameter haben ihre eigene Wirkung in verschiedenen Fällen. Sie sind nicht gleich gewichtet. Unsere Methode kann sie viel besser kalibrieren.“ sagt Gupta.
Nachdem die Untergruppen erstellt wurden, gleicht DualFair die Anzahl der Kreditnehmer in jeder Untergruppe aus, indem Personen aus Minderheitengruppen dupliziert und Personen aus der Mehrheitsgruppe gelöscht werden. DualFair gleicht dann den Anteil der Kreditannahmen und -ablehnungen in jeder Untergruppe so aus, dass sie mit dem Median im ursprünglichen Datensatz übereinstimmen, bevor die Untergruppen neu kombiniert werden.
DualFair eliminiert dann die Auswahlverzerrung, indem es jeden Datenpunkt wiederholt, um zu sehen, ob eine Diskriminierung vorliegt. Wenn beispielsweise eine Person eine nicht-hispanische oder lateinamerikanische schwarze Frau ist, die für einen Kredit abgelehnt wurde, passt das System ihre Rasse, ethnische Zugehörigkeit und ihr Geschlecht nacheinander an, um zu sehen, ob sich das Ergebnis ändert. Wenn dieser Kreditnehmerin ein Darlehen gewährt wird, wenn ihre Rasse zu Weiß geändert wird, betrachtet DualFair diesen Datenpunkt als voreingenommen und entfernt ihn aus dem Datensatz.
Fairness vs. Genauigkeit
Um DualFair zu testen, verwendeten die Forscher den öffentlich zugänglichen Datensatz des Home Mortgage Disclosure Act, der 88 % aller Hypothekendarlehen in den USA im Jahr 2019 umfasst und 21 Merkmale enthält, darunter Rasse, Geschlecht und ethnische Zugehörigkeit. Sie verwendeten DualFair, um den gesamten Datensatz und kleinere Datensätze für sechs Bundesstaaten zu „de-biasen“, und trainierten dann ein maschinelles Lernmodell, um Kreditannahmen und -ablehnungen vorherzusagen.
Nach der Anwendung von DualFair stieg die Fairness der Vorhersagen, während das Genauigkeitsniveau in allen Staaten hoch blieb. Sie verwendeten eine vorhandene Fairness-Metrik, die als durchschnittliche Quotendifferenz bekannt ist, aber sie kann die Fairness jeweils nur in einem sensiblen Attribut messen.
Also haben sie ihre eigene Fairness-Metrik namens Alternate World Index erstellt, die die Voreingenommenheit von mehreren sensiblen Attributen und Optionen als Ganzes berücksichtigt. Unter Verwendung dieser Metrik stellten sie fest, dass DualFair die Fairness der Vorhersagen für vier der sechs Bundesstaaten erhöhte und gleichzeitig eine hohe Genauigkeit beibehielt.
„Es ist die allgemeine Überzeugung, dass man auf Fairness verzichten muss, wenn man genau sein will, oder wenn man fair sein will, auf Genauigkeit verzichten muss. Wir zeigen, dass wir Fortschritte machen können, um diese Kluft zu verringern. “, sagt Khan.
Die Forscher wollen ihre Methode nun anwenden, um verschiedene Arten von Datensätzen zu entzerren, beispielsweise solche, die Gesundheitsversorgungsergebnisse, Kfz-Versicherungstarife oder Bewerbungen erfassen. Sie planen auch, die Einschränkungen von DualFair anzugehen, einschließlich seiner Instabilität, wenn kleine Datenmengen mit mehreren sensiblen Attributen und Optionen vorhanden sind.
Obwohl dies nur ein erster Schritt ist, hoffen die Forscher, dass ihre Arbeit eines Tages dazu beitragen kann, Verzerrungen bei der Kreditvergabe und darüber hinaus zu mildern.
„Technologie funktioniert ganz offen gesagt nur für eine bestimmte Gruppe von Menschen. Insbesondere im Bereich der Hypothekendarlehen wurden afroamerikanische Frauen historisch diskriminiert. Wir setzen uns leidenschaftlich dafür ein, dass sich systemischer Rassismus nicht auf algorithmische Modelle erstreckt. Das gibt es Es macht keinen Sinn, einen Algorithmus zu entwickeln, der einen Prozess automatisieren kann, wenn er nicht für alle gleichermaßen funktioniert“, sagt Khan.
Arashdeep Singh et al., Entwicklung eines neuartigen Fair-Loan-Klassifikators durch eine multisensitive Debiasing-Pipeline: DualFair, Maschinelles Lernen und Wissensextraktion (2022). DOI: 10.3390/make4010011
Diese Geschichte wurde mit freundlicher Genehmigung von MIT News (web.mit.edu/newsoffice/), eine beliebte Website, die Neuigkeiten über MIT-Forschung, -Innovation und -Lehre enthält.