Bien que la loi américaine sur l’égalité des chances en matière de crédit interdise la discrimination dans les prêts hypothécaires, les préjugés affectent encore de nombreux emprunteurs. Un 2021 Journal d’économie financière Une étude a révélé que les emprunteurs issus de groupes minoritaires se voyaient facturer des taux d’intérêt près de 8 % plus élevés et se voyaient refuser des prêts 14 % plus souvent que ceux des groupes privilégiés.
Lorsque ces préjugés se répercutent sur les modèles d’apprentissage automatique que les prêteurs utilisent pour rationaliser la prise de décision, ils peuvent avoir des conséquences considérables sur l’équité en matière de logement et même contribuer à creuser l’écart de richesse raciale.
Si un modèle est formé sur un ensemble de données injuste, comme celui dans lequel une proportion plus élevée d’emprunteurs noirs se sont vu refuser des prêts par rapport aux emprunteurs blancs avec le même revenu, le même pointage de crédit, etc., ces biais affecteront les prédictions du modèle lorsqu’il est appliqué à situations réelles. Pour endiguer la propagation de la discrimination en matière de prêts hypothécaires, les chercheurs du MIT ont créé un processus qui supprime les biais dans les données utilisées pour former ces modèles d’apprentissage automatique.
Alors que d’autres méthodes tentent de s’attaquer à ce biais, la technique des chercheurs est nouvelle dans le domaine des prêts hypothécaires, car elle peut supprimer le biais d’un ensemble de données comportant plusieurs attributs sensibles, tels que la race et l’origine ethnique, ainsi que plusieurs options « sensibles » pour chacun. attribut, tel que Noir ou blanc, et Hispanique ou Latino ou non-hispanique ou Latino. Les attributs et options sensibles sont des fonctionnalités qui distinguent un groupe privilégié d’un groupe défavorisé.
Les chercheurs ont utilisé leur technique, qu’ils appellent DualFair, pour former un classificateur d’apprentissage automatique qui fait des prédictions justes pour savoir si les emprunteurs recevront un prêt hypothécaire. Lorsqu’ils l’ont appliquée aux données sur les prêts hypothécaires de plusieurs États américains, leur méthode a considérablement réduit la discrimination dans les prévisions tout en maintenant une grande précision.
« En tant qu’Américains sikhs, nous sommes fréquemment confrontés à des préjugés et nous pensons qu’il est inacceptable de voir cela se transformer en algorithmes dans des applications du monde réel. Pour des choses comme les prêts hypothécaires et les systèmes financiers, il est très important que les préjugés ne s’infiltrent pas dans ces systèmes. parce qu’il peut souligner les lacunes qui sont déjà en place contre certains groupes », explique Jashandeep Singh, senior au Floyd Buchanan High School et co-auteur principal de l’article avec son frère jumeau, Arashdeep. Les frères Singh ont récemment été acceptés au MIT.
Rejoindre Arashdeep et Jashandeep Singh sur le papier sont la deuxième année du MIT Ariba Khan et l’auteur principal Amar Gupta, chercheur au laboratoire d’informatique et d’intelligence artificielle du MIT, qui étudie l’utilisation de la technologie en évolution pour lutter contre les inégalités et d’autres problèmes de société. La recherche a récemment été publiée en ligne et paraîtra dans un numéro spécial de Machine Learning and Knowledge Extraction.
Double prise
DualFair s’attaque à deux types de biais dans un ensemble de données sur les prêts hypothécaires : le biais d’étiquette et le biais de sélection. Le biais d’étiquette se produit lorsque l’équilibre des résultats favorables ou défavorables pour un groupe particulier est injuste. (Les candidats noirs se voient refuser des prêts plus souvent qu’ils ne le devraient.) Un biais de sélection est créé lorsque les données ne sont pas représentatives de la population dans son ensemble. (L’ensemble de données ne comprend que les individus d’un quartier où les revenus sont historiquement bas.)
Le processus DualFair élimine le biais d’étiquette en subdivisant un ensemble de données en le plus grand nombre de sous-groupes en fonction de combinaisons d’attributs et d’options sensibles, tels que les hommes blancs qui ne sont pas hispaniques ou latinos, les femmes noires qui sont hispaniques ou latinos, etc.
En décomposant l’ensemble de données en autant de sous-groupes que possible, DualFair peut traiter simultanément la discrimination basée sur plusieurs attributs.
« Jusqu’à présent, les chercheurs ont principalement essayé de classer les cas biaisés comme binaires. Il y a plusieurs paramètres à biaiser, et ces multiples paramètres ont leur propre impact dans différents cas. Ils ne sont pas pondérés de la même manière. Notre méthode est capable de bien mieux la calibrer. dit Gupta.
Une fois les sous-groupes générés, DualFair égalise le nombre d’emprunteurs dans chaque sous-groupe en dupliquant les individus des groupes minoritaires et en supprimant les individus du groupe majoritaire. DualFair équilibre ensuite la proportion d’acceptations et de refus de prêts dans chaque sous-groupe afin qu’ils correspondent à la médiane dans l’ensemble de données d’origine avant de recombiner les sous-groupes.
DualFair élimine ensuite le biais de sélection en itérant sur chaque point de données pour voir si la discrimination est présente. Par exemple, si une personne est une femme noire non hispanique ou latino qui a été rejetée pour un prêt, le système ajustera sa race, son origine ethnique et son sexe un par un pour voir si le résultat change. Si cet emprunteur se voit accorder un prêt lorsque sa race est changée en blanc, DualFair considère que ce point de données est biaisé et le supprime de l’ensemble de données.
Équité vs précision
Pour tester DualFair, les chercheurs ont utilisé l’ensemble de données accessible au public du Home Mortgage Disclosure Act, qui couvre 88 % de tous les prêts hypothécaires aux États-Unis en 2019 et comprend 21 caractéristiques, notamment la race, le sexe et l’origine ethnique. Ils ont utilisé DualFair pour « débiaiser » l’ensemble de données complet et des ensembles de données plus petits pour six États, puis ont formé un modèle d’apprentissage automatique pour prédire les acceptations et les rejets de prêts.
Après l’application de DualFair, l’équité des prédictions a augmenté tandis que le niveau de précision est resté élevé dans tous les états. Ils ont utilisé une mesure d’équité existante connue sous le nom de différence de cotes moyenne, mais elle ne peut mesurer l’équité que dans un attribut sensible à la fois.
Ainsi, ils ont créé leur propre mesure d’équité, appelée indice mondial alternatif, qui considère le biais de plusieurs attributs et options sensibles dans leur ensemble. En utilisant cette métrique, ils ont découvert que DualFair augmentait l’équité des prédictions pour quatre des six états tout en maintenant une grande précision.
« C’est la croyance commune que si vous voulez être précis, vous devez renoncer à l’équité, ou si vous voulez être juste, vous devez renoncer à l’exactitude. Nous montrons que nous pouvons faire des progrès pour réduire cet écart, » dit Khan.
Les chercheurs veulent maintenant appliquer leur méthode pour débiaiser différents types d’ensembles de données, tels que ceux qui capturent les résultats des soins de santé, les taux d’assurance automobile ou les demandes d’emploi. Ils prévoient également de remédier aux limites de DualFair, notamment son instabilité lorsqu’il existe de petites quantités de données avec plusieurs attributs et options sensibles.
Bien qu’il ne s’agisse que d’une première étape, les chercheurs espèrent que leur travail pourra un jour avoir un impact sur l’atténuation des biais dans les prêts et au-delà.
« La technologie, très franchement, ne fonctionne que pour un certain groupe de personnes. Dans le domaine des prêts hypothécaires en particulier, les femmes afro-américaines ont toujours été victimes de discrimination. Nous sommes passionnés par le fait de nous assurer que le racisme systémique ne s’étend pas aux modèles algorithmiques. Il y a inutile de créer un algorithme capable d’automatiser un processus s’il ne fonctionne pas pour tout le monde de la même manière », déclare Khan.
Arashdeep Singh et al, Développer un nouveau classificateur de prêt équitable via un pipeline de débiaisation multi-sensible : DualFair, Apprentissage automatique et extraction de connaissances (2022). DOI : 10.3390/make4010011
Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement au MIT.