Les modèles d’apprentissage automatique largement utilisés reproduisent le biais des ensembles de données : étude

Les chercheurs en informatique de l’Université Rice ont découvert des biais dans les outils d’apprentissage automatique largement utilisés pour la recherche en immunothérapie.

doctorat les étudiants Anja Conev, Romanos Fasoulis et Sarah Hall-Swan, en collaboration avec les professeurs d’informatique Rodrigo Ferreira et Lydia Kavraki, ont examiné les données de prédiction de liaison peptide-HLA (pHLA) accessibles au public et ont découvert qu’elles étaient biaisées en faveur des communautés à revenus plus élevés. Leur article examine la manière dont la saisie de données biaisées affecte les recommandations algorithmiques utilisées dans d’importantes recherches en immunothérapie.

Prédiction de liaison peptide-HLA, apprentissage automatique et immunothérapie

HLA est un gène présent chez tous les humains qui code pour des protéines agissant dans le cadre de notre réponse immunitaire. Ces protéines se lient à des morceaux de protéines appelés peptides dans nos cellules et marquent nos cellules infectées pour le système immunitaire du corps, afin qu’il puisse réagir et, idéalement, éliminer la menace.

Différentes personnes ont des variantes génétiques légèrement différentes, appelées allèles. Les recherches actuelles en immunothérapie explorent les moyens d’identifier des peptides capables de se lier plus efficacement aux allèles HLA du patient.

Le résultat final, à terme, pourrait être des immunothérapies personnalisées et très efficaces. C’est pourquoi l’une des étapes les plus critiques consiste à prédire avec précision quels peptides se lieront à quels allèles. Plus la précision est grande, meilleure est l’efficacité potentielle de la thérapie.

Mais calculer l’efficacité avec laquelle un peptide se liera à l’allèle HLA demande beaucoup de travail, c’est pourquoi des outils d’apprentissage automatique sont utilisés pour prédire la liaison. C’est là que l’équipe de Rice a découvert un problème : les données utilisées pour former ces modèles semblent favoriser géographiquement les communautés à revenus plus élevés.

Pourquoi est-ce un problème ? Sans pouvoir prendre en compte les données génétiques des communautés à faible revenu, les futures immunothérapies développées pour elles pourraient ne pas être aussi efficaces.

« Chacun d’entre nous exprime des HLA différents, et ces HLA varient selon les populations », a déclaré Fasoulis. « Étant donné que l’apprentissage automatique est utilisé pour identifier des peptides candidats potentiels pour les immunothérapies, si vous disposez essentiellement de modèles de machine biaisés, ces thérapies ne fonctionneront pas de la même manière pour tout le monde dans chaque population. »

Redéfinir les prédicteurs de liaison « pan-allèles »

Quelle que soit l’application, la qualité des modèles d’apprentissage automatique dépend des données que vous leur fournissez. Un biais dans les données, même inconscient, peut affecter les conclusions tirées par l’algorithme.

Les modèles d’apprentissage automatique actuellement utilisés pour la prédiction de la liaison pHLA affirment qu’ils peuvent extrapoler des données alléliques non présentes dans l’ensemble de données sur lequel ces modèles ont été formés, se faisant appeler « pan-allèle » ou « tout-allèle ». Les conclusions de l’équipe Rice remettent cela en question.

« Ce que nous essayons de montrer ici et de démystifier, c’est l’idée des prédicteurs d’apprentissage automatique » panallèles «  », a déclaré Conev. « Nous voulions voir s’ils travaillaient vraiment pour les données qui ne figurent pas dans les ensembles de données, à savoir les données des populations à faible revenu. »

Le groupe de Fasoulis et de Conev a testé les données accessibles au public sur la prédiction de la liaison pHLA, et leurs résultats ont soutenu leur hypothèse selon laquelle un biais dans les données créait un biais d’accompagnement dans l’algorithme. L’équipe espère qu’en portant cette divergence à l’attention de la communauté des chercheurs, une méthode véritablement pan-allèle de prévision de la liaison pHLA pourra être développée.

Ferreira, conseiller pédagogique et co-auteur de l’article, a expliqué que le problème des biais dans l’apprentissage automatique ne peut être résolu que si les chercheurs réfléchissent à leurs données dans un contexte social. D’un certain point de vue, les ensembles de données peuvent sembler simplement « incomplets », mais il est essentiel d’établir des liens entre ce qui est ou non représenté dans l’ensemble de données et les facteurs historiques et économiques sous-jacents affectant les populations auprès desquelles les données ont été collectées.

« Les chercheurs utilisant des modèles d’apprentissage automatique supposent parfois innocemment que ces modèles peuvent représenter de manière appropriée une population mondiale », a déclaré Ferreira, « mais nos recherches soulignent l’importance du cas où ce n’est pas le cas ». Il a ajouté que « même si les bases de données que nous avons étudiées contiennent des informations provenant de personnes provenant de plusieurs régions du monde, cela ne les rend pas universelles. Nos recherches ont révélé une corrélation entre le statut socio-économique de certaines populations et leur représentation dans la société. bases de données ou non. »

Le professeur Kavraki a fait écho à ce sentiment, soulignant à quel point il est important que les outils utilisés dans le travail clinique soient précis et honnêtes quant à leurs éventuelles lacunes.

« Notre étude sur la liaison du pHLA s’inscrit dans le contexte d’immunothérapies personnalisées contre le cancer, un projet réalisé en collaboration avec MD Anderson », a déclaré Kavraki. « Les outils développés finissent par parvenir aux pipelines cliniques. Nous devons comprendre les biais qui peuvent exister dans ces outils. Nos travaux visent également à alerter la communauté des chercheurs sur les difficultés d’obtenir des ensembles de données impartiaux. »

Conev a noté que, bien que biaisé, le fait que les données soient accessibles au public pour que son équipe puisse les examiner était un bon début. L’équipe espère que ses résultats mèneront de nouvelles recherches dans une direction positive, une direction qui inclura et aidera les personnes de toutes catégories démographiques.

Le papier est publié dans la revue iScience.

Plus d’information:
Anja Conev et al, HLAEquity : Examen des biais dans les prédicteurs de liaison pan-allèle peptide-HLA, iScience (2023). DOI : 10.1016/j.isci.2023.108613

Fourni par l’Université Rice

ph-tech