Weit verbreitete Modelle des maschinellen Lernens reproduzieren die Verzerrung von Datensätzen: Studie

Informatikforscher der Rice University haben Verzerrungen bei weit verbreiteten maschinellen Lernwerkzeugen festgestellt, die in der Immuntherapieforschung eingesetzt werden.

Ph.D. Die Studenten Anja Conev, Romanos Fasoulis und Sarah Hall-Swan überprüften in Zusammenarbeit mit den Informatik-Fakultätsmitgliedern Rodrigo Ferreira und Lydia Kavraki öffentlich verfügbare Daten zur Vorhersage der Bindung von Peptid-HLA (pHLA) und stellten fest, dass diese auf einkommensstärkere Gemeinschaften ausgerichtet sind. In ihrem Artikel wird untersucht, wie sich voreingenommene Dateneingaben auf die algorithmischen Empfehlungen auswirken, die in wichtigen Immuntherapieforschungen verwendet werden.

Vorhersage der Peptid-HLA-Bindung, maschinelles Lernen und Immuntherapie

HLA ist ein Gen bei allen Menschen, das Proteine ​​kodiert, die Teil unserer Immunantwort sind. Diese Proteine ​​binden sich an Proteinbrocken, sogenannte Peptide, in unseren Zellen und markieren unsere infizierten Zellen für das körpereigene Immunsystem, damit dieses reagieren und die Bedrohung im Idealfall beseitigen kann.

Verschiedene Menschen haben leicht unterschiedliche Varianten in den Genen, sogenannte Allele. Die aktuelle Immuntherapieforschung erforscht Möglichkeiten zur Identifizierung von Peptiden, die sich effektiver an die HLA-Allele des Patienten binden können.

Das Endergebnis könnten letztendlich maßgeschneiderte und hochwirksame Immuntherapien sein. Aus diesem Grund besteht einer der wichtigsten Schritte darin, genau vorherzusagen, welche Peptide an welche Allele binden. Je höher die Genauigkeit, desto besser ist die potenzielle Wirksamkeit der Therapie.

Aber die Berechnung, wie effektiv ein Peptid an das HLA-Allel bindet, erfordert viel Arbeit, weshalb maschinelle Lernwerkzeuge zur Vorhersage der Bindung eingesetzt werden. Hier entdeckte Rices Team ein Problem: Die zum Trainieren dieser Modelle verwendeten Daten scheinen geografisch einkommensstärkere Gemeinden zu bevorzugen.

Warum ist das ein Problem? Ohne die Möglichkeit, genetische Daten aus einkommensschwächeren Gemeinschaften zu berücksichtigen, sind künftige, für sie entwickelte Immuntherapien möglicherweise nicht so wirksam.

„Jeder von uns hat unterschiedliche HLAs, die er ausdrückt, und diese HLAs variieren zwischen verschiedenen Populationen“, sagte Fasoulis. „Angesichts der Tatsache, dass maschinelles Lernen verwendet wird, um potenzielle Peptidkandidaten für Immuntherapien zu identifizieren, werden diese Therapeutika nicht bei allen Menschen in jeder Bevölkerung gleichermaßen wirken, wenn man grundsätzlich voreingenommene Maschinenmodelle hat.“

Neudefinition von „Pan-Allel“-Bindungsprädiktoren

Unabhängig von der Anwendung sind Modelle für maschinelles Lernen nur so gut wie die Daten, mit denen Sie sie füttern. Eine Verzerrung der Daten, auch eine unbewusste, kann die Schlussfolgerungen des Algorithmus beeinflussen.

Modelle für maschinelles Lernen, die derzeit für die pHLA-Bindungsvorhersage verwendet werden, behaupten, dass sie Alleldaten extrapolieren können, die nicht in dem Datensatz vorhanden sind, auf dem diese Modelle trainiert wurden, und bezeichnen sich selbst als „Pan-Allel“ oder „All-Allel“. Die Ergebnisse des Rice-Teams stellen dies in Frage.

„Was wir hier zeigen und irgendwie widerlegen wollen, ist die Idee der ‚Pan-Allel‘-Prädiktoren für maschinelles Lernen“, sagte Conev. „Wir wollten sehen, ob sie wirklich für die Daten funktionieren, die nicht in den Datensätzen enthalten sind, also die Daten von Bevölkerungsgruppen mit niedrigerem Einkommen.“

Die Gruppe von Fasoulis und Conev testete öffentlich verfügbare Daten zur Vorhersage der pHLA-Bindung und ihre Ergebnisse stützten ihre Hypothese, dass eine Verzerrung in den Daten zu einer begleitenden Verzerrung im Algorithmus führte. Das Team hofft, dass durch die Aufmerksamkeit der Forschungsgemeinschaft auf diese Diskrepanz eine wirklich pan-allele Methode zur Vorhersage der pHLA-Bindung entwickelt werden kann.

Ferreira, Fakultätsberater und Mitautor des Artikels, erklärte, dass das Problem der Verzerrung beim maschinellen Lernen nicht angegangen werden kann, wenn Forscher ihre Daten nicht in einem sozialen Kontext betrachten. Aus einer bestimmten Perspektive mögen Datensätze einfach als „unvollständig“ erscheinen, aber die Herstellung von Verbindungen zwischen dem, was im Datensatz dargestellt ist und was nicht, und den zugrunde liegenden historischen und wirtschaftlichen Faktoren, die sich auf die Populationen auswirken, aus denen die Daten gesammelt wurden, ist der Schlüssel zur Identifizierung von Verzerrungen.

„Forscher, die maschinelle Lernmodelle verwenden, gehen manchmal unschuldig davon aus, dass diese Modelle eine Weltbevölkerung angemessen darstellen könnten“, sagte Ferreira, „aber unsere Forschung zeigt, wie wichtig es ist, wenn dies nicht der Fall ist.“ Er fügte hinzu: „Obwohl die von uns untersuchten Datenbanken Informationen von Menschen aus mehreren Regionen der Welt enthalten, sind sie dadurch nicht universell. Was unsere Forschung ergab, war ein Zusammenhang zwischen dem sozioökonomischen Status bestimmter Bevölkerungsgruppen und ihrer Repräsentation in der Welt.“ Datenbanken oder nicht.

Professor Kavraki schloss sich dieser Meinung an und betonte, wie wichtig es sei, dass die in der klinischen Arbeit eingesetzten Instrumente genau und ehrlich über etwaige Mängel seien.

„Unsere Studie zur pHLA-Bindung steht im Zusammenhang mit personalisierten Immuntherapien gegen Krebs – ein Projekt, das in Zusammenarbeit mit MD Anderson durchgeführt wurde“, sagte Kavraki. „Die entwickelten Tools finden schließlich ihren Weg in die klinische Pipeline. Wir müssen die Vorurteile verstehen, die in diesen Tools bestehen können. Unsere Arbeit zielt auch darauf ab, die Forschungsgemeinschaft auf die Schwierigkeiten aufmerksam zu machen, die sich bei der Beschaffung unvoreingenommener Datensätze ergeben.“

Conev bemerkte, dass die Tatsache, dass die Daten für ihr Team öffentlich zugänglich seien, obwohl sie voreingenommen sei, ein guter Anfang sei. Das Team hofft, dass seine Ergebnisse neue Forschungsergebnisse in eine positive Richtung lenken werden – in eine Richtung, die Menschen über alle demografischen Grenzen hinweg einbezieht und ihnen hilft.

Das Papier ist veröffentlicht im Tagebuch iScience.

Mehr Informationen:
Anja Conev et al., HLAEquity: Untersuchung von Verzerrungen bei Pan-Allel-Peptid-HLA-Bindungsprädiktoren, iScience (2023). DOI: 10.1016/j.isci.2023.108613

Zur Verfügung gestellt von der Rice University

ph-tech