Neues Computertool hilft bei der Interpretation von KI-Modellen in der Genomik

Künstliche Intelligenz dringt immer mehr in viele Bereiche unseres Lebens ein. Aber wie steht es mit der Biologie, der Erforschung des Lebens selbst? KI kann Hunderttausende Genomdatenpunkte durchforsten, um potenzielle neue therapeutische Ziele zu identifizieren. Diese genomischen Erkenntnisse mögen zwar hilfreich erscheinen, aber Wissenschaftler sind sich nicht sicher, wie die heutigen KI-Modelle überhaupt zu ihren Schlussfolgerungen gelangen. Nun tritt ein neues System namens SQUID auf den Plan, das die Blackbox der KI mit ihrer trüben internen Logik öffnen soll.

SQUID, die Abkürzung für Surrogate Quantitative Interpretability for Deepnets, ist ein Computertool, das von Wissenschaftlern des Cold Spring Harbor Laboratory (CSHL) entwickelt wurde. Es soll dabei helfen, zu interpretieren, wie KI-Modelle das Genom analysieren. Im Vergleich zu anderen Analysetools ist SQUID konsistenter, reduziert Hintergrundrauschen und kann zu genaueren Vorhersagen über die Auswirkungen genetischer Mutationen führen.

Warum funktioniert es so viel besser? Der Schlüssel, sagt CSHL-Assistenzprofessor Peter Koo, liege in der speziellen Ausbildung von SQUID.

„Die Werkzeuge, die die Leute verwenden, um diese Modelle zu verstehen, stammen größtenteils aus anderen Bereichen wie Computer Vision oder natürlicher Sprachverarbeitung. Sie können zwar nützlich sein, sind aber für die Genomik nicht optimal. Was wir mit SQUID gemacht haben, war, jahrzehntelanges Wissen über quantitative Genetik zu nutzen, um zu verstehen, was diese tiefen neuronalen Netzwerke lernen“, erklärt Koo.

SQUID funktioniert, indem es zunächst eine Bibliothek mit über 100.000 DNA-Sequenzvarianten erstellt. Anschließend analysiert es die Bibliothek der Mutationen und ihrer Auswirkungen mithilfe eines Programms namens MAVE-NN (Multiplex Assays of Variant Effects Neural Network). Mit diesem Tool können Wissenschaftler Tausende virtueller Experimente gleichzeitig durchführen. Tatsächlich können sie die Algorithmen hinter den genauesten Vorhersagen einer bestimmten KI „herausfischen“. Ihr rechnerischer „Fang“ könnte die Grundlage für Experimente schaffen, die stärker auf der Realität basieren.

„In silico [virtual] Experimente sind kein Ersatz für tatsächliche Laborexperimente. Dennoch können sie sehr aufschlussreich sein. Sie können Wissenschaftlern helfen, Hypothesen darüber aufzustellen, wie ein bestimmter Bereich des Genoms funktioniert oder wie eine Mutation einen klinisch relevanten Effekt haben könnte“, erklärt CSHL Associate Professor Justin Kinney, einer der Co-Autoren der Studie.

Es gibt Unmengen von KI-Modellen im Meer. Jeden Tag kommen neue hinzu. Koo, Kinney und ihre Kollegen hoffen, dass SQUID den Wissenschaftlern dabei helfen wird, diejenigen Modelle zu finden, die ihren speziellen Anforderungen am besten entsprechen.

Obwohl das menschliche Genom kartiert ist, bleibt es ein unglaublich anspruchsvolles Gebiet. SQUID könnte Biologen dabei helfen, sich auf diesem Gebiet besser zurechtzufinden und sie den wahren medizinischen Implikationen ihrer Erkenntnisse näher zu bringen.

Die Forschung wurde in der Zeitschrift veröffentlicht Natur-Maschine-Intelligenz.

Mehr Informationen:
Interpretation cis-regulatorischer Mechanismen aus genomischen tiefen neuronalen Netzwerken unter Verwendung von Surrogatmodellen, Natur-Maschine-Intelligenz, DOI: 10.1038/s42256-024-00851-5

Zur Verfügung gestellt von Cold Spring Harbor Laboratory

ph-tech