Neues KI-Modell verbessert die Vorhersagekraft für krankheitsbezogene Genomik

Um die Funktionsweise der DNA im Zusammenhang mit Krankheiten zu verstehen, haben Wissenschaftler am Los Alamos National Laboratory das erste multimodale Deep-Learning-Modell seiner Art entwickelt, EPBDxDNABERT-2, das in der Lage ist, die genaue Beziehung zwischen Transkriptionsfaktoren, Proteinen, die Genaktivitäten regulieren, und Hebelwirkung zu ermitteln ein Aspekt der DNA, der als DNA-Atmung bezeichnet wird und bei dem sich die Doppelhelixstruktur spontan öffnet und schließt. Das Modell hat das Potenzial, bei der Entwicklung von Arzneimitteln zur Behandlung von Krankheiten zu helfen, die ihren Ursprung in der Genaktivität haben.

„Es gibt viele Arten von Transkriptionsfaktoren und das menschliche Genom ist unvorstellbar groß“, sagte Anowarul Kabir, Forscher aus Los Alamos und Hauptautor der Studie veröffentlicht In Nukleinsäureforschung. „Es ist also notwendig herauszufinden, welcher Transkriptionsfaktor an welcher Stelle der unglaublich langen DNA-Struktur bindet. Wir haben versucht, dieses Problem mit künstlicher Intelligenz, insbesondere Deep-Learning-Algorithmen, zu lösen.“

Ein auf DNA trainiertes Deep-Learning-Modell

Die DNA ist in jeder menschlichen Zelle in der Größe von 3 Milliarden englischen Buchstaben eingeschrieben und liefert den Bauplan dafür, wie menschliches Leben wächst und erhalten bleibt. Transkriptionsfaktoren binden an Teile der DNA und beeinflussen die Regulierung der Genexpression: wie einzelne Gene spezifische Anweisungen für die Entwicklung und Funktion von Zellen geben. Da sich diese Expression bei Krankheiten wie Krebs manifestieren kann, könnte die Vorhersage von Transkriptionsfaktoren, die an bestimmte Genorte binden, Auswirkungen auf die Arzneimittelentwicklung haben.

Das vom Forschungsteam verwendete grundlegende Modell wurde auf DNA-Sequenzen trainiert. Das Team entwickelte ein DNA-Simulationsprogramm, das zahlreiche DNA-Dynamiken erfasst und in das genomische Basismodell integriert. Das Ergebnis war EPBDxDNABERT-2, das in der Lage ist, Genomsequenzen über Chromosomen hinweg zu verarbeiten und entsprechende DNA-Dynamik als Eingabe einzubeziehen.

Ein solcher Input, die DNA-Atmung oder das lokale und spontane Öffnen und Schließen der DNA-Doppelhelixstruktur, korreliert mit der Transkriptionsaktivität, beispielsweise der Transkriptionsfaktorbindung.

„Die Integration der DNA-Atmungsmerkmale mit dem DNABERT-2-Grundmodell verbesserte die Vorhersagen der Transkriptionsfaktorbindung erheblich“, sagte Manish Bhattarai, Forscher aus Los Alamos. „Wir geben Abschnitte des DNA-Codes als Eingabe für das Modell und fragen das Modell, ob es über viele Zelllinien hinweg an einen Transkriptionsfaktor bindet oder nicht. Die Ergebnisse verbesserten die Vorhersagewahrscheinlichkeit der Bindung bestimmter Genorte an viele Transkriptionsfaktoren.“

Verwendung von Venado für KI-Algorithmen

Das Team ließ sein Deep-Learning-Modell auf dem neuesten Supercomputer des Labors, Venado, laufen, der eine Zentraleinheit mit einer Grafikverarbeitungseinheit kombiniert, um Fähigkeiten der künstlichen Intelligenz voranzutreiben. Ein Deep-Learning-Modell funktioniert ähnlich wie die neuronalen Netzwerke des Gehirns, indem es Bilder und Text einbezieht und komplexe Muster aufdeckt, um Vorhersagen und Erkenntnisse zu generieren.

Um das Modell zu trainieren, nutzte das Team Gensequenzierungsdaten aus 690 experimentellen Ergebnissen, die 161 verschiedene Transkriptionsfaktoren und 91 menschliche Zelltypen umfassten. Sie fanden heraus, dass EPBDxDNABERT-2 die Vorhersage der Bindung von mehr als 660 Transkriptionsfaktoren deutlich verbessert – um 9,6 % in einer Schlüsselmetrik. Weitere Experimente mit In-vitro-Datensätzen, die aus Experimenten in einer kontrollierten Umgebung stammen, ergänzten die Datensätze in der Natur oder die Daten, die direkt aus der Forschung mit lebenden Organismen wie Mäusen stammten.

Das Team fand heraus, dass die DNA-Atmung allein die Transkriptionsaktivität nahezu genau abschätzen kann, das multimodale Modell jedoch Bindungsmotive extrahieren kann, die spezifischen DNA-Sequenzen, an die Transkriptionsfaktoren binden – ein entscheidendes Element zur Erklärung von Transkriptionsvorgängen.

„Wie die Leistung unseres multimodalen Grundmodells über mehrere, unterschiedliche Datensätze hinweg zeigt, weist es Vielseitigkeit, Robustheit und Wirksamkeit auf“, sagte Bhattarai. „Dieses Modell stellt einen wesentlichen Fortschritt in der computergestützten Genomik dar und stellt ein hochentwickeltes Werkzeug zur Analyse komplexer biologischer Mechanismen dar.“

Weitere Informationen:
Anowarul Kabir et al.: Die Integration der DNA-Atmung mit dem Deep-Learning-Grundmodell fördert die genomweite Bindungsvorhersage menschlicher Transkriptionsfaktoren. Nukleinsäureforschung (2024). DOI: 10.1093/nar/gkae783

Bereitgestellt vom Los Alamos National Laboratory

ph-tech