Neu entwickelte Programme für künstliche Intelligenz (KI) haben die Rolle der regulatorischen Elemente und der dreidimensionalen (3D) Struktur der DNA ausschließlich auf der Grundlage ihrer Rohsequenz genau vorhergesagt, so zwei aktuelle Studien in Naturgenetik. Diese Werkzeuge könnten schließlich ein neues Licht darauf werfen, wie genetische Mutationen zu Krankheiten führen, und zu einem neuen Verständnis darüber führen, wie die genetische Sequenz die räumliche Organisation und Funktion der chromosomalen DNA im Zellkern beeinflusst, sagte Studienautor Jian Zhou, Ph.D., Assistenzprofessor in der Lyda Hill Abteilung für Bioinformatik an der UTSW.
„Zusammengenommen liefern diese beiden Programme ein vollständigeres Bild davon, wie Änderungen in der DNA-Sequenz, selbst in nichtkodierenden Regionen, dramatische Auswirkungen auf ihre räumliche Organisation und Funktion haben können“, sagte Dr. Zhou, ein Mitglied des Harold C. Simmons Comprehensive Cancer Center, Stipendiat der Lupe Murchison Foundation in medizinischer Forschung und Stipendiat des Cancer Prevention and Research Institute of Texas (CPRIT).
Nur etwa 1 % der menschlichen DNA kodiert Anweisungen zur Herstellung von Proteinen. Die Forschung der letzten Jahrzehnte hat gezeigt, dass ein Großteil des verbleibenden nichtkodierenden genetischen Materials regulatorische Elemente enthält – wie Promotoren, Enhancer, Silencer und Isolatoren – die kontrollieren, wie die kodierende DNA exprimiert wird. Wie die Reihenfolge die Funktionen der meisten dieser regulatorischen Elemente steuert, ist nicht gut verstanden, erklärte Dr. Zhou.
Um diese regulatorischen Komponenten besser zu verstehen, entwickelten er und Kollegen der Princeton University und des Flatiron Institute ein Deep-Learning-Modell namens Sei, das diese Schnipsel nichtkodierender DNA genau in 40 „Sequenzklassen“ oder Jobs sortiert – zum Beispiel als Enhancer für Genaktivität von Stammzellen oder Gehirnzellen. Diese 40 Sequenzklassen, die anhand von fast 22.000 Datensätzen aus früheren Studien zur Untersuchung der Genomregulation entwickelt wurden, decken mehr als 97 % des menschlichen Genoms ab. Darüber hinaus kann Sei jede Sequenz anhand ihrer vorhergesagten Aktivität in jeder der 40 Sequenzklassen bewerten und vorhersagen, wie sich Mutationen auf solche Aktivitäten auswirken.
Durch die Anwendung von Sei auf humangenetische Daten konnten die Forscher die regulatorische Architektur von 47 Merkmalen und Krankheiten charakterisieren, die in der UK Biobank-Datenbank erfasst sind, und erklären, wie Mutationen in regulatorischen Elementen spezifische Pathologien verursachen. Solche Fähigkeiten können dazu beitragen, ein systematischeres Verständnis dafür zu erlangen, wie Änderungen der Genomsequenz mit Krankheiten und anderen Merkmalen zusammenhängen. Die Ergebnisse wurden diesen Monat veröffentlicht.
Im Mai berichtete Dr. Zhou über die Entwicklung eines anderen Werkzeugs namens Orca, das die 3D-Architektur der DNA in Chromosomen basierend auf ihrer Sequenz vorhersagt. Unter Verwendung vorhandener Datensätze von DNA-Sequenzen und Strukturdaten aus früheren Studien, die die Faltungen, Drehungen und Wendungen des Moleküls enthüllten, trainierte Dr. Zhou das Modell, um Verbindungen herzustellen, und bewertete die Fähigkeit des Modells, Strukturen auf verschiedenen Längenskalen vorherzusagen.
Die Ergebnisse zeigten, dass Orca sowohl kleine als auch große DNA-Strukturen basierend auf ihren Sequenzen mit hoher Genauigkeit vorhersagte, einschließlich für Sequenzen, die Mutationen tragen, die mit verschiedenen Gesundheitszuständen verbunden sind, einschließlich einer Form von Leukämie und Fehlbildungen der Gliedmaßen. Orca ermöglichte es den Forschern auch, neue Hypothesen darüber zu entwickeln, wie die DNA-Sequenz ihre lokale und großräumige 3D-Struktur steuert.
Dr. Zhou sagte, dass er und seine Kollegen planen, Sei und Orca zu verwenden, die beide öffentlich auf Webservern und als Open-Source-Code verfügbar sind, um die Rolle genetischer Mutationen bei der Verursachung der molekularen und physischen Manifestationen von Krankheiten weiter zu erforschen – Forschung Dies könnte schließlich zu neuen Wegen zur Behandlung dieser Erkrankungen führen.
Kathleen M. Chen et al, Eine sequenzbasierte globale Karte der regulatorischen Aktivität zur Entschlüsselung der Humangenetik, Naturgenetik (2022). DOI: 10.1038/s41588-022-01102-2
Jian Zhou, Sequenzbasierte Modellierung der dreidimensionalen Genomarchitektur von der Kilobasen- bis zur Chromosomenskala, Naturgenetik (2022). DOI: 10.1038/s41588-022-01065-4