Chaque cellule de votre corps contient la même séquence génétique, mais chaque cellule n’exprime qu’un sous-ensemble de ces gènes. Ces modèles d’expression génique spécifiques aux cellules, qui garantissent qu’une cellule cérébrale est différente d’une cellule cutanée, sont en partie déterminées par la structure tridimensionnelle du matériau génétique, qui contrôle l’accessibilité de chaque gène.
Les chimistes du MIT ont maintenant trouvé une nouvelle façon de déterminer ces structures de génome 3D, en utilisant l’intelligence artificielle générative. Leur technique peut prédire des milliers de structures en quelques minutes, ce qui le rend beaucoup plus rapide que les méthodes expérimentales existantes pour analyser les structures.
En utilisant cette technique, les chercheurs pourraient plus facilement étudier comment l’organisation 3D du génome affecte les modèles et les fonctions d’expression génique des cellules individuelles.
Les résultats sont publié dans le journal Avancées scientifiques.
« Notre objectif était d’essayer de prédire la structure du génome tridimensionnel de la séquence d’ADN sous-jacente », explique Bin Zhang, professeur agrégé de chimie et auteur principal de l’étude. « Maintenant que nous pouvons le faire, ce qui met cette technique à égalité avec les techniques expérimentales de pointe, elle peut vraiment ouvrir de nombreuses opportunités intéressantes. »
Les étudiants diplômés du MIT Greg Schuette et Zhuohan Lao sont les principaux auteurs de l’article.
De la séquence à la structure
À l’intérieur du noyau cellulaire, l’ADN et les protéines forment un complexe appelé chromatine, qui a plusieurs niveaux d’organisation, permettant aux cellules de saisir 2 mètres d’ADN dans un noyau qui n’est qu’à un centième de diamètre en millimètre. De longs brins de vent d’ADN autour des protéines appelées histones, donnant naissance à une structure un peu comme des perles sur une chaîne.
Les étiquettes chimiques appelées modifications épigénétiques peuvent être attachées à l’ADN à des endroits spécifiques, et ces étiquettes, qui varient selon le type de cellule, affectent le repliement de la chromatine et l’accessibilité des gènes voisins. Ces différences dans la conformation de la chromatine aident à déterminer quels gènes sont exprimés dans différents types de cellules, ou à différents moments dans une cellule donnée.
Au cours des 20 dernières années, les scientifiques ont développé des techniques expérimentales pour déterminer les structures de la chromatine. Une technique largement utilisée, connue sous le nom de Hi-C, fonctionne en reliant les brins d’ADN voisins dans le noyau de la cellule. Les chercheurs peuvent alors déterminer quels segments sont situés l’un à l’autre en déchiquetant l’ADN en de nombreuses pièces minuscules et en la séquençant.
Cette méthode peut être utilisée sur de grandes populations de cellules pour calculer une structure moyenne pour une section de chromatine, ou sur des cellules uniques pour déterminer les structures dans cette cellule spécifique. Cependant, les techniques HI-C et similaires sont à forte intensité de main-d’œuvre, et il peut prendre environ une semaine pour générer des données à partir d’une seule cellule.
Pour surmonter ces limites, Zhang et ses étudiants ont développé un modèle qui tire parti des progrès récents de l’IA générative pour créer un moyen rapide et précis de prédire les structures de la chromatine dans les cellules uniques. Le modèle d’IA qu’ils ont conçu peut rapidement analyser les séquences d’ADN et prédire les structures de chromatine que ces séquences pourraient produire dans une cellule.
« L’apprentissage en profondeur est vraiment bon en reconnaissance des modèles », explique Zhang. « Il nous permet d’analyser de très longs segments d’ADN, des milliers de paires de bases, et de comprendre quelles sont les informations importantes codées dans ces paires de bases d’ADN. »
Chromogen, le modèle créé par les chercheurs, a deux composantes. Le premier composant, un modèle d’apprentissage en profondeur a appris à « lire » le génome, analyse les informations codées dans la séquence d’ADN sous-jacente et les données d’accessibilité de la chromatine, dont la dernière est largement disponible et spécifique au type cellulaire.
Le deuxième composant est un modèle d’IA génératif qui prédit des conformations de chromatine physiquement précises, ayant été formé sur plus de 11 millions de conformations de chromatine. Ces données ont été générées à partir d’expériences utilisant Dip-C (une variante de Hi-C) sur 16 cellules à partir d’une lignée de lymphocytes B humains.
Lorsqu’il est intégré, le premier composant informe le modèle génératif de la façon dont l’environnement spécifique au type cellulaire influence la formation de différentes structures de chromatine, et ce schéma capture efficacement les relations de structure de séquence. Pour chaque séquence, les chercheurs utilisent leur modèle pour générer de nombreuses structures possibles. En effet, l’ADN est une molécule très désordonnée, donc une seule séquence d’ADN peut donner naissance à de nombreuses conformations possibles différentes.
« Un facteur de complication majeur de prédiction de la structure du génome est qu’il n’y a pas une seule solution que nous visons. Il y a une distribution des structures, quelle que soit la partie du génome que vous regardez. La distribution statistique compliquée et à grande dimension est quelque chose qui est incroyablement difficile à faire « , explique Schuette.
Analyse rapide
Une fois formé, le modèle peut générer des prédictions sur une échelle de temps beaucoup plus rapide que Hi-C ou d’autres techniques expérimentales.
« Alors que vous pourriez passer six mois à diriger des expériences pour obtenir quelques dizaines de structures dans un type de cellule donné, vous pouvez générer mille structures dans une région particulière avec notre modèle en 20 minutes sur un seul GPU », explique Schuette.
Après avoir entraîné leur modèle, les chercheurs l’ont utilisé pour générer des prédictions de structure pour plus de 2 000 séquences d’ADN, puis les ont comparées aux structures déterminées expérimentalement pour ces séquences. Ils ont constaté que les structures générées par le modèle étaient identiques ou très similaires à celles observées dans les données expérimentales.
« Nous regardons généralement des centaines ou des milliers de conformations pour chaque séquence, et cela vous donne une représentation raisonnable de la diversité des structures qu’une région particulière peut avoir », explique Zhang. « Si vous répétez votre expérience plusieurs fois, dans différentes cellules, vous vous retrouverez très probablement avec une conformation très différente. C’est ce que notre modèle essaie de prédire. »
Les chercheurs ont également constaté que le modèle pouvait faire des prédictions précises de données à partir de types de cellules autres que celle sur laquelle elle était formée. Cela suggère que le modèle pourrait être utile pour analyser comment les structures de chromatine diffèrent entre les types de cellules et comment ces différences affectent leur fonction. Le modèle pourrait également être utilisé pour explorer différents états de chromatine qui peuvent exister dans une seule cellule, et comment ces changements affectent l’expression des gènes.
Une autre application possible consisterait à explorer comment les mutations d’une séquence d’ADN particulière modifient la conformation de la chromatine, ce qui pourrait éclairer comment de telles mutations peuvent provoquer une maladie.
« Il y a beaucoup de questions intéressantes que je pense que nous pouvons aborder avec ce type de modèle », explique Zhang.
Les chercheurs ont créé toutes leurs données et le modèle disponible à d’autres qui souhaitent l’utiliser.
Plus d’informations:
Greg Schuette et al, Chromogène: le modèle de diffusion prédit les conformations de chromatine monocellulaire, Avancées scientifiques (2025). Doi: 10.1126 / sciadv.adr8265
Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre les nouvelles de la recherche, de l’innovation et de l’enseignement du MIT.