Lorsque les scientifiques ont déclaré le projet du génome humain terminé il y a deux décennies, leur annonce était un peu prématurée. Une étape importante a certainement été franchie, les chercheurs du monde entier ayant eu accès à la séquence d’ADN de la plupart des gènes codant pour les protéines du génome humain. Mais même après 20 ans de mises à jour, huit pour cent de notre génome restaient toujours non séquencés et non étudiés. Tournés en dérision par certains comme « ADN poubelle » sans fonction claire, environ 151 millions de paires de bases de données de séquence dispersées dans tout le génome étaient toujours une boîte noire.
Maintenant, une grande équipe internationale dirigée par Adam Phillippy des National Institutes of Health a révélé les derniers huit pour cent du génome humain dans un article publié dans La science. Ces morceaux manquants depuis longtemps de notre génome contiennent plus que de simples déchets. Dans les nouvelles données se trouvent de mystérieuses poches d’ADN non codant qui ne fabriquent pas de protéines, mais qui jouent toujours un rôle crucial dans de nombreuses fonctions cellulaires et peuvent être au cœur de conditions dans lesquelles la division cellulaire se déchaîne, comme le cancer.
« On pourrait penser qu’avec 92 % du génome achevé il y a longtemps, 8 % supplémentaires ne contribueraient pas beaucoup », déclare Erich D. Jarvis de Rockefeller, co-auteur de l’étude qui a aidé à développer un certain nombre de techniques essentielles pour débloquer la finale. morceaux du génome humain. « Mais à partir de ces huit pour cent manquants, nous acquérons maintenant une toute nouvelle compréhension de la façon dont les cellules se divisent, ce qui nous permet d’étudier un certain nombre de maladies que nous n’avions pas pu atteindre auparavant. »
Sur les épaules du HGP
Le projet du génome humain nous a essentiellement remis les clés de l’euchromatine, la majorité du génome humain, qui est riche en gènes, emballé de manière lâche et occupé à fabriquer de l’ARN qui sera plus tard traduit en protéine. Restait intact, cependant, un labyrinthe d’hétérochromatine répétitive étroitement enroulée – une plus petite partie du génome, qui ne produit pas de protéines.
Les scientifiques avaient de bonnes raisons de donner initialement la priorité à l’hétérochromatine. Les régions euchromatiques contenaient plus de gènes et étaient plus simples à séquencer. Tout comme un puzzle avec des pièces distinctes est plus facile à assembler qu’un puzzle composé de pièces similaires, les outils génomiques de l’époque ont trouvé l’ADN euchromatique plus facile à analyser que son cousin hétérochromatique répétitif.
En conséquence, les généticiens se sont retrouvés avec un trou important dans leur connaissance de ce qui motive certaines fonctions cellulaires de base. Les séquences hétérochromatiques derrière les centromères, qui se trouvent au carrefour des chromosomes et conduisent la division cellulaire, étaient toutes marquées par de longues séquences de N pour « base inconnue » dans le génome de référence humain. Les séquences des bras courts des chromosomes 13, 14, 15, 21 et 22 ont également été omises. « Même pas tout le génome euchromatique n’a été séquencé correctement », ajoute Jarvis. « Les erreurs, telles que les fausses duplications, devaient être corrigées. »
Puis, il y a une dizaine d’années, les scientifiques ont commencé à développer de nouvelles techniques pour produire des lectures de séquences plus longues qui comblaient les lacunes des génomes humains et d’autres espèces. L’une de ces initiatives est le Vertebrate Genomes Project, dirigé par Jarvis, qui a récemment produit les premiers génomes de référence presque sans erreur et presque complets pour 25 animaux. « Cette étude faisait partie d’un effort international visant à développer de nouveaux outils qui produisent des assemblages de gènes de la plus haute qualité », dit-il. « Par rapport aux méthodes utilisées il y a vingt ans, la génomique moderne a des lectures longues haute fidélité qui sont précises à 99,9 %, de meilleurs outils d’assemblage du génome et des algorithmes plus puissants qui permettent mieux de distinguer les pièces de puzzle d’apparence similaire les unes des autres. »
Avec des outils mis à jour et une détermination renouvelée, Jarvis et d’autres scientifiques ont pu aider à terminer ce que le projet du génome humain a commencé et décrire, enfin, un génome humain vraiment complet – ses régions euchromatiques révisées et ses régions hétérochromatiques en plein écran.
« C’est un gros problème », dit Jarvis. « Chaque paire de bases d’un génome humain est maintenant complète. »
Rencontre avec Merfin
Le vaisseau amiral La science L’étude a été menée par le consortium Telomere-to-Telomere (T2T), un groupe de chercheurs de diverses institutions universitaires et du NIH. La contribution du laboratoire Jarvis, publiée dans Méthodes naturellesimpliquait de fournir des outils pour aider T2T à affiner les séquences génomiques désordonnées afin de produire des séquences sans erreur.
L’un de ces outils est Merfin, qu’ils ont utilisé pour nettoyer certaines des séquences les plus difficiles du génome humain. « Les génomes que nous générons en laboratoire peuvent contenir de nombreuses erreurs », explique Giulio Formenti, postdoctorant dans le laboratoire de Jarvis qui a développé Merfin. « Si même une ou quelques paires de bases sont erronées, cela peut avoir de grandes conséquences sur la précision globale de la séquence génomique. » Merfin permet de tester la précision d’une séquence, en détectant le code qui peut être déplacé et en corrigeant automatiquement les erreurs. Parce que les technologies qui génèrent des séquences modernes sont plus précises, Merfin est réservé aux seuls cas les plus délicats.
« Les étendues de paires de bases identiques, telles que AAA, sont difficiles à évaluer pour la technologie existante », déclare Formenti. « Il y a souvent des erreurs dans ces séquences, même maintenant. Merfin les corrige. »
Jarvis et Formenti espèrent que leur contribution aidera non seulement à nouer un arc sur le projet du génome humain, mais aussi à éclairer la recherche sur les maladies liées au génome hétérochromatique, dont le principal est le cancer, qui est associé à des anomalies du centromère. Les cellules cancéreuses se divisent sauvagement lorsque certains gènes hétérochromatiques du centromère sont surexprimés, et une compréhension complète du génome du centromère peut ouvrir la porte à de nouvelles thérapies.
« Nous creusons enfin dans ce que nous appelions autrefois l’ADN indésirable, parce que nous ne pouvions pas le comprendre ou le regarder avec précision », déclare Formenti. « Nous savons maintenant que de nombreuses maladies sont liées à des répétitions structurelles dans le centromère et, maintenant que ces séquences ne manquent plus dans le génome de référence humain, nous pouvons commencer à cartographier les origines de ces maladies. »
Les autres co-auteurs de l’étude Merfin sont : Arang Rhie, Brian P. Walenz, Françoise Thibaud-Nissen, Kishwar Shafin, Sergey Koren, Eugene W. Myers et Adam M. Phillippy.
Sergey Nurk et al, La séquence complète d’un génome humain, La science (2022). DOI : 10.1126/science.abj6987. www.science.org/doi/10.1126/science.abj6987