Une nouvelle étude révèle des détails sur 20 souches de souris consanguines diverses

Une equipe de recherche internationale cree des composes azotes jusque la

L’achèvement du génome humain complet « télomère à télomère » (T2T) l’année dernière a souligné que les séquences du génome que l’on pensait auparavant « complètes » n’étaient en fait pas complètes du tout.

De plus, de nombreux génomes récents sont séquencés avec des technologies de séquençage à lecture courte, qui fragmentent l’ADN en segments courts, généralement de 150 à 300 paires de bases, et sont ensuite comparés à une séquence de référence. Bien que rapides, précises et relativement économiques, les méthodologies à lecture courte manquent régulièrement de grandes parties du génome, environ 10 % au total. Les segments manquants comprennent des régions à forte teneur en G/C et des séquences répétitives, y compris des duplications segmentaires, des répétitions simples et des éléments transposables (TE).

Les TE sont des séquences répétitives qui se sont déplacées vers d’autres emplacements du génome, et la mobilité de ces séquences contribue grandement à la variation génomique. Les séquences répétitives sous-tendent fréquemment la formation de variants structurels (SV) – différences génomiques résultant de duplications, insertions, délétions et inversions. Les SV sont souvent manqués lors de l’utilisation d’un séquençage à lecture courte (en particulier ceux médiés par des répétitions), mais ils peuvent jouer un rôle important dans la dérégulation du génome et la maladie.

Les chercheurs se sont tournés vers le séquençage à lecture longue pour analyser plus complètement les génomes, car ces technologies permettent le séquençage de segments d’ADN beaucoup plus longs et peuvent capturer avec précision une image plus complète d’un génome. Les progrès récents ont amélioré la précision et l’utilité de la lecture à long terme, permettant aux chercheurs d’étudier des caractéristiques génomiques non détectées auparavant, et pas seulement chez l’homme.

Jackson Laboratory (JAX) et la professeure adjointe du centre de santé de l’Université du Connecticut Christine Beck, Ph.D., ont dirigé une équipe qui a exploré les génomes d’une autre espèce notable, la souris, et a révélé des détails sur 20 souches consanguines diverses qui seront essentielles pour informer la recherche en génétique et génomique basée sur la souris va de l’avant.

Variation structurelle entre les souches de souris

Les souris ont leur propre génome de référence, appelé GRCm39, basé sur la séquence de C57BL/6J, une souche de la sous-espèce Mus musculus domesticus. Mais de nombreuses souches de souris de laboratoire couramment utilisées proviennent également de deux autres sous-espèces, Mus musculus castaneus et Mus musculus musculus, et il existe de nombreuses différences génétiques entre les différentes souches consanguines.

Pour les travaux présentés dans « Resolution of structural variation in diverse mouse genomes uses chromatin remodeling due to transposable elements », publié dans Génomique cellulairele Dr Beck a sélectionné une grande variété de souches couramment utilisées, y compris les sept parents fondateurs des panels de souris génétiquement diverses Collaborative Cross (CC) et Diversity Outbred (DO), six souches CC résultantes présentant des anomalies d’origine génétique inconnue et sept autres souches couramment utilisées avec des antécédents génétiques différents.

Ardian Ferraj, étudiant diplômé et auteur principal de l’étude, a ensuite assemblé les génomes de ces 20 souris, et utilisé ces séquences pour identifier les SV présents chez les animaux qui différenciaient leurs génomes de celui de la référence C57BL/6J. En utilisant PAV, un programme développé par le Dr Peter Audano, membre du laboratoire Beck, Ardian a montré que les SV sont répandus dans les génomes de souris et contribuent largement à la variation génomique. En fait, les SV contiennent près de cinq fois le nombre de bases affectées par rapport aux variantes de nucléotide unique publiées précédemment provenant de divers génomes de souris.

Ils ont également trouvé une bien plus grande diversité de SV entre les génomes de souris qu’entre les génomes humains, ce qui suggère qu’un seul génome de référence de souris est insuffisant pour cartographier les données génomiques entre les souches de souris. Il est important de noter que le séquençage à lecture longue est essentiel pour capturer cette variation. Sur 18 des souches de souris, l’équipe de recherche a détecté 213 688 insertions supplémentaires, 64 277 suppressions et 97 inversions avec des lectures longues par rapport aux données à lecture courte.

Éléments transposables et conséquences des variations structurelles

Alors que seul un petit nombre d’ET sont encore capables de se mobiliser dans les génomes humains, ils sont plus mobiles chez les souris. Pour cette raison, Beck et son équipe se sont concentrés sur les variantes d’éléments transposables (TEV), qui, selon eux, représentaient près de 40 % de tous les SV, la plupart (60 %) étant des insertions. Il existe plusieurs types de TEV, connus sous le nom d’éléments nucléaires intercalés courts ou longs (SINE et LINE), qui sont caractérisés de manière prévisible par leur taille. Les LINE étaient presque deux fois plus fréquentes que les SINE dans les génomes de souris, 47 % à 24 %.

En raison de leur taille, les LINE contribuent également à près de la moitié du contenu des séquences variables dans les génomes de souris, contre seulement 24 % pour les SV non-TEV et 2,1 % pour les SINE. Diverses séquences rétrovirales endogènes ont généré les 28 % restants de TEV. Les rétrovirus sont des virus à ARN dont les génomes sont rétrotranscrits en ADN, qui est ensuite inséré dans le génome. Alors que de nombreux rétrovirus actuels sont associés à des maladies telles que le sida et le cancer, les génomes de mammifères normaux contiennent de grandes quantités d’ADN dérivé de rétrovirus au cours des millénaires, connus sous le nom de rétrovirus endogènes ou ERV, qui contribuent à la variation génomique chez la souris.

Quelles sont donc les conséquences possibles de toutes ces variations et activités génomiques ? Les chercheurs ont examiné les SV dans le contexte des caractéristiques génomiques connues et de la gravité prédite des effets. Parmi les SV nouvellement détectés dans les séquences de gènes, la grande majorité (94 863) se trouvaient dans les introns, les séquences qui sont séparées des pré-ARNm afin qu’elles ne modifient pas la structure des protéines ; 1 469 se trouvaient dans les segments non traduits (UTR) à chaque extrémité du gène ; et 510 dans les séquences de codage de protéines réelles.

Ils ont également identifié une insertion d’élément rétroviral non détectée auparavant dans un gène spécifique, Mutyh, un gène de réparation de l’ADN associé à une signature mutationnelle connue dans certaines souches de souris. La variante sous-jacente était inconnue, mais l’équipe a découvert que l’insertion était associée à une diminution significative de l’expression du gène Mutyh. La découverte montre que des SV inconnus peuvent modifier des régions génomiques importantes et résider dans des gènes associés à des traits pertinents pour la santé et la fonction, y compris la maladie.

Enfin, en collaboration avec la chercheuse de Jax, la Dre Laura Reinholdt, l’équipe a étudié l’impact des ET sur les différences de cellules souches embryonnaires. Les TE favorisent la diversité du génome et leur variation peut modifier des aspects importants de l’expression des gènes entre les souches. En effet, l’étude a trouvé plus de 22 000 TEV associés à des changements significatifs dans l’accessibilité de la chromatine des cellules souches, un régulateur clé de l’expression génique, à travers les cellules souches embryonnaires de 10 souches de souris génétiquement diverses.

Se concentrant à nouveau sur un exemple spécifique, ils ont étudié une insertion intronique spécifique à la souche (CAST/EiJ) dans le gène Slc47a2, qui était accompagnée d’un signal d’accessibilité à la chromatine unique à la souche. Ils ont trouvé des niveaux élevés d’expression de Slc47a2 par rapport aux souches dépourvues de l’insertion, avec un transcrit spécifique à la souche et une région de liaison possible pour un facteur de pluripotence, indiquant des rôles importants pour les TEV dans le développement précoce.

Une compréhension plus complète

Compte tenu de l’importance de la souris en tant que modèle pour la génétique des mammifères et les maladies humaines, il est nécessaire de bien comprendre les conséquences fonctionnelles de la variation génomique. La détection et la caractérisation complètes des SV entre les génomes de souches de souris sont un élément crucial de cette compréhension, et les résultats et les données générés par le Dr Beck et ses collaborateurs constituent un pas en avant important pour le domaine.

Les auteurs ont produit une ressource SV résolue en séquence, une ressource d’expression de cellules souches embryonnaires de souris et des données d’accessibilité de la chromatine pour la communauté de recherche qui peuvent aider à approfondir les recherches sur l’évolution de la souris et les traits d’intérêt sous-jacents de la génomique.

Plus d’information:
Christine R. Beck, La résolution de la variation structurelle dans divers génomes de souris révèle un remodelage de la chromatine dû à des éléments transposables, Génomique cellulaire (2023). DOI : 10.1016/j.xgen.2023.100291. www.cell.com/cell-genomics/ful … 2666-979X(23)00057-5

Fourni par Jackson Laboratory

ph-tech