Les environnements extrêmes sont codés dans le génome des organismes qui y vivent, suggèrent des recherches

Le génome d’un organisme est un ensemble d’instructions ADN nécessaires à son développement, son fonctionnement et sa reproduction. Le génome d’un organisme actuel contient des informations sur son parcours évolutif qui commence par le « premier ancêtre commun universel » de toute vie sur Terre et culmine avec cet organisme.

Codé en lui-même, le génome d’un organisme contient des informations qui peuvent révéler des liens avec ses ancêtres et ses proches.

Autres dimensions du génome

Nos recherches explorent l’hypothèse selon laquelle le génome d’un organisme pourrait contenir d’autres types d’informations, au-delà de la généalogie ou de la taxonomie. Nous avons demandé : le génome d’un organisme pourrait-il contenir des informations qui nous permettraient de déterminer le type d’environnement dans lequel vit l’organisme ?

Aussi improbable que cela puisse paraître, notre équipe de chercheurs en informatique et en biologie de l’Université de Waterloo et de l’Université Western a découvert que c’était le cas des extrémophiles, des organismes qui vivent et se développent dans des conditions extrêmement difficiles. Ces conditions environnementales vont de la chaleur extrême (plus de 100°C) au froid extrême (en dessous de -12°C), en passant par un rayonnement élevé ou des acidités ou pressions extrêmes.

L’ADN comme langage

Nous avons considéré l’ADN génomique comme un texte écrit dans un « langage ADN ». Un brin d’ADN (ou séquence d’ADN) est constitué d’une succession de unités de base appelées nucléotides, reliés entre eux par un squelette sucre-phosphate. Il existe quatre unités d’ADN différentes : adénine, cytosine, guanine et thymine (A,C,G,T).

Vue de manière abstraite, une séquence d’ADN peut être considérée comme une ligne de texte, écrite avec des « lettres » de « l’alphabet de l’ADN ». Par exemple, « CAT » serait le « mot ADN » de trois lettres correspondant à la séquence d’ADN à trois unités cytosine-adénine-thymine.

Dans les années 1990, on a découvert que compter les occurrences de tels mots d’ADN dans une courte séquence d’ADN extraite du génome d’un organisme, on pourrait identifier l’espèce de l’organisme et le degré de sa relation avec d’autres organismes dans l’évolution « arbre de la vie« .

Le mécanisme de cette identification ou classification d’un organisme basé sur le nombre de mots ADN est similaire au processus qui nous permet de différencier un livre anglais d’un livre français : en prenant une page de chaque livre, on remarque que le texte anglais comporte de nombreuses occurrences de le mot de trois lettres « the », tandis que le texte français contient de nombreuses occurrences du mot de trois lettres « les ».

Notez que le profil de fréquence des mots de chaque livre ne dépend pas de la page particulière que nous avons choisi de lire ni du fait que nous ayons considéré plusieurs pages, une seule page ou un chapitre entier. De même, le profil de fréquence des mots d’ADN dans un génome ne dépend pas de l’emplacement ni de la longueur de la séquence d’ADN sélectionnée pour représenter ce génome.

Le fait que les profils de fréquence des mots ADN puissent agir comme une « signature génomique » d’un organisme était une découverte importante et, jusqu’à présent, on pensait que le profil de fréquence des mots ADN d’un génome contenait uniquement des informations évolutives relatives à l’espèce, au genre, famille, ordre, classe, phylum, royaume ou domaine auquel appartenait l’organisme.

Notre équipe a cherché à savoir si le profil de fréquence des mots ADN d’un génome pouvait révéler d’autres types d’informations, par exemple des informations sur le type d’environnement extrême dans lequel un extrémophile microbien prospère.

Empreintes de l’environnement dans l’ADN extrémophile

Nous avons utilisé un ensemble de données de 700 extrémophiles microbiens vivant dans des températures extrêmes (chaleur ou froid extrême) ou des conditions de pH extrêmes (fortement acide ou alcalin). Nous avons utilisé les deux apprentissage automatique supervisé et apprentissage automatique non supervisé approches informatiques pour tester notre hypothèse.

Dans les deux types de conditions environnementales, nous avons découvert que nous pouvions clairement détecter un signal environnemental indiquant le type d’environnement extrême habité par un organisme particulier.

Dans le cas de l’apprentissage automatique non supervisé, un algorithme « aveugle » a reçu un ensemble de données de séquences d’ADN extrémophiles (et aucune autre information sur leur taxonomie ou leur environnement de vie). Il a ensuite été demandé à l’algorithme de regrouper ces séquences d’ADN en groupes, en fonction des similitudes qu’il pouvait trouver parmi leurs profils de fréquence de mots ADN.

On s’attendait à ce que tous les groupes découverts de cette manière suivent des lignes taxonomiques : bactéries regroupées avec des bactéries et archées regroupées avec des archées. À notre grande surprise, cela n’a pas toujours été le cas et certaines archées et bactéries ont été systématiquement regroupées, quels que soient les algorithmes utilisés.

Le seul point commun évident qui pourrait expliquer qu’ils soient considérés comme similaires par les multiples algorithmes d’apprentissage automatique était qu’ils étaient des extrémophiles amoureux de la chaleur.

Une découverte choquante

Le arbre de la vieun cadre conceptuel utilisé en biologie qui représente les relations généalogiques entre les espèces, comporte trois membres principaux, appelés domaines : bactéries, archées et eucaryas.

Les eucaryotes sont des organismes dotés d’un noyau lié à une membrane et ce domaine comprend les animaux, les plantes, les champignons et les protistes microscopiques unicellulaires. En revanche, les bactéries et les archées sont des organismes unicellulaires qui ne possèdent pas de noyau lié à une membrane contenant le génome. Ce qui distingue les bactéries des archées est la composition de leurs parois cellulaires.

Les trois domaines de la vie sont radicalement différents les uns des autres et, génétiquement, une bactérie est aussi différente d’un archéon qu’un ours polaire (eukarya) l’est d’une E. coli (bactérie).

On s’attendait donc à ce que le génome d’une bactérie et celui d’une archéon soient aussi éloignés que possible dans tout regroupement par n’importe quelle mesure de similarité génomique. Notre découverte de certaines bactéries et archées regroupées, apparemment simplement parce qu’elles sont toutes deux adaptées à la chaleur extrême, signifie que l’environnement de température extrême dans lequel elles vivent a provoqué des changements systémiques omniprésents, à l’échelle du génome, dans leur langage génomique.

Cette découverte revient à découvrir une toute nouvelle dimension du génome, une dimension environnementale, existant en plus de sa dimension taxonomique bien connue.

Impact génomique d’autres environnements

En plus d’être inattendue, cette découverte pourrait avoir des implications sur notre compréhension de l’évolution de la vie sur Terre, ainsi que guider notre réflexion sur ce qu’il faudrait pour vivre dans l’espace.

En effet, nos recherches en cours explorent l’existence d’un signal environnemental dans la signature génomique des extrémophiles résistants aux radiations, tels que Déinocoque radioduransqui peut survivre à une exposition aux radiations, ainsi que froid, déshydratation, conditions de vide et de l’acide, et s’est avéré capable de survivre dans l’espace extra-atmosphérique jusqu’à trois ans.

Fourni par La conversation

Cet article est republié à partir de La conversation sous licence Creative Commons. Lis le article original.

ph-tech