Depuis le séquençage du premier génome microbien en 1995, les scientifiques ont reconstitué la composition génomique de centaines de milliers de micro-organismes et ont même mis au point des méthodes permettant de recenser les communautés bactériennes sur la peau, dans l’intestin ou dans le sol, l’eau et ailleurs. sur des échantillons globaux, conduisant à l’émergence d’un domaine d’étude relativement nouveau appelé métagénomique.
L’analyse des données métagénomiques peut être une tâche ardue, un peu comme essayer d’assembler plusieurs puzzles massifs avec toutes les pièces mélangées. Relevant ce défi informatique unique, Santiago Segarra, expert en intelligence artificielle (IA) graphique de l’Université Rice, et le biologiste informatique Todd Treangen se sont associés pour explorer comment l’analyse de données basée sur l’IA pourrait aider à créer de nouveaux outils pour dynamiser la recherche en métagénomique.
Le duo de scientifiques s’est concentré sur deux types de données qui rendent l’analyse métagénomique particulièrement difficile – les répétitions et les variantes structurelles – et a développé des outils pour gérer ces types de données qui surpassent les méthodes actuelles.
Les répétitions sont des séquences d’ADN identiques se produisant de manière répétée à la fois dans le génome d’un organisme unique et dans plusieurs génomes d’une communauté d’organismes.
« L’ADN d’un échantillon métagénomique provenant de plusieurs organismes peut être représenté sous forme de graphique », a déclaré Segarra, professeur adjoint de génie électrique et informatique.
« Essentiellement, l’un des outils que nous avons développés exploite la structure de ce graphique afin de déterminer quels morceaux d’ADN apparaissent de manière répétée soit à travers les microbes, soit au sein du même micro-organisme. »
Baptisée GraSSRep, la méthode combine l’apprentissage auto-supervisé, un processus d’apprentissage automatique dans lequel un modèle d’IA s’entraîne à distinguer les entrées cachées et disponibles, et des réseaux de neurones graphiques, des systèmes qui traitent les données représentant les objets et leurs interconnexions sous forme de graphiques.
Le papierégalement disponible sur le arXiv preprint server, a été présenté lors de la 28e session d’une conférence internationale annuelle sur la recherche en biologie moléculaire computationnelle, RECOMMANDATION 2024. Le projet a été dirigé par Ali Azizpour, étudiant diplômé de Rice et assistant de recherche. Advait Balaji, ancien élève du doctorat de Rice, est également l’un des auteurs de l’étude.
Les répétitions sont intéressantes car elles jouent un rôle important dans les processus biologiques tels que la réponse bactérienne aux changements de leur environnement ou l’interaction des microbiomes avec les organismes hôtes. Un exemple spécifique d’un phénomène dans lequel les répétitions peuvent jouer un rôle est la résistance aux antibiotiques.
De manière générale, le suivi de l’histoire ou de la dynamique des répétitions dans un génome bactérien peut éclairer les stratégies d’adaptation ou d’évolution des micro-organismes. De plus, les répétitions peuvent parfois être en fait des virus déguisés ou des bactériophages. Tiré du mot grec signifiant « dévorer », les phages sont parfois utilisés pour tuer les bactéries.
« Ces phages ressemblent en fait à des répétitions, vous pouvez donc suivre la dynamique bactérie-phage en fonction des répétitions contenues dans les génomes », a déclaré Treangen, professeur agrégé d’informatique.
« Cela pourrait fournir des indices sur la façon de se débarrasser des bactéries difficiles à tuer, ou donner une image plus claire de la façon dont ces virus interagissent avec une communauté bactérienne. »
Auparavant, lorsqu’une approche basée sur des graphiques était utilisée pour effectuer une détection répétée, les chercheurs utilisaient des spécifications prédéfinies pour déterminer ce qu’il fallait rechercher dans les données graphiques. Ce qui distingue GraSSRep de ces approches antérieures est l’absence de paramètres ou de références prédéfinis informant sur la manière dont les données sont traitées.
« Notre méthode apprend à mieux utiliser la structure graphique afin de détecter les répétitions plutôt que de s’appuyer sur l’entrée initiale », a déclaré Segarra. « L’apprentissage auto-supervisé permet à cet outil de s’entraîner lui-même en l’absence de toute vérité terrain établissant ce qui est une répétition et ce qui ne l’est pas. Lorsque vous manipulez un échantillon métagénomique, vous n’avez pas besoin de savoir quoi que ce soit sur ce qu’il contient. là pour l’analyser.
Il en va de même dans le cas d’une autre méthode d’analyse métagénomique co-développée par Segarra et Treangen : détection de variantes structurelles sans référence dans les microbiomes via des graphiques de coassemblage à lecture longue, ou nandou. Leur papier sur le nandou sera présenté au Société internationale de biologie computationnellela conférence annuelle de , qui aura lieu du 12 au 16 juillet à Montréal.
L’auteur principal de l’article est Kristen Curry, ancienne doctorante en informatique de Rice, qui rejoindra le laboratoire de Rayan Chikhi – également co-auteur de l’article – à l’Institut Pasteur de Paris en tant que chercheur postdoctoral. Une version du document est disponible sur le bioRxiv serveur de préimpression.
Alors que GraSSRep est conçu pour gérer les répétitions, le nandou gère les variantes structurelles, qui sont des altérations génomiques de 10 paires de bases ou plus pertinentes pour la médecine et la biologie moléculaire en raison de leur rôle dans diverses maladies, la régulation de l’expression génique, la dynamique évolutive et la promotion de la diversité génétique. au sein des populations et entre les espèces.
« L’identification des variantes structurelles dans les génomes isolés est relativement simple, mais il est plus difficile de le faire dans les métagénomes où il n’existe pas de génome de référence clair pour aider à catégoriser les données », a déclaré Treangen.
Actuellement, l’une des méthodes largement utilisées pour traiter les données métagénomiques consiste à utiliser des génomes assemblés par métagénome ou MAG.
« Ces assembleurs de novo ou guidés par référence sont des outils assez bien établis qui impliquent tout un pipeline opérationnel, la détection répétée ou l’identification de variantes structurelles n’étant que quelques-unes de leurs fonctionnalités », a déclaré Segarra.
« Une chose que nous étudions est de remplacer les algorithmes existants par les nôtres et de voir comment cela peut améliorer les performances de ces assembleurs métagénomiques très largement utilisés. »
Rhea n’a pas besoin de génomes de référence ou de MAG pour détecter les variantes structurelles, et il a surpassé les méthodes reposant sur de tels paramètres prédéfinis lorsqu’il a été testé sur deux métagénomes fictifs.
« Cela était particulièrement visible car nous avons obtenu une lecture beaucoup plus granulaire des données qu’en utilisant des génomes de référence », a déclaré Segarra.
« L’autre chose que nous étudions actuellement est d’appliquer l’outil à des ensembles de données du monde réel et de voir comment les résultats sont liés aux processus biologiques et quelles informations cela pourrait nous donner. »
Treangen a déclaré que GraSSRep et le nandou combinés – en s’appuyant sur des contributions antérieures dans ce domaine – ont le potentiel « de débloquer les règles sous-jacentes de la vie régissant l’évolution microbienne ».
Les projets sont le résultat d’une collaboration de plusieurs années entre les laboratoires Segarra et Treangen.
« Cela est le résultat d’une recherche collaborative pluriannuelle dans différents domaines d’expertise, qui a permis à nos étudiants Ali et Kristen de remettre en question les paradigmes existants et de développer de nouvelles approches pour résoudre les problèmes existants en métagénomique », a déclaré Treangen.
Plus d’information:
Ali Azizpour et al, GraSSRep : apprentissage auto-supervisé basé sur des graphiques pour la détection répétée dans l’assemblage métagénomique, arXiv (2024). DOI : 10.48550/arxiv.2402.09381
Kristen D. Curry et al, Détection de variantes structurelles sans référence dans les microbiomes via des graphiques de coassemblage à lecture longue, bioRxiv (2024). DOI : 10.1101/2024.01.25.577285