Le séquençage de l’ADN a changé la biologie comme rien d’autre depuis l’origine de la théorie des espèces. En particulier, la façon dont nous étudions la vie microbienne a fondamentalement changé. Aujourd’hui, nous sommes capables de séquencer l’ADN avec une vitesse et une résolution sans précédent, de sorte que nous sommes même capables de séquencer des génomes de microbes qui n’ont jamais été décrits ou cultivés auparavant. Dans le même temps, le séquençage du génome entier des espèces connues, les plus pathogènes, est devenu une méthodologie de routine pratiquée quotidiennement dans le monde entier.
Ceci, à son tour, augmente constamment le nombre de séquences stockées publiquement, qui deviennent à la fois un trésor et un obstacle. Pour de nombreuses analyses informatiques basées sur des séquences, des annotations complètes et approfondies du génome jouent un rôle crucial en tant que point de départ commun. Et cela a longtemps été perçu comme un problème résolu.
Mais, l’afflux quotidien de nouvelles séquences de génomes et de gènes dans les bases de données publiques pose de nouveaux problèmes pour l’annotation rapide des génomes microbiens. En particulier, la recherche de gènes codant pour des protéines similaires ou identiques est devenue un problème de recherche bioinformatique à grande échelle comme une aiguille dans une botte de foin – une botte de foin étonnamment grande, de nos jours.
Dans ce contexte, nous sommes confrontés à deux évolutions diamétralement opposées. D’une part, les bases de données publiques sont inondées de séquences de protéines similaires et quasi identiques. Par exemple, ceux-ci incluent ceux de la plus haute importance comme les gènes de résistance aux antimicrobiens et les facteurs de virulence – des séquences qui peuvent être croisées avec des tonnes d’informations utiles provenant de nombreuses bases de données publiques. D’autre part, d’innombrables nouvelles séquences émergent des projets de métagénome de séquençage de ce que l’on appelle souvent la matière noire microbienne. Cependant, pour bon nombre de ces séquences, aucune information supplémentaire n’est disponible.
Deux défis bioinformatiques distincts découlent de cette situation : premièrement, l’identification exacte des séquences connues, et deuxièmement, la description fonctionnelle des séquences rares ou même inconnues, toutes deux de l’ordre de centaines de millions. Pour relever ces défis, nous avons essayé une stratégie de hachage de séquences de protéines sans alignement couplée à deux étapes d’alignement de séquences hiérarchiques comme nouvelle approche de ce problème. Notre travail a été publié dans la revue Génomique microbienne.
Pour identifier exactement les séquences de protéines connues, nous avons utilisé une fonction de hachage qui mappe les données d’entrée de longueurs arbitraires sur des empreintes digitales binaires de taille fixe. Ces fonctions de hachage sont bien connues des calculs dits de somme de contrôle en raison d’une caractéristique importante : elles sont extrêmement rapides à calculer, beaucoup plus rapides que les alignements de séquences traditionnels.
Pour tirer parti de cela, nous avons créé une base de données locale compacte avec des empreintes digitales de hachage de plus de 220 millions de séquences de protéines. Dans un deuxième temps, nous avons pré-assigné des annotations de haute qualité et des liens croisés vers d’autres bases de données externes. Il convient de noter que ces calculs exigeants à grande échelle ne sont nécessaires qu’une seule fois à l’étape de compilation de la base de données que nous effectuons régulièrement lors des nouvelles versions. Pour le processus d’annotation du génome proprement dit, nous pouvons utiliser ce stockage d’informations dense au moment de l’exécution et ainsi réaliser des identifications de séquences exactes et des recherches ultra-rapides d’informations connexes.
Nous avons également réduit les besoins globaux de stockage à un tiers, même si des informations d’annotation riches supplémentaires sont incluses, telles que des symboles de gènes, des numéros EC, des termes GO, des produits protéiques et des accès à des bases de données externes. Ces informations sont une ressource précieuse pour connecter les séquences disponibles avec des séquences connexes stockées dans des bases de données publiques.
Chose intéressante, cette approche sans alignement a également permis d’éviter considérablement les alignements coûteux en calcul qui suivent comme stratégie de recherche de secours pour les séquences non identifiées. Dans un processus hiérarchique en deux étapes, les séquences de protéines restantes ont été recherchées via des alignements de séquences traditionnels contre des séquences représentatives de groupes de protéines. Tout d’abord, plus de 99 millions de grappes de protéines denses ont été criblées pour les correspondances, suivies d’une deuxième recherche utilisant des seuils plus assouplis pour cribler plus de 13 millions de grappes plus larges.
Les effets d’exécution potentiellement négatifs de ces énormes bases de données de grappes de protéines ont été atténués par l’approche décrite d’identification de séquence sans alignement. Enfin, toutes les informations d’annotation pour les séquences protéiques identifiées et les clusters associés ont été combinées en donnant la priorité aux informations spécifiques sur les informations plus générales.
Cette approche hiérarchique fait partie d’un flux de travail d’annotation plus large comprenant également l’annotation des caractéristiques d’ARN et d’ADN non codantes, par exemple, les ARNt, les ARNr, les ARNnc, les réseaux CRISPR, l’origine des réplications et bien d’autres. Bakta est disponible en tant qu’outil de ligne de commande et en tant que service Web évolutif sur https://bakta.computational.bio
Cette histoire fait partie Boîte de dialogue Science Xoù les chercheurs peuvent rapporter les résultats de leurs articles de recherche publiés. Visitez cette page pour plus d’informations sur ScienceX Dialog et comment participer.
Plus d’information:
Oliver Schwengers et al, Bakta : annotation rapide et standardisée des génomes bactériens via l’identification de séquences sans alignement, Génomique microbienne (2021). DOI : 10.1099/mgen.0.000685
Oliver Schwengers est chercheur postdoctoral en bioinformatique microbienne au département de bioinformatique et de biologie des systèmes de la JLU Giessen. Ses activités de recherche portent sur l’analyse et la caractérisation de génomes bactériens et de plasmides à partir de données de séquençage du génome entier ainsi que sur le développement d’outils logiciels de bioinformatique entièrement automatisés et évolutifs. Il aime collaborer régulièrement avec des chercheurs en microbiologie médicale, environnementale et spatiale de manière interdisciplinaire.