L'outil statistique trouve que les "lacunes" dans les ensembles de données ADN ne doivent pas être ignorées

Un test statistique simple montre que, contrairement à la pratique actuelle, les « lacunes » dans les alignements de protéines et de séquences d’ADN couramment utilisés en biologie évolutive peuvent fournir des informations importantes sur les substitutions de nucléotides et d’acides aminés au fil du temps. La découverte pourrait être particulièrement pertinente pour ceux qui étudient des espèces éloignées. L’oeuvre apparaît dans Actes de l’Académie nationale des sciences.

Les biologistes qui étudient l’évolution le font en examinant comment les séquences d’ADN et de protéines changent au fil du temps. Ces changements peuvent être des changements de longueur de séquence – lorsque des nucléotides spécifiques sont supprimés ou ajoutés à certaines positions – ou des substitutions, où un type de nucléotide est échangé contre un type différent à un point donné.

« Pensez à la séquence d’ADN et à son évolution comme une phrase copiée par différentes personnes au fil du temps », explique Jeff Thorne, professeur de sciences biologiques et de statistiques à NC State et auteur co-correspondant de la recherche. « Avec le temps, une lettre dans un mot changera – c’est une substitution. Omettre ou ajouter des lettres ou des mots correspond à des suppressions ou des insertions. »

La première étape que les analystes effectuent généralement lorsqu’ils examinent les modifications évolutives de l’ADN consiste à construire un alignement de séquences. Cela signifie déterminer comment toutes les séquences correspondent les unes aux autres, puis aligner ces positions correspondantes dans des colonnes à des fins de comparaison. Cependant, en raison des substitutions, des insertions et des délétions, les types de nucléotides dans les colonnes peuvent varier d’une séquence à l’autre ou être totalement absents. Lorsqu’une séquence n’a pas de nucléotide correspondant, un espace est placé dans la colonne d’alignement pour cette séquence.

« De manière conventionnelle, lors de l’utilisation d’alignements de séquences pour effectuer des analyses, les lacunes dans les colonnes d’alignement sont traitées comme des données manquantes qui ne fournissent aucune information sur les substitutions », explique Thorne. « Historiquement, la communauté des chercheurs a supposé que les emplacements des lacunes sont indépendants du processus de substitution. Mais que se passe-t-il si cette hypothèse est incorrecte? »

Thorne et ses collègues ont créé un test statistique simple pour évaluer si les emplacements des lacunes sont indépendants du processus de remplacement des acides aminés. Ils ont testé 1390 ensembles différents d’alignements de séquences et ont constaté que dans environ les deux tiers des ensembles, l’hypothèse habituelle d’indépendance entre les emplacements des lacunes et le remplacement des acides aminés était rejetée.

« Une possibilité est que les emplacements des lacunes fournissent des informations utiles sur le processus de remplacement des acides aminés », déclare Thorne. « Si c’est le cas, les biologistes de l’évolution devraient développer de meilleures techniques pour extraire ces informations. »

La recherche a également illustré comment l’approche habituelle consistant à construire un alignement de séquences, puis à fonder des conclusions évolutives sur cet alignement optimal unique peut être problématique. Que faire si l’alignement n’est pas bon ? Pire encore, que se passe-t-il si l’alignement est biaisé ?

Par exemple, si les substitutions se produisent plus souvent que les lacunes, les chercheurs ont tendance à choisir à plusieurs reprises des substitutions plutôt que des lacunes lors de la construction de l’alignement de séquence et l’alignement résultant peut contenir trop peu de lacunes dans l’ensemble. Et même si ces petites erreurs d’alignement entre des espèces étroitement apparentées n’affecteront probablement pas les résultats, au fil du temps, et en particulier dans les comparaisons entre diverses espèces, ce biais peut créer une erreur susceptible d’affecter les analyses ultérieures.

« Parfois, nos meilleures estimations sont biaisées », explique Tae-Kun Seo, chercheur principal à l’Institut de recherche polaire coréen et co-auteur correspondant de la recherche. « Il n’y a pas de solution simple, mais j’espère que cette étude nous aidera à être conscients des pièges potentiels. Nous devons être conscients des problèmes des méthodes statistiques conventionnelles et travailler à les résoudre. »

Ben Redelings, chercheur à l’Université Duke et à l’Université du Kansas, a également contribué aux travaux.

Plus d’information:
Corrélations entre les écarts d’alignement et la substitution de nucléotides ou le remplacement d’acides aminés » Actes de l’Académie nationale des sciences (2022). DOI : 10.1073/pnas.2204435119

Fourni par l’Université d’État de Caroline du Nord

ph-tech

Nous pouvons demander aux tarifs de Trump expropriant les maisons des fonds américains et les expulser des entreprises stratégiques

Un tribunal de Malaga ratifie la prison pour deux des personnes arrêtées pour le meurtre de Paco «El del Molino»

Tarif d’Europe Trump | L’UE est « prêt à répondre » mais prêt à négocier avec les États-Unis pour arrêter l’escalade tarifaire

L’OTAN rejette la prétention de Sanchez d’élargir la définition des dépenses militaires pour se rencontrer 2% sans grand effort

L’outil statistique trouve que les « lacunes » dans les ensembles de données ADN ne doivent pas être ignorées