Les chercheurs d’UVA Health ont développé un nouvel outil important pour aider les scientifiques à trier le signal du bruit lorsqu’ils sondent les causes génétiques du cancer et d’autres maladies. En plus de faire avancer la recherche et d’accélérer potentiellement de nouveaux traitements, le nouvel outil pourrait contribuer à améliorer le diagnostic du cancer en facilitant la détection des cellules cancéreuses par les médecins.
Développé par Chongzhi Zang, Ph.D., d’UVA, et son équipe et ses collaborateurs, le nouvel outil est un modèle mathématique qui aidera à assurer l’intégrité des « big data » sur les éléments constitutifs de nos chromosomes, le matériel génétique appelé chromatine. La chromatine, une combinaison d’ADN et de protéines, joue un rôle important dans la direction de l’activité de nos gènes. Lorsque la chromatine tourne mal, elle peut transformer une cellule saine en cancer ou contribuer à d’autres maladies.
Les scientifiques peuvent désormais étudier la chromatine dans des cellules individuelles à l’aide d’une technologie de pointe appelée « ATAC-seq à cellule unique », mais cela génère une énorme quantité de données, y compris beaucoup de bruit et de biais. Le nouvel outil de Zang résout ce problème, sauvant les scientifiques des fausses pistes et des efforts inutiles.
Dans le meilleur des cas, la recherche à grande échelle sur la génomique unicellulaire revient à « chercher une aiguille dans une botte de foin », déclare Zang. Mais son nouvel outil facilitera grandement les choses en éliminant beaucoup de mauvais foin.
« En utilisant la manière traditionnelle d’analyser les données, vous pourriez voir certains modèles qui ressemblent à de vrais signaux d’un état de chromatine particulier, mais ils sont en fait faux en raison du biais de la technologie expérimentale elle-même. De tels faux signaux peuvent dérouter les scientifiques », a déclaré Zang, biologiste informatique au Centre de génomique de la santé publique de l’UVA et au Centre de cancérologie de la santé UVA. « Nous avons développé un modèle pour mieux capturer et filtrer ces faux signaux, afin que la vraie aiguille que nous recherchons puisse plus facilement se démarquer du foin. »
À propos de l’outil de génomique
Le nouvel outil de Zang adapte un modèle de la théorie des nombres et de la cryptologie appelé « encodage simplex ». Lui et ses collègues l’ont utilisé pour coder des séquences d’ADN sous des formes mathématiques et, finalement, convertir la séquence complexe du génome en une forme mathématique beaucoup plus simple. Ils peuvent ensuite comparer différentes formes pour détecter les biais et le bruit dans les données de séquence qui ne peuvent pas être trouvés facilement à l’aide d’approches conventionnelles.
« La complexité des séquences d’ADN augmente de façon exponentielle lorsqu’elles s’allongent. Elles sont difficiles à modéliser car un ensemble de données typique contient des millions de séquences provenant de milliers de cellules », a déclaré Shengen Shawn Hu, Ph.D., chercheur au laboratoire de Zang et au auteur principal de cet ouvrage. « Mais le modèle de codage simplex peut donner une estimation précise des biais de séquence en raison de sa belle propriété mathématique. »
Les tests de l’outil ont montré qu’il était nettement meilleur pour analyser des données complexes sur une seule cellule afin de caractériser différents types de cellules. Ceci est important à la fois pour la recherche fondamentale en biologie et pour le diagnostic des maladies, dans lesquelles les médecins doivent détecter un nombre infime de cellules malades dans des échantillons beaucoup plus grands, allant de dizaines de milliers à des millions de cellules.
« Les biais n’étaient pas faciles à trouver car ils étaient enchevêtrés avec des signaux réels et cachés dans les mégadonnées. Ce n’est peut-être pas grave si les gens ne choisissent que les signaux les plus forts à partir d’un grand nombre de cellules », a déclaré Zang, qui a récemment co-dirigé plusieurs autres recherches en génomique unicellulaire dans l’étude de la maladie coronarienne et du développement intestinal.
« Mais lorsque vous regardez des données unicellulaires, il n’y a plus de fruits à portée de main. Les signaux sont toujours faibles au niveau de la cellule individuelle, et l’effet du bruit et des biais peut être catastrophique. La correction des biais est souvent ignorée mais peut être vital dans l’analyse des données unicellulaires. »
Pour rendre leur nouvel outil largement disponible, les chercheurs ont créé un logiciel libre et open source et l’ont mis en ligne. Le logiciel est disponible sur GitHub.
« Nous espérons que cet outil pourra bénéficier à la communauté de la recherche biomédicale dans l’étude de la biologie et de la génomique de la chromatine, et éventuellement aider la recherche sur les maladies », a déclaré Zang. « C’est toujours excitant de voir nos pairs utiliser les outils que nous avons développés pour faire d’importantes découvertes scientifiques dans leurs propres recherches. »
Les chercheurs ont publié leurs découvertes dans Communication Nature.
Plus d’information:
Shengen Shawn Hu et al, Estimation du biais intrinsèque pour une meilleure analyse des profils d’accessibilité de la chromatine en vrac et unicellulaires à l’aide de SELMA, Communication Nature (2022). DOI : 10.1038/s41467-022-33194-z
Logiciel: github.com/zang-lab/SELMA et à doi.org/10.5281/zenodo.7048767