Imaginez prédire l’ordre d’arrivée exact du Kentucky Derby à partir d’une photographie prise 10 secondes après le début de la course.
Ce défi n’est rien en comparaison de ce à quoi les chercheurs sont confrontés lorsqu’ils utilisent le séquençage d’ARN unicellulaire (scRNA-seq) pour étudier comment les embryons se développent, les cellules se différencient, les cancers se forment et le système immunitaire réagit.
Dans un article publié aujourd’hui dans Actes de l’Académie nationale des sciencesdes chercheurs de l’école d’ingénierie moléculaire UChicago Pritzker et du département de chimie ont créé TopicVelo, une nouvelle méthode puissante d’utilisation des instantanés statiques du scRNA-seq pour étudier l’évolution des cellules et des gènes au fil du temps.
L’équipe a adopté une approche interdisciplinaire et collaborative, intégrant des concepts issus de l’apprentissage automatique classique, de la biologie computationnelle et de la chimie.
« En termes d’apprentissage automatique non supervisé, nous utilisons une idée très simple et bien établie. Et en termes de modèle transcriptionnel que nous utilisons, c’est aussi une vieille idée très simple. Mais lorsque vous les rassemblez, ils font quelque chose de plus puissant. que ce à quoi vous pourriez vous attendre », a déclaré Samantha Riesenfeld, professeure adjointe de PME en génie moléculaire et en médecine, qui a rédigé l’article avec le professeur Suriyanarayanan Vaikuntanathan du département de chimie et leur co-étudiant, UChicago Chemistry Ph.D. le candidat Cheng Frank Gao.
Le problème du pseudo-temps
Les chercheurs utilisent scRNA-seq pour obtenir des mesures puissantes et détaillées, mais par nature statiques.
« Nous avons développé TopicVelo pour déduire les transitions d’état cellulaire à partir des données scRNA-seq », a déclaré Riesenfeld. « Il est difficile de faire cela à partir de ce type de données car le scRNA-seq est destructeur. Lorsque vous mesurez la cellule de cette façon, vous la détruisez. »
Cela laisse aux chercheurs un instantané du moment où la cellule a été mesurée/détruite. Bien que scRNA-seq donne le meilleur instantané disponible à l’échelle du transcriptome, les informations dont de nombreux chercheurs ont besoin concernent la manière dont les cellules effectuent la transition. au fil du temps. Ils ont besoin de savoir comment une cellule devient cancéreuse ou comment un programme génétique particulier se comporte lors d’une réponse immunitaire.
Pour aider à comprendre les processus dynamiques à partir d’un instantané statique, les chercheurs utilisent traditionnellement ce qu’on appelle le « pseudo-temps ». Il est impossible de voir l’expression d’une cellule ou d’un gène individuel changer et croître dans une image fixe, mais cette image a également capturé d’autres cellules et gènes du même type qui pourraient être un peu plus avancés dans le même processus. Si les scientifiques relient correctement les points, ils peuvent obtenir des informations précieuses sur l’évolution du processus au fil du temps.
Relier ces points est une conjecture difficile, basée sur l’hypothèse que des cellules d’apparence similaire se trouvent simplement à des points différents le long du même chemin. La biologie est beaucoup plus compliquée, avec des faux départs, des arrêts, des sursauts et de multiples forces chimiques qui tirent sur chaque gène.
Au lieu des approches pseudo-temporelles traditionnelles, qui examinent la similarité d’expression entre les profils transcriptionnels des cellules, les approches de vitesse d’ARN examinent la dynamique de transcription, d’épissage et de dégradation de l’ARNm au sein de ces cellules.
Il s’agit d’une technologie prometteuse mais précoce.
« L’écart persistant entre la promesse et la réalité de la vitesse de l’ARN a largement limité son application », écrivent les auteurs dans l’article.
Pour combler cet écart, TopicVelo met de côté les modèles déterministes, adoptant – et en tirant des enseignements – un modèle stochastique beaucoup plus difficile qui reflète le caractère aléatoire incontournable de la biologie.
« Les cellules, quand on y pense, sont intrinsèquement aléatoires », a déclaré Gao, le premier auteur de l’article. « Vous pouvez avoir des jumeaux ou des cellules génétiquement identiques qui deviendront très différentes. TopicVelo introduit l’utilisation d’un modèle stochastique. Nous sommes en mesure de mieux capturer la biophysique sous-jacente dans les processus de transcription qui sont importants pour la transcription de l’ARNm. »
L’apprentissage automatique montre la voie
L’équipe a également réalisé qu’une autre hypothèse limite la vitesse standard de l’ARN. « La plupart des méthodes supposent que toutes les cellules expriment fondamentalement le même grand programme génétique, mais vous pouvez imaginer que les cellules doivent effectuer différents types de processus simultanément, à des degrés divers », a déclaré Riesenfeld. Démêler ces processus est un défi.
La modélisation thématique probabiliste, un outil d’apprentissage automatique traditionnellement utilisé pour identifier des thèmes à partir de documents écrits, a fourni une stratégie à l’équipe d’UChicago. TopicVelo regroupe les données scRNA-seq non pas par types de cellules ou de gènes, mais par les processus dans lesquels ces cellules et gènes sont impliqués. Les processus sont déduits des données, plutôt qu’imposés par des connaissances externes.
« Si vous regardez un magazine scientifique, il sera organisé autour de sujets tels que « physique », « chimie » et « astrophysique », ce genre de choses », a expliqué Gao. « Nous avons appliqué ce principe d’organisation aux données de séquençage d’ARN unicellulaire. Nous pouvons désormais organiser nos données par thèmes, comme la « synthèse ribosomale », la « différenciation », la « réponse immunitaire » et le « cycle cellulaire ». Et nous pouvons adapter des modèles transcriptionnels stochastiques spécifiques à chaque processus.
Une fois que TopicVelo a démêlé cet ensemble de processus et les a organisés par sujet, il applique des poids de sujet aux cellules, pour tenir compte du pourcentage du profil transcriptionnel de chaque cellule impliqué dans quelle activité.
Selon Riesenfeld, « Cette approche nous aide à examiner la dynamique de différents processus et à comprendre leur importance dans différentes cellules. Et cela est particulièrement utile lorsqu’il existe des points de branchement ou lorsqu’une cellule est tirée dans des directions différentes. »
Les résultats de la combinaison du modèle stochastique avec le modèle thématique sont frappants. Par exemple, TopicVelo a pu reconstruire des trajectoires dont la récupération nécessitait auparavant des techniques expérimentales spéciales. Ces améliorations élargissent considérablement les applications potentielles.
Gao a comparé les conclusions de l’article à l’article lui-même, produit de nombreux domaines d’étude et d’expertise.
« Chez PME, si vous avez un projet en chimie, il y a de fortes chances qu’il y ait un étudiant en physique ou en ingénierie qui y travaille », dit-il. « Ce n’est jamais seulement de la chimie. »
Plus d’information:
Cheng Frank Gao et al, Dissection et intégration de dynamiques transcriptionnelles en rafales pour les systèmes complexes, Actes de l’Académie nationale des sciences (2024). DOI : 10.1073/pnas.2306901121