Tout comme il est difficile de comprendre une conversation sans connaître son contexte, il peut être difficile pour les biologistes de saisir l’importance de l’expression génique sans connaître l’environnement d’une cellule. Pour résoudre ce problème, des chercheurs de Princeton Engineering ont développé une méthode pour élucider l’environnement d’une cellule afin que les biologistes puissent donner plus de sens aux informations sur l’expression des gènes.
Les chercheurs, dirigés par le professeur d’informatique Ben Raphael, espèrent que le nouveau système ouvrira la porte à l’identification des types de cellules rares et au choix des options de traitement du cancer avec une nouvelle précision. Raphael est l’auteur principal d’un article décrivant la méthode publié le 16 mai dans Méthodes naturelles.
La technique de base consistant à lier l’expression des gènes à l’environnement d’une cellule, appelée transcriptomique spatiale (ST), existe depuis plusieurs années. Les scientifiques décomposent des échantillons de tissus sur une grille à micro-échelle et relient chaque point de la grille avec des informations sur l’expression des gènes. Le problème est que les outils informatiques actuels ne peuvent analyser que les modèles spatiaux d’expression génique en deux dimensions. Les expériences qui utilisent plusieurs tranches d’un seul échantillon de tissu, comme une région d’un cerveau, d’un cœur ou d’une tumeur, sont difficiles à synthétiser en une image complète des types de cellules dans le tissu.
La méthode des chercheurs de Princeton, appelée PASTE (pour Probabilistic Alignment of ST Experiments), intègre les informations de plusieurs tranches prélevées sur le même échantillon de tissu, fournissant une vue tridimensionnelle de l’expression génique dans une tumeur ou un organe en développement. Lorsque la couverture de séquence dans une expérience est limitée en raison de problèmes techniques ou de coût, PASTE peut également fusionner les informations de plusieurs tranches de tissu en une seule tranche de consensus bidimensionnelle avec des informations d’expression génique plus riches.
« Notre méthode a été motivée par l’observation que souvent les biologistes effectueront plusieurs expériences à partir du même tissu », a déclaré Raphael. « Maintenant, ces expériences répétées ne sont pas exactement les mêmes cellules, mais elles proviennent du même tissu et devraient donc être très similaires. »
La technique de l’équipe peut aligner plusieurs tranches d’un seul échantillon de tissu, catégorisant les cellules en fonction de leurs profils d’expression génique tout en préservant l’emplacement physique des cellules dans le tissu.
Le projet a débuté à l’été 2020 après que Max Land, un concentrateur de mathématiques de la promotion 2021 de Princeton, ait suivi le cours de Raphael « Algorithms in Computational Biology ». Enthousiasmé par l’évolution rapide du domaine et l’opportunité d’améliorer la compréhension de la santé et des maladies humaines, Land a approché Raphael pour s’impliquer dans la recherche et a commencé à travailler sur le code pour développer ce qui est devenu la méthode PASTE. Il a été conseillé par Raphael et par l’auteur principal de l’étude Ron Zeira, un ancien chercheur postdoctoral à Princeton qui est maintenant chercheur scientifique à la société de santé de précision Verily.
Le travail était au centre de la thèse principale de Land, et il a coécrit l’article avec Zeira, Raphael et Alexander Strzalkowski, un doctorat en informatique. élève. Maintenant biologiste informatique au Memorial Sloan Kettering Cancer Center à New York, Land a déclaré que le mentorat de Zeira et Raphael avait joué un rôle déterminant dans sa poursuite d’une carrière de chercheur.
L’équipe a développé sa méthode en utilisant des données d’expression génique simulées à partir d’une étude transcriptomique spatiale d’une tumeur du sein, où la correspondance entre les tranches de tissu a été précédemment établie. Ils ont ensuite évalué la méthode sur des données recueillies à partir d’échantillons du cortex préfrontal du cerveau, qui a une structure connue composée de couches de différents types de cellules avec des signatures d’expression génique uniques.
Les chercheurs ont également appliqué PASTE aux données recueillies à partir des biopsies du cancer de la peau de quatre patients différents. Une analyse précédente de ces données avait suggéré un patchwork complexe de types de cellules, avec un degré élevé de cellules cancéreuses et saines entremêlées. La méthode PASTE, cependant, a révélé que la faible cohérence spatiale apparente dans trois des échantillons de patients était probablement due à une faible couverture de séquence dans les expériences. La nouvelle analyse a montré que les cellules étaient regroupées en grappes plus contiguës, un scénario plus plausible sur le plan biologique.
« Après avoir intégré plusieurs de ces tranches et augmenté efficacement la couverture des données, nous obtenons des groupements de cellules plus cohérents dans l’espace, ce qui est plus raisonnable que chaque type de cellule étant positionné au hasard dans le tissu », a déclaré Zeira.
Jusqu’à présent, le plus grand ensemble de données que l’équipe a analysé était un échantillon de tissu cardiaque avec neuf tranches, mais ils ont en vue des expériences sur des embryons de souris qui comprennent plus de 30 tranches. Outre les considérations informatiques, les expériences de transcriptomique spatiale à cette échelle restent coûteuses pour de nombreux laboratoires, a déclaré Raphael.
Pourtant, a-t-il ajouté, « nous espérons que le fait d’avoir un outil comme PASTE encouragera davantage de chercheurs à effectuer des expériences répétées, car ils peuvent désormais utiliser les informations de tranches supplémentaires d’une manière qu’ils ne pouvaient pas facilement faire auparavant ».
Ron Zeira et al, Alignement et intégration des données de transcriptomique spatiale, Méthodes naturelles (2022). DOI : 10.1038/s41592-022-01459-6