Imaginez un corps humain virtuel, riche en complexité et en détails, qui permet aux scientifiques de simuler des expériences qui ne peuvent être menées in vivo ou in vitro. Une équipe de chercheurs chinois a rapproché cette vision de la réalité en développant un cadre pour l’assemblage transparent de données centrées sur les cellules et a construit l’Atlas cellulaire d’ensemble humain (hECA) à l’aide de données collectées à partir d’ensembles de données publics dispersés.
Ils ont présenté leur cadre informatique unifié dans une étude publiée le 28 avril dans iScience. hECA a également apporté une contribution historique à l’intégration de données unicellulaires humaines provenant de plusieurs sources et à la réalisation d’analyses en aval, qui ont été publiées dans Biologie quantitative le 4 juillet.
« Les études de cas de l’hECA ont démontré la révolution qu’un tel atlas cellulaire centré sur les cellules peut apporter à la recherche biomédicale », a déclaré l’auteur de l’étude Xuegong Zhang de l’Université Tsinghua.
Le développement rapide des technologies de séquençage unicellulaire, en particulier une méthode de séquençage d’ARN connue sous le nom de transcriptomique unicellulaire, a permis aux scientifiques de profiler des cellules individuelles et d’examiner quels gènes sont activés dans différents types de cellules.
Des scientifiques du monde entier sont engagés dans la construction d’atlas à résolution unicellulaire de tous les différents types de cellules dans des projets tels que l’Atlas des cellules humaines (HCA) et le programme d’atlas biomoléculaire humain. Mais il existe encore une certaine incertitude quant à la manière dont un atlas cellulaire doit être défini et assemblé.
« Le point clé de l’assemblage de l’atlas cellulaire est l’organisation des informations cellulaires », a déclaré Zhang.
Depuis le lancement du projet HCA en 2017, de nombreux articles sur les atlas cellulaires ont été publiés, et la plupart d’entre eux sont des collections d’une grande variété de données unicellulaires documentées et indexées projet par projet. Des études antérieures ont fait valoir que la cartographie cellulaire consiste à créer un squelette tridimensionnel du corps humain et à assembler simplement les cellules observées dans leurs positions correspondantes. Cependant, un corps humain est trop complexe pour ce type d’assemblage.
Au lieu de cela, « l’assemblage d’un atlas cellulaire devrait transmettre la nature multiforme des données et permettre aux utilisateurs de rechercher avec des conditions personnalisées parmi différentes méthodes d’indexation », a déclaré Zhang.
Entre-temps, des quantités massives de données transcriptomiques unicellulaires se déversent dans le domaine public à partir de collaborations multi-institutionnelles, générant des pétaoctets de données couvrant tous les principaux organes humains adultes ainsi que les étapes clés du développement ou pathologiques.
Pour l’équipe de Zhang, ces données unicellulaires publiques dispersées ont suggéré une approche alternative pour construire un atlas cellulaire : commencer de bas en haut en assemblant des données provenant de plusieurs sources.
Pour assembler des données de cette échelle provenant de sources multiples dans un atlas d’ensemble, les chercheurs ont développé un cadre informatique unifié, qui comprenait une infrastructure de base de données spéciale pour stocker des données unicellulaires avec une dimensionnalité et un volume ultra-élevés, ainsi qu’un cadre d’annotation hiérarchique unifié. pour rendre les étiquettes de type cellulaire de différents ensembles de données comparables et cohérentes. Les chercheurs ont également conçu une interface de programmation d’applications pour récupérer efficacement les cellules dans l’atlas.
Avec ces technologies, l’équipe a développé trois nouveaux schémas pour appliquer l’atlas assemblé. Premièrement, ils ont activé le tri des cellules de données pour sélectionner des cellules à partir du corps humain virtuel de cellules assemblées à l’aide de combinaisons flexibles d’expressions logiques. Ils ont créé un système de « portrait quantitatif » pour représenter l’information complète des gènes, des types de cellules et des organes. Ils ont également créé une création de référence personnalisable permettant aux utilisateurs de personnaliser leurs références pour les tâches d’annotation de type de cellule.
Les chercheurs ont mené une série d’expériences pour vérifier et illustrer la qualité et la facilité d’utilisation des données assemblées dans de multiples scénarios d’application. Les exemples de cas comprenaient l’étude des médicaments hors cible – les conséquences biologiques involontaires d’un médicament – dans tout le corps, ce qui a démontré la puissance de l’atlas cellulaire d’ensemble pour ouvrir de nouvelles possibilités dans la recherche biomédicale.
Selon l’étude, ce type de tri dans les cellules de données peut révéler d’importants schémas spécifiques aux organes et aider les scientifiques à déterminer les organes les plus sensibles aux effets secondaires de la pharmacothérapie ciblée.
Les chercheurs ont développé des stratégies et des technologies pour intégrer davantage de données de haute qualité provenant d’autres ensembles de données complets et continueront d’améliorer et de mettre à jour les futures versions de l’hECA.
Plus d’information:
Chenwei Li et al, Intégration de données unicellulaires humaines provenant de plusieurs sources, Biologie quantitative (2022). DOI : 10.15302/J-QB-022-0304. journal.hep.com.cn/qb/EN/10.15302/J-QB-022-0304
Sijie Chen et al, hECA : L’assemblage centré sur la cellule d’un atlas cellulaire, iScience (2022). DOI : 10.1016/j.isci.2022.104318
Fourni par la presse de l’enseignement supérieur