Neues Multitasking-Deep-Learning-Framework integriert groß angelegte Einzelzell-Proteomik- und Transkriptomik-Daten

Der exponentielle Fortschritt bei Single-Cell-Multi-Omics-Technologien hat zur Anhäufung großer und vielfältiger Multi-Omics-Datensätze geführt. Die Integration von Einzelzell-Proteomik- und Transkriptomik- (oder Epigenomik-)Daten stellt jedoch eine erhebliche Herausforderung für bestehende Methoden dar. Mehrere transformatorbasierte Modelle wie Geneformer haben das Paradigma der Einzelzell-Transkriptomanalyse erheblich verändert. Allerdings stellen diese Methoden erhebliche Anforderungen an die Rechenressourcen.

Um diesen Herausforderungen zu begegnen, haben Forscher am Botanischen Garten Wuhan der Chinesischen Akademie der Wissenschaften eine transformatorbasierte Methode namens scmFormer entwickelt, um groß angelegte Einzelzell-Proteomik- und Transkriptomikdaten mithilfe eines Multitask-Transformators zu integrieren. Die Studie trug den Titel „scmFormer Integrates Large‐Scale Single‐Cell Proteomics and Transcriptomics Data by Multi‐Task Transformer“. veröffentlicht In Fortgeschrittene Wissenschaft.

Die Forscher legten eine umfassende Bewertung vor und erstellten Fallstudien zu dieser Methode. Die Ergebnisse zeigten, dass scmFormer eine bemerkenswerte Kompetenz bei der Harmonisierung groß angelegter Einzelzell-Omics- und Proteomik-Datensätze sowohl auf Zelltyp- als auch auf Zellebene auf feinerem Maßstab mit begrenzten Computerressourcen zeigte.

Darüber hinaus verfügt scmFormer über die Fähigkeit, mehrere gepaarte multimodale Einzelzell-Datensätze zu integrieren, was zu dem doppelten Vorteil geringerer hoher Kosten und verbesserter biologischer Erkenntnisse führt.

Darüber hinaus zeigt scmFormer eine herausragende Fähigkeit, technische Unterschiede zwischen verschiedenen Omics-Modalitäten zu beseitigen und gleichzeitig die den Daten zugrunde liegenden biologischen Informationen zu bewahren, und zwar sowohl über Zelltypen als auch über Versuchsbedingungen.

Die Anwendung von scmFormer zur Integration zweier COVID-19-Datensätze mit 1,48 Millionen Zellen demonstrierte erneut den deutlichen Vorteil von scmFormer bei der Verarbeitung großer Datensätze auf normalen Laptops.

Mehr Informationen:
Jing Fortgeschrittene Wissenschaft (2024). DOI: 10.1002/advs.202307835

Zur Verfügung gestellt von der Chinesischen Akademie der Wissenschaften

ph-tech