Stellen Sie sich vor, Sie würden die genaue Endreihenfolge des Kentucky Derby anhand eines Standbilds vorhersagen, das 10 Sekunden nach Beginn des Rennens aufgenommen wurde.
Diese Herausforderung verblasst im Vergleich zu dem, vor dem Forscher stehen, wenn sie mit der Einzelzell-RNA-Sequenzierung (scRNA-seq) untersuchen, wie sich Embryonen entwickeln, Zellen differenzieren, Krebs entsteht und das Immunsystem reagiert.
In ein Artikel, der heute in veröffentlicht wurde Verfahren der Nationalen Akademie der WissenschaftenForscher der UChicago Pritzker School of Molecular Engineering und der Chemieabteilung haben TopicVelo entwickelt, eine leistungsstarke neue Methode zur Nutzung der statischen Snapshots von scRNA-seq, um zu untersuchen, wie sich Zellen und Gene im Laufe der Zeit verändern.
Das Team verfolgte einen interdisziplinären, kollaborativen Ansatz und integrierte Konzepte aus dem klassischen maschinellen Lernen, der Computerbiologie und der Chemie.
„In Bezug auf unbeaufsichtigtes maschinelles Lernen verwenden wir eine sehr einfache, gut etablierte Idee. Und in Bezug auf das Transkriptionsmodell, das wir verwenden, ist es auch eine sehr einfache, alte Idee. Aber wenn man sie zusammenfügt, ergeben sie etwas Stärkeres.“ als Sie vielleicht erwarten würden“, sagte Samantha Riesenfeld, Assistenzprofessorin für Molekulartechnik und Medizin am PME, die die Arbeit zusammen mit Prof. Suriyanarayanan Vaikuntanathan vom Fachbereich Chemie und ihrem gemeinsamen Studenten, UChicago Chemistry Ph.D., verfasst hat. Kandidat Cheng Frank Gao.
Das Problem mit der Pseudozeit
Forscher verwenden scRNA-seq, um leistungsstarke und detaillierte Messungen zu erhalten, die jedoch von Natur aus statisch sind.
„Wir haben TopicVelo entwickelt, um Zellzustandsübergänge aus scRNA-seq-Daten abzuleiten“, sagte Riesenfeld. „Das ist mit dieser Art von Daten schwer zu erreichen, weil scRNA-seq destruktiv ist. Wenn man die Zelle auf diese Weise misst, zerstört man die Zelle.“
Dies hinterlässt den Forschern eine Momentaufnahme des Augenblicks, in dem die Zelle gemessen/zerstört wurde. Während scRNA-seq den besten verfügbaren transkriptomweiten Schnappschuss liefert, benötigen viele Forscher jedoch Informationen darüber, wie sich die Zellen bewegen im Laufe der Zeit. Sie müssen wissen, wie eine Zelle krebsartig wird oder wie sich ein bestimmtes Genprogramm bei einer Immunantwort verhält.
Um dynamische Prozesse anhand einer statischen Momentaufnahme herauszufinden, verwenden Forscher traditionell die sogenannte „Pseudozeit“. Es ist unmöglich, in einem Standbild zu beobachten, wie sich die Expression einer einzelnen Zelle oder eines einzelnen Gens verändert und wächst, aber dieses Bild erfasst auch andere Zellen und Gene desselben Typs, die im selben Prozess möglicherweise etwas weiter fortgeschritten sind. Wenn die Wissenschaftler die Punkte richtig verbinden, können sie aussagekräftige Erkenntnisse darüber gewinnen, wie der Prozess im Laufe der Zeit aussieht.
Die Verbindung dieser Punkte ist schwierig zu erraten und basiert auf der Annahme, dass sich ähnlich aussehende Zellen lediglich an unterschiedlichen Punkten auf demselben Weg befinden. Die Biologie ist viel komplizierter, mit Fehlstarts, Stopps, Ausbrüchen und mehreren chemischen Kräften, die an jedem Gen zerren.
Anstelle herkömmlicher Pseudozeit-Ansätze, die die Expressionsähnlichkeit zwischen den Transkriptionsprofilen von Zellen untersuchen, untersuchen RNA-Geschwindigkeitsansätze die Dynamik der Transkription, des Spleißens und des Abbaus der mRNA innerhalb dieser Zellen.
Es ist eine vielversprechende, aber frühe Technologie.
„Die anhaltende Kluft zwischen dem Versprechen und der Realität der RNA-Geschwindigkeit hat ihre Anwendung weitgehend eingeschränkt“, schreiben die Autoren in dem Artikel.
Um diese Lücke zu schließen, legt TopicVelo deterministische Modelle beiseite und nutzt ein weitaus schwierigeres stochastisches Modell, das die unausweichliche Zufälligkeit der Biologie widerspiegelt, und gewinnt daraus Erkenntnisse.
„Wenn man über Zellen nachdenkt, sind sie von Natur aus zufällig“, sagte Gao, der Erstautor der Studie. „Sie können Zwillinge oder genetisch identische Zellen haben, die sehr unterschiedlich werden. TopicVelo führt die Verwendung eines stochastischen Modells ein. Wir sind in der Lage, die zugrunde liegende Biophysik in den Transkriptionsprozessen, die für die mRNA-Transkription wichtig sind, besser zu erfassen.“
Maschinelles Lernen zeigt den Weg
Das Team erkannte auch, dass eine andere Annahme die Standard-RNA-Geschwindigkeit begrenzt. „Die meisten Methoden gehen davon aus, dass alle Zellen im Grunde das gleiche große Genprogramm exprimieren, aber man kann sich vorstellen, dass Zellen verschiedene Arten von Prozessen gleichzeitig und in unterschiedlichem Ausmaß durchführen müssen“, sagte Riesenfeld. Diese Prozesse zu entwirren ist eine Herausforderung.
Die probabilistische Themenmodellierung – ein maschinelles Lerntool, das traditionell zur Identifizierung von Themen aus schriftlichen Dokumenten verwendet wird – lieferte dem UChicago-Team eine Strategie. TopicVelo gruppiert scRNA-seq-Daten nicht nach Zell- oder Gentypen, sondern nach den Prozessen, an denen diese Zellen und Gene beteiligt sind. Die Prozesse werden aus den Daten abgeleitet und nicht durch externes Wissen vorgegeben.
„Wenn man sich ein Wissenschaftsmagazin anschaut, ist es nach Themen wie ‚Physik‘, ‚Chemie‘ und ‚Astrophysik‘ usw. organisiert“, sagte Gao. „Wir haben dieses Organisationsprinzip auf Einzelzell-RNA-Sequenzierungsdaten angewendet. Jetzt können wir unsere Daten nach Themen wie „ribosomale Synthese“, „Differenzierung“, „Immunantwort“ und „Zellzyklus“ organisieren. Und das können wir.“ Passen Sie stochastische Transkriptionsmodelle an, die für jeden Prozess spezifisch sind.
Nachdem TopicVelo dieses Durcheinander von Prozessen entwirrt und nach Themen organisiert hat, wendet es Themengewichte wieder auf die Zellen an, um zu berücksichtigen, wie viel Prozent des Transkriptionsprofils jeder Zelle an welcher Aktivität beteiligt ist.
Laut Riesenfeld „hilft uns dieser Ansatz, die Dynamik verschiedener Prozesse zu betrachten und ihre Bedeutung in verschiedenen Zellen zu verstehen. Und das ist besonders nützlich, wenn es Verzweigungspunkte gibt oder wenn eine Zelle in verschiedene Richtungen gezogen wird.“
Die Ergebnisse der Kombination des stochastischen Modells mit dem Themenmodell sind bemerkenswert. TopicVelo war beispielsweise in der Lage, Flugbahnen zu rekonstruieren, für deren Wiederherstellung bisher spezielle experimentelle Techniken erforderlich waren. Diese Verbesserungen erweitern die potenziellen Anwendungen erheblich.
Gao verglich die Ergebnisse der Arbeit mit der Arbeit selbst – dem Produkt vieler Studien- und Fachgebiete.
„Wenn Sie an der PME ein Chemieprojekt haben, ist die Wahrscheinlichkeit groß, dass ein Physik- oder Ingenieurstudent daran arbeitet“, sagte er. „Es ist nie nur Chemie.“
Mehr Informationen:
Cheng Frank Gao et al., Dissektion und Integration der Burst-Transkriptionsdynamik für komplexe Systeme, Verfahren der Nationalen Akademie der Wissenschaften (2024). DOI: 10.1073/pnas.2306901121