„Unsichtbare“ Zelltypen und Genexpression werden durch Verbesserung der Sequenzierungsdatenanalyse sichtbar

Im Jahr 2018 machten Forscher im Caltech-Labor von Yuki Oka, Professorin für Biologie und Forscherin am Heritage Medical Research Institute, eine wichtige Entdeckung: Sie identifizierten eine Art Neuron oder Gehirnzelle, die die Durststillung vermittelt. Aber sie stießen auf ein Problem: Eine hochmoderne Technik namens Single-Cell-RNA-Sequenzierung (scRNA-seq) konnte diese durstbezogenen Neuronen in Gehirngewebeproben (insbesondere aus einer Region namens Media) nicht finden präoptischer Kern), von denen bekannt war, dass sie sie enthalten.

„Wir wussten, dass die Genmarkierung, die wir unseren charakterisierten Neuronen hinzugefügt hatten, im mittleren präoptischen Kern des Gehirns exprimiert wurde, aber wir sahen das Gen nicht, als wir diese Region des Gehirns mit scRNA-seq profilierten“, sagt Oka. „Wir haben das von vielen Kollegen gehört – scRNA-seq fehlten Zelltypen und Genexpression, von denen sie wussten, dass sie vorhanden sein sollten. Wir begannen uns zu fragen, warum das so ist.“

Die Identifizierung verschiedener Zelltypen ist entscheidend für das Verständnis der zahlreichen Funktionen unseres Körpers, von gesunden Prozessen wie dem Erkennen von Durst bis hin zu zellulären Fehlfunktionen bei Krankheitszuständen. Beispielsweise suchen viele Forscher derzeit nach Zelltypen, die mit bestimmten Krankheiten wie der Parkinson-Krankheit in Zusammenhang stehen könnten. Für alle diese Studien ist die Bestimmung der genauen Zelltypen, die an solchen Prozessen beteiligt sind, von entscheidender Bedeutung.

Nun hat eine Zusammenarbeit zwischen dem Oka-Labor am Caltech und dem Labor von Allan-Hermann Pool am Southwestern Medical Center der University of Texas gezeigt, wie ein wichtiger Schritt in der scRNA-seq-Analyse optimiert werden kann, um fehlende Zelltypen und Genexpressionsdaten wiederherzustellen, die normalerweise erfasst werden verworfen. Ein Artikel, der die Arbeit beschreibt, erscheint in der Zeitschrift Naturmethoden am 11. September.

„Wir haben die Analyse bestehender hochmoderner Einzelzell-RNA-Sequenzierungsdaten verbessert und die Expression von Hunderten oder manchmal Tausenden von Genen für einzelne Datensätze aufgedeckt“, sagt Oka. „Es ist wichtig, diese Art von Präzision zu ermöglichen, da biologische Prozesse vielfältig und kompliziert sind. Neuere Forschungen haben über 5.000 verschiedene Neuronentypen im Gehirn von Mäusen identifiziert, und das menschliche Gehirn ist vermutlich komplexer. Wir brauchen unsere Techniken, um ebenso empfindlich und empfindlich zu sein.“ so umfassend wie möglich.

Genexpression verstehen

Es gibt Billionen von Zellen in Ihrem Körper, von denen jede die verschiedenen Funktionen ausführt, die es Ihnen ermöglichen, Ihr Leben zu leben – oder in manchen Fällen auch zu Krankheiten führen. Zellen unterscheiden sich durch ihre Funktion voneinander. Beispielsweise suchen und zerstören die Killer-T-Zellen des Immunsystems Krankheitserreger, die Krankheiten verursachen, Neuronen feuern elektrische Signale ab, die der Gehirnfunktion zugrunde liegen, und Hautzellen drängen sich eng zusammen, um eine Barriere gegen die Außenwelt zu bilden. Forscher haben derzeit Tausende verschiedener Zelltypen identifiziert, andere einzigartige Sorten bleiben jedoch wahrscheinlich unentdeckt.

Obwohl sich Zellen in Form und Funktion unterscheiden können, enthalten die meisten Zellen in einem bestimmten Organismus einen identischen genetischen Bauplan – das Genom. Das Genom enthält Anweisungen zur Ausführung jeder zellulären Aufgabe. Die Gene, aus denen das Genom besteht, sind in der DNA geschrieben und befinden sich im Zellkern. Exprimierte Gene werden in RNA kopiert, die aus dem Zellkern in den Rest der Zelle transportiert wird, um dort Funktionen auszuführen.

In jeder Zelle (und jedem Zelltyp) wird zu einem bestimmten Zeitpunkt nur eine bestimmte Untergruppe von Genen exprimiert oder aktiviert. Diese Variationen in der Genexpression führen zu Unterschieden in den Zelltypen.

Stellen Sie sich als Analogie eine riesige Bibliothek mit Büchern vor, die in verschiedene Abschnitte sortiert sind. Wenn Sie ein Flugzeug bauen möchten, schauen Sie sich vielleicht nur die Bücher über Luftfahrt und Mechanik an. Wenn Sie sich für andere Themen interessieren, stöbern Sie in einer anderen Reihe von Büchern. Die Zellen eines einzelnen Organismus unterscheiden sich nicht: Während jede Zelle die gesamte „Bibliothek“ an Genen enthält, werden in der Zelle nur diejenigen Gene aktiviert, die zu den einzigartigen Funktionen einer spezialisierten Zelle gehören.

Verbesserung der Techniken zur Genexpressionsschätzung

scRNA-seq ist eine leistungsstarke Technik zur Identifizierung von Zelltypen. Bei dieser Methode wird eine Zelle aufgebrochen und die darin enthaltenen genetischen Informationen werden mit einem molekularen Tag markiert, der als Barcode dient. scRNA-seq kann dies schnell für Tausende von Zellen in einer einzigen Gewebeprobe tun, wobei jede Zelle ihren eigenen, einzigartigen Barcode erhält. Anschließend kann eine Computeranalyse durchgeführt werden, um zu bestimmen, welche Gensätze in einzelnen Zellen exprimiert werden, und Computermodelle können diese Daten auswerten, um nach Mustern zu suchen und unterschiedliche Zelltypen zu identifizieren.

Ein Problem bei dieser Technik bestand jedoch darin, dass bestimmte RNA-Sequenzierungsdaten häufig nicht in die Genexpressionsschätzungen einbezogen wurden, obwohl sie exprimierte Gene darstellten.

Oka und Kollegen fanden heraus, dass der Grund mit einem Problem mit dem sogenannten Referenztranskriptom zusammenhängt, auf das Forscher Sequenzierungsdaten abbilden. Forscher haben beispielsweise das Mausgenom eingehend untersucht und es sehr detailliert beschriftet oder mit Anmerkungen versehen, wodurch eine digitale Referenz oder ein „Transkriptom“ erstellt wurde, das DNA-Sequenzen und die entsprechenden Gene abbildet.

Die Forscher fanden heraus, dass diese Annotation für scRNA-seq optimiert werden muss, um den Verlust von Genexpressionsinformationen zu verhindern – was beispielsweise dann auftreten kann, wenn die Gene an den hinteren Enden eines DNA-Strangs schlecht oder umfangreich annotiert sind Überlappung zwischen benachbarten Gentranskripten. Solche Komplikationen können den Nachweis Tausender Gene verhindern. (Diese Probleme sind besonders ausgeprägt, wenn Hochdurchsatzformen von scRNA-seq verwendet werden, bei denen aus Kostengründen nur das äußerste Ende von Genen untersucht wird; die meisten Atlanten, die zur Beschreibung der zellulären Komplexität unserer Gewebe erstellt wurden, basieren auf diesen Methoden.)

Präzision und hohe Auflösung sind bei der Identifizierung verschiedener Zelltypen unglaublich wichtig. Angenommen, zwei Zellen exprimieren jeweils die Gene „A“, „B“, „C“ und „D, aber nur eine Zelle exprimiert das Gen „E“, während die andere dies nicht tut. Wenn eine Sequenzierungstechnik die Expression nicht erfasst von „E“, dann würden die Daten darauf hindeuten, dass die beiden Zellen identisch sind, obwohl dies in Wirklichkeit nicht der Fall ist.

Unter der Leitung von Pool, einem ehemaligen Caltech-Postdoktoranden und Erstautor der Studie, optimierte das Team das Referenztranskriptom für das Maus- und das menschliche Genom und baute im Laufe mehrerer Jahre einen Rechenrahmen auf, um die Referenztranskriptome anderer Organismen zu korrigieren.

„Durch die Optimierung von Referenztranskriptomen können wir Zelltypen und -zustände erkennen, die uns sonst verborgen bleiben würden“, sagt Pool. „Zum Beispiel sind wir mit unseren optimierten Referenztranskriptomen jetzt in der Lage, das gesamte Repertoire an durst-, sättigungs- und temperaturempfindlichen Nervenpopulationen in unseren Gehirnregionen zu beobachten, von denen wir vermuteten, dass sie vorhanden wären, die wir aber nicht entdecken konnten. Wir erwarten unsere.“ Der Ansatz wird auch bei der Aufdeckung neuer zellulärer und genetischer Diversität in bestehenden und künftigen Zelltypatlanten für das Gehirn und andere Organe von großem Nutzen sein.“

Der Artikel trägt den Titel „Wiederherstellung fehlender Einzelzell-RNA-Sequenzierungsdaten mit optimierten transkriptomischen Referenzen“. Neben Pool und Oka sind Caltech-Co-Autoren die ehemalige leitende Wissenschaftlerin Sisi Chen und Matt Thomson, Assistenzprofessor für Computerbiologie und Forscher des Heritage Medical Research Institute. Helen Poldsam vom Southwestern Medical Center der University of Texas ist ebenfalls Mitautorin.

Mehr Informationen:
Allan-Hermann Pool et al., Wiederherstellung fehlender Einzelzell-RNA-Sequenzierungsdaten mit optimierten transkriptomischen Referenzen, Naturmethoden (2023). DOI: 10.1038/s41592-023-02003-w

Bereitgestellt vom California Institute of Technology

ph-tech