Auf dem Weg vom Gen zum Protein kann ein entstehendes RNA-Molekül auf verschiedene Weise geschnitten und verbunden oder gespleißt werden, bevor es in ein Protein übersetzt wird. Dieser Vorgang, der als alternatives Spleißen bekannt ist, ermöglicht es einem einzelnen Gen, mehrere verschiedene Proteine zu codieren. Alternatives Spleißen findet in vielen biologischen Prozessen statt, etwa wenn Stammzellen zu gewebespezifischen Zellen heranreifen. Im Zusammenhang mit Krankheiten kann alternatives Spleißen jedoch fehlreguliert sein. Daher ist es wichtig, das Transkriptom zu untersuchen – also alle RNA-Moleküle, die möglicherweise von Genen abstammen –, um die Grundursache einer Erkrankung zu verstehen.
In der Vergangenheit war es jedoch schwierig, RNA-Moleküle in ihrer Gesamtheit zu „lesen“, da sie normalerweise Tausende von Basen lang sind. Stattdessen haben sich die Forscher auf die sogenannte Short-Read-RNA-Sequenzierung verlassen, bei der RNA-Moleküle aufgebrochen und in viel kürzere Stücke sequenziert werden – je nach Plattform und Protokoll zwischen 200 und 600 Basen. Computerprogramme werden dann verwendet, um die vollständigen Sequenzen von RNA-Molekülen zu rekonstruieren.
Die Short-Read-RNA-Sequenzierung kann hochgenaue Sequenzierungsdaten liefern, mit einer niedrigen Fehlerrate pro Base von etwa 0,1 % (was bedeutet, dass eine Base pro 1.000 sequenzierten Basen falsch bestimmt wird). Aufgrund der kurzen Länge der Sequenzierungs-Reads sind die Informationen, die es liefern kann, jedoch begrenzt. In vielerlei Hinsicht ist die Short-Read-RNA-Sequenzierung so, als würde man ein großes Bild in viele Puzzleteile zerlegen, die alle dieselbe Form und Größe haben, und dann versuchen, das Bild wieder zusammenzusetzen.
Vor kurzem sind „Long-Read“-Plattformen verfügbar geworden, die RNA-Moleküle mit einer Länge von über 10.000 Basen Ende-zu-Ende sequenzieren können. Diese Plattformen erfordern kein Aufbrechen von RNA-Molekülen, bevor sie sequenziert werden, aber sie haben eine viel höhere Fehlerrate pro Base, typischerweise zwischen 5 % und 20 %. Diese wohlbekannte Einschränkung hat die weitverbreitete Einführung von Long-Read-RNA-Sequenzierung stark behindert. Insbesondere die hohe Fehlerquote hat es schwierig gemacht, die Gültigkeit neuer, bisher unbekannter RNA-Moleküle zu bestimmen, die bei einem bestimmten Zustand oder einer bestimmten Krankheit entdeckt wurden.
Um dieses Problem zu umgehen, haben Forscher des Children’s Hospital of Philadelphia (CHOP) ein neues Computertool entwickelt, mit dem RNA-Moleküle aus diesen fehleranfälligen, lang gelesenen RNA-Sequenzierungsdaten genauer entdeckt und quantifiziert werden können. Das Werkzeug, genannt ESPRESSO (Error Statistics PRomoted Evaluator of Splice Site Options), wurde heute in berichtet Wissenschaftliche Fortschritte.
„Die Long-Read-RNA-Sequenzierung ist eine leistungsstarke Technologie, die es uns ermöglichen wird, RNA-Variationen bei seltenen genetischen Krankheiten und anderen Erkrankungen wie Krebs aufzudecken“, sagte Yi Xing, Ph.D., Direktor des Zentrums für Computational and Genomic Medicine bei CHOP und leitender Autor der Studie.
„Wir befinden uns wahrscheinlich an einem Wendepunkt in der Art und Weise, wie wir RNA-Moleküle entdecken und analysieren. Der Übergang von der Short-Read- zur Long-Read-RNA-Sequenzierung stellt eine aufregende technologische Transformation dar, und Computerwerkzeuge, die Long-Read-RNA-Sequenzierungsdaten zuverlässig interpretieren, werden dringend benötigt .“
ESPRESSO kann verschiedene RNA-Moleküle desselben Gens – bekannt als RNA-Isoformen – genau erkennen und quantifizieren, indem allein fehleranfällige, lang gelesene RNA-Sequenzierungsdaten verwendet werden. Dazu vergleicht das Computertool alle langen RNA-Sequenzierungs-Reads eines bestimmten Gens mit seiner entsprechenden genomischen DNA und verwendet dann die Fehlermuster einzelner langer Reads, um zuverlässig Spleißstellen zu identifizieren – Stellen, an denen das entstehende RNA-Molekül geschnitten und verbunden wurde –sowie ihre entsprechenden RNA-Isoformen voller Länge.
Durch das Auffinden von Bereichen perfekter Übereinstimmungen zwischen langen RNA-Sequenzierungs-Reads und genomischer DNA sowie durch das Ausleihen von Informationen über alle langen RNA-Sequenzierungs-Reads eines Gens ist das Tool in der Lage, hochzuverlässige Spleißverbindungen und RNA-Isoformen zu identifizieren, einschließlich solcher, die es nicht waren zuvor in bestehenden Datenbanken dokumentiert.
Die Forscher bewerteten die Leistung von ESPRESSO anhand von simulierten Daten und Daten von echten biologischen Proben. Sie fanden heraus, dass ESPRESSO sowohl bei der Entdeckung von RNA-Isoformen als auch bei deren Quantifizierung besser abschneidet als mehrere derzeit verfügbare Tools. Die Forscher generierten und analysierten auch über 1 Milliarde lange RNA-Sequenzierungs-Reads, die 30 menschliche Gewebetypen und drei menschliche Zelllinien abdecken und eine nützliche Ressource für die Untersuchung menschlicher Transkriptomvariationen bei der Auflösung von RNA-Isoformen in voller Länge darstellen.
„ESPRESSO adressiert ein seit langem bestehendes Problem der Long-Read-RNA-Sequenzierung und könnte neue Entdeckungsmöglichkeiten eröffnen“, sagte Dr. Xing. „Wir stellen uns vor, dass ESPRESSO ein nützliches Werkzeug für Forscher sein wird, um das RNA-Repertoire von Zellen in verschiedenen biomedizinischen und klinischen Umgebungen zu erforschen.“
Mehr Informationen:
Yuan Gao et al, ESPRESSO: Robuste Entdeckung und Quantifizierung von Transkript-Isoformen aus fehleranfälligen lang gelesenen RNA-seq-Daten, Wissenschaftliche Fortschritte (2023). DOI: 10.1126/sciadv.abq5072. www.science.org/doi/10.1126/sciadv.abq5072