Die Vervollständigung des vollständigen „Telomer-zu-Telomer“ (T2T)-Humangenoms im vergangenen Jahr hat deutlich gemacht, dass Genomsequenzen, die zuvor als „vollständig“ galten, in Wirklichkeit überhaupt nicht vollständig waren.
Darüber hinaus werden viele neuere Genome mit Short-Read-Sequenzierungstechnologien sequenziert, die DNA in kurze Segmente fragmentieren, typischerweise 150–300 Basenpaare lang, und dann mit einer Referenzsequenz verglichen werden. Während schnelle, genaue und relativ kostengünstige Short-Read-Methoden routinemäßig große Teile des Genoms übersehen, insgesamt etwa 10 %. Die fehlenden Segmente umfassen Regionen mit hohem G/C-Gehalt und repetitive Sequenzen, einschließlich segmentaler Duplikationen, einfacher Wiederholungen und transponierbarer Elemente (TEs).
TEs sind repetitive Sequenzen, die sich an andere Stellen im Genom bewegt haben, und die Mobilität dieser Sequenzen trägt stark zur genomischen Variation bei. Repetitive Sequenzen unterliegen häufig der Bildung struktureller Varianten (SVs) – genomischer Unterschiede, die aus Duplikationen, Insertionen, Deletionen und Inversionen resultieren. SVs werden oft übersehen, wenn Short-Read-Sequenzierung verwendet wird (insbesondere solche, die durch Repeats vermittelt werden), aber sie können eine wichtige Rolle bei Genom-Dysregulation und Krankheiten spielen.
Forscher haben sich der Long-Read-Sequenzierung zugewandt, um Genome vollständiger zu analysieren, da diese Technologien die Sequenzierung weitaus längerer DNA-Segmente ermöglichen und ein vollständigeres Bild eines Genoms genau erfassen können. Jüngste Fortschritte haben die Long-Read-Genauigkeit und -Nützlichkeit verbessert, sodass Forscher bisher unentdeckte genomische Merkmale untersuchen können, und zwar nicht nur beim Menschen.
Jackson Laboratory (JAX) und University of Connecticut Health Center Assistant Professor Christine Beck, Ph.D., leiteten ein Team, das die Genome einer anderen bemerkenswerten Art, der Maus, untersuchte und Details über 20 verschiedene Inzuchtstämme enthüllte, die für die Information von entscheidender Bedeutung sein werden mausbasierte Genetik- und Genomforschung schreitet voran.
Strukturelle Unterschiede zwischen Mausstämmen
Mäuse haben ihr eigenes Referenzgenom, bekannt als GRCm39, basierend auf der Sequenz von C57BL/6J, einem Stamm der Unterart Mus musculus domesticus. Aber viele häufig verwendete Labormausstämme stammen auch von zwei anderen Unterarten ab, Mus musculus castaneus und Mus musculus musculus, und es gibt viele genetische Unterschiede zwischen verschiedenen Inzuchtstämmen.
Für die Arbeit, die in „Resolution of Structural Variation in diverse Mouse Genomes Reveals Chromatin Remodeling due to Transposable Elements“ vorgestellt wird, veröffentlicht in Zellgenomikwählte Dr. Beck eine Vielzahl häufig verwendeter Stämme aus, darunter die sieben elterlichen Gründer der genetisch vielfältigen Collaborative Cross (CC)- und Diversity Outbred (DO)-Mauspanels, sechs resultierende CC-Stämme mit Anomalien unbekannter genetischer Herkunft und sieben weitere häufig verwendete Stämme mit unterschiedlichen genetischen Hintergründen.
Ardian Ferraj, ein Doktorand und Hauptautor der Studie, stellte dann die Genome dieser 20 Mäuse zusammen und verwendete diese Sequenzen, um in den Tieren vorhandene SVs zu identifizieren, die ihre Genome von denen der C57BL/6J-Referenz unterschieden. Unter Verwendung von PAV, einem Programm, das von Beck-Labormitglied Dr. Peter Audano entwickelt wurde, zeigte Ardian, dass SVs in Mausgenomen weit verbreitet sind und umfassend zur genomischen Variation beitragen. Tatsächlich enthalten SVs im Vergleich zu zuvor veröffentlichten Einzelnukleotidvarianten aus verschiedenen Mausgenomen fast fünfmal so viele betroffene Basen.
Sie fanden auch eine viel größere Vielfalt von SVs zwischen Mausgenomen als zwischen menschlichen Genomen, was darauf hindeutet, dass ein einzelnes Maus-Referenzgenom nicht ausreicht, um genomische Daten über Mausstämme hinweg abzubilden. Wichtig ist, dass die Long-Read-Sequenzierung für die Erfassung dieser Variation von entscheidender Bedeutung ist. Bei 18 der Mausstämme entdeckte das Forschungsteam zusätzliche 213.688 Insertionen, 64.277 Deletionen und 97 Inversionen mit Long-Reads im Vergleich zu Short-Read-Daten.
Transponierbare Elemente und strukturelle Variationsfolgen
Während im menschlichen Genom nur noch wenige TEs mobilisieren können, sind sie in Mäusen mobiler. Aus diesem Grund konzentrierten sich Beck und ihr Team auf transponierbare Elementvarianten (TEVs), die ihrer Meinung nach fast 40 % aller SVs ausmachten, wobei die meisten (60 %) Insertionen waren. Es gibt mehrere Arten von TEVs, die als kurze versus lange eingestreute Kernelemente (SINEs und LINEs) bekannt sind, die vorhersagbar durch ihre Größe gekennzeichnet sind. LINEs waren fast doppelt so häufig wie SINEs in den Mausgenomen, 47 % bis 24 %.
Aufgrund ihrer Größe tragen LINEs auch fast die Hälfte des Gehalts an variablen Sequenzen in Mausgenomen bei, verglichen mit nur 24 %, die von Nicht-TEV-SVs und 2,1 % von SINEs beigesteuert werden. Verschiedene endogene retrovirale Sequenzen erzeugten die verbleibenden 28 % der TEVs. Retroviren sind RNA-Viren, deren Genome revers in DNA transkribiert werden, die dann in das Genom eingefügt wird. Während viele aktuelle Retroviren mit Krankheiten wie AIDS und Krebs in Verbindung gebracht werden, enthalten normale Säugetiergenome große Mengen an DNA, die über Jahrtausende von Retroviren abgeleitet wurden, bekannt als endogene Retroviren oder ERVs, die dazu beitragen, die genomische Variation bei Mäusen voranzutreiben.
Was sind also die möglichen Folgen all dieser genomischen Variationen und Aktivitäten? Die Forscher betrachteten die SVs im Zusammenhang mit bekannten genomischen Merkmalen und prognostizierten die Schwere der Auswirkungen. Unter den neu entdeckten SVs innerhalb von Gensequenzen befand sich die überwiegende Mehrheit (94.863) innerhalb von Introns, den Sequenzen, die aus Prä-mRNAs gespleißt werden, damit sie die Proteinstruktur nicht verändern; 1.469 befanden sich in den untranslatierten Segmenten (UTRs) an beiden Enden des Gens; und 510 innerhalb der tatsächlichen proteincodierenden Sequenzen.
Sie identifizierten auch eine zuvor unentdeckte Insertion eines retroviralen Elements in ein spezifisches Gen, Mutyh, ein DNA-Reparaturgen, das mit einer bekannten Mutationssignatur in bestimmten Mausstämmen assoziiert ist. Die zugrunde liegende Variante war unbekannt, aber das Team stellte fest, dass die Insertion mit einer signifikanten Abnahme der Mutyh-Genexpression verbunden war. Der Befund zeigt, dass unbekannte SV wichtige Genomregionen verändern und in Genen angesiedelt sein können, die mit gesundheits- und funktionsrelevanten Merkmalen, einschließlich Krankheiten, assoziiert sind.
Schließlich untersuchte das Team in Zusammenarbeit mit der Jax-Forscherin Dr. Laura Reinholdt die Auswirkungen von TEs auf embryonale Stammzellunterschiede. TEs fördern die Genomdiversität und ihre Variation kann wichtige Aspekte der Genexpression zwischen Stämmen verändern. Tatsächlich fand die Studie mehr als 22.000 TEVs, die mit signifikanten Veränderungen in der Zugänglichkeit von Stammzellchromatin, einem Schlüsselregulator der Genexpression, über embryonale Stammzellen von 10 genetisch unterschiedlichen Mausstämmen verbunden sind.
Sie konzentrierten sich wiederum auf ein spezifisches Beispiel und untersuchten eine stammspezifische (CAST/EiJ) Intron-Insertion im Gen Slc47a2, die von einem für den Stamm einzigartigen Chromatin-Zugänglichkeitssignal begleitet wurde. Sie fanden eine erhöhte Slc47a2-Expression im Vergleich zu Stämmen ohne Insertion, mit einem stammspezifischen Transkript und einer möglichen Bindungsregion für einen Pluripotenzfaktor, was auf eine wichtige Rolle von TEVs in der frühen Entwicklung hinweist.
Ein vollständigeres Verständnis
Angesichts der Bedeutung der Maus als Modell für die Säugetiergenetik und menschliche Krankheiten ist es notwendig, die funktionellen Folgen der genomischen Variation vollständig zu verstehen. Der umfassende Nachweis und die Charakterisierung von SVs zwischen Mausstammgenomen ist ein entscheidender Teil eines solchen Verständnisses, und die Ergebnisse und Daten, die von Dr. Beck und ihren Mitarbeitern generiert wurden, stellen einen wichtigen Schritt nach vorne für das Gebiet dar.
Die Autoren erstellten eine sequenzaufgelöste SV-Ressource, eine Expressionsressource für embryonale Mausstammzellen und Chromatin-Zugänglichkeitsdaten für die Forschungsgemeinschaft, die weitere Untersuchungen zur Mausevolution und den zugrunde liegenden interessierenden Merkmalen der Genomik unterstützen könnten.
Mehr Informationen:
Christine R. Beck, Auflösung struktureller Variationen in diversen Mausgenomen enthüllt Chromatin-Umbau aufgrund transponierbarer Elemente, Zellgenomik (2023). DOI: 10.1016/j.xgen.2023.100291. www.cell.com/cell-genomics/ful … 2666-979X(23)00057-5