Eine vollständige Sequenz des menschlichen Genoms wurde endlich von einem internationalen Konsortium von Wissenschaftlern veröffentlicht. Das neue Referenzgenom füllt viele Lücken, die frühere Entwürfe hinterlassen haben, insbesondere bei den Zentromeren in der Mitte von Chromosomen und bei großflächigen Duplikationen.
Die Arbeit wird in einer Reihe von Artikeln beschrieben, die am 1. April in veröffentlicht wurden Wissenschaft vom Telomere-to-Telomere (T2T) Consortium. Eine Reihe von Forschern der University of California, Davis, trugen zu den Studien bei, darunter Megan Dennis, Assistenzprofessorin für Biochemie und Molekularmedizin an der UC Davis School of Medicine und dem MIND Institute, mit Daniela Soto und Colin Shew, den Graduiertenstudenten für Integrative Genetik und Genomik sowie Charles Langley, angesehener Professor für Evolution und Ökologie am UC Davis College of Biological Sciences, zusammen mit seiner Tochter Sasha Langley, Projektwissenschaftlerin an der UC Berkeley.
Die ursprüngliche menschliche Genomsequenz, die 2001 veröffentlicht wurde, ließ etwa acht Prozent der DNA aus, sagte Dennis. Die ausgelassenen Bereiche umfassten nahezu identische Duplikationen, die funktionelle Gene sowie Zentromere und Telomere in der Mitte bzw. an der Spitze der Chromosomen enthielten. Diese Bereiche enthalten lange Folgen wiederholter Sequenzen.
„Dies sind wichtige Regionen, aber schwer zu sequenzieren“, sagte Dennis.
Die Sequenzierung eines Genoms ist ungefähr so, als würde man ein Buch in Textschnipsel zerlegen und dann versuchen, das Buch zu rekonstruieren, indem man sie wieder zusammensetzt. Textabschnitte, die viele gebräuchliche oder sich wiederholende Wörter und Sätze enthalten, lassen sich schwerer an der richtigen Stelle platzieren als einzigartigere Textabschnitte.
Frühere DNA-Sequenzierungstechnologien konnten nur relativ kurze Sequenzsequenzen lesen.
„Ein großer Technologiesprung war die Long-Read-Sequenzierung“, sagte Dennis. Sequenzer der neueren Generation können viel längere Stücke entschlüsseln, bis zu einer Million Basenpaare oder „Buchstaben“ der DNA. Das bedeutet, dass die Chunks viel größer und leichter wieder in die ursprüngliche Reihenfolge zu montieren sind.
„Es ist ein Spielveränderer“, sagte Dennis.
Forscher von UC Davis trugen zu dem Projekt bei, indem sie einige der Long-Read-Sequenzierungen mit Maschinen im Genome Center durchführten und Varianten und duplizierte Sequenzen analysierten.
Das neue Referenzgenom stammt von einer einzigen menschlichen Probe, obwohl es sich nicht genau um eine Person handelt. Die DNA stammte von einer Zelllinie, die aus einem Zellbündel stammte, das als Blasenmole bezeichnet wird. Diese entstehen, wenn eine Eizelle in der Gebärmutter ihr eigenes Genom verliert, aber von einem Spermium befruchtet wird. Die resultierende Zelle hat am Ende zwei identische Kopien jedes Chromosoms, im Gegensatz zu den meisten menschlichen Zellen, die zwei leicht unterschiedliche Kopien tragen. Trotz seines seltsamen Ursprungs gibt es nichts, was auf etwas Außergewöhnliches mit dem Genom der Zelllinie hindeutet, sagte Dennis.
Das Sperma stammte von einer Person europäischer Abstammung. Im Gegensatz dazu wurde das ursprüngliche menschliche Referenzgenom von mehreren Personen zusammengefügt, wodurch einige Fehler und Artefakte entstanden.
Erkundung des Zentromers
Etwa 90 Prozent der neuen Sequenz stammen tatsächlich aus den Zentromeren von Chromosomen, sagte Langley. Diese Regionen sind strukturell unterschiedlich und enthalten lange Abschnitte repetitiver DNA und sind notorisch schwer zu untersuchen.
„Früher haben wir gesagt, dass man junge Genetiker warnen würde, sich nicht in das Zentromer zu wagen, weil man nie wieder herauskommt“, sagte Langley.
Aber heutzutage sind Zentromere ein heißes Thema in der Biologie. Hier setzt die Maschinerie an, die gepaarte Chromosomen während der Meiose – Bildung von Spermien und Eizellen – trennt, ein grundlegender Schritt bei der Vererbung. Es enthält große Mengen an Heterochromatin oder Bereiche, in denen DNA und Proteine kondensierter und kompakter zu sein scheinen.
Genetiker wissen seit Jahrzehnten um Heterochromatin, das als dunkle Flecken in Chromosomen gesehen wird. Jüngste Überlegungen deuten darauf hin, dass Heterochromatin eine wichtige Rolle dabei spielt, wie Gene ein- und ausgeschaltet werden, indem Teile der DNA in eine andere Phase als der Rest des Chromosoms verschoben werden, wie Ölflecken in Wasser. Dies würde effektiv Kompartimente im Zellkern schaffen, in denen bestimmte Gene ein- oder ausgeschaltet werden könnten.
Ein weiteres Mysterium der Zentromere ist, wie und warum sie sich immer an der gleichen Stelle bilden, weil es dafür keinen spezifischen genetischen Code gibt. Sie werden „epigenetisch“ oder außerhalb des Genoms bestimmt. Im Grunde sind Ihre Zentromere dort, wo sie sind, denn dort waren sie in den Spermien und Eizellen, aus denen Sie gezeugt wurden.
Die Langleys und ihre Co-Autoren konnten die Zentromersequenzen aus dem neuen Referenzgenom mit anderen veröffentlichten Sequenzen vergleichen, was den Beweis erbrachte, dass sich menschliche Zentromere tatsächlich ein wenig bewegen können. Dies wurde auch bei anderen Tierarten festgestellt.
„Jetzt können wir besser verstehen, wie diese Dinge passieren“, sagte Langley.
Anwendungen
Der Besitz der ursprünglichen menschlichen Genomsequenz war in den letzten 20 Jahren ein mächtiges Werkzeug für Entdeckungen in den biomedizinischen Wissenschaften. Die neue Referenz wird Forschern helfen, Variationen besser zu verstehen, insbesondere in den Bereichen, die zuvor nicht gut abgedeckt waren, oder mit Fehlern und Artefakten, sagte Dennis.
„Es wird bereits verwendet, um vom 1000 Genomes Project gesammelte Genome erneut zu analysieren und Tausende neuer Varianten zu entdecken und zu verifizieren“, sagte sie. Das 1000-Genome-Projekt ist eine internationale Zusammenarbeit zur Erstellung eines Katalogs menschlicher genetischer Variationen.
Diese neuen, bestätigten genetischen Varianten können dann beispielsweise mit Krankheitszuständen und klinischen Ergebnissen in Verbindung gebracht werden, indem Sequenzierungsdaten von Patienten wie autistischen Personen verwendet werden, sagte Dennis.
Das T2T-Konsortium umfasst 114 Wissenschaftler an 33 Institutionen und wird gemeinsam von Adam Phillippy, NHGRI und Karen Miga, UC Santa Cruz, geleitet.
Sergey Aganezov et al, Ein vollständiges Referenzgenom verbessert die Analyse der menschlichen genetischen Variation, Wissenschaft (2022). DOI: 10.1126/science.abl3533. www.science.org/doi/10.1126/science.abl3533