Als Wissenschaftler vor zwei Jahrzehnten das Human Genome Project für abgeschlossen erklärten, war ihre Ankündigung etwas verfrüht. Ein Meilenstein war sicherlich erreicht, denn Forscher auf der ganzen Welt erhielten Zugang zu den DNA-Sequenzen der meisten proteinkodierenden Gene im menschlichen Genom. Aber selbst nach 20 Jahren Upgrades blieben acht Prozent unseres Genoms immer noch unsequenziert und unerforscht. Von einigen als „Junk-DNA“ ohne klare Funktion verspottet, waren ungefähr 151 Millionen Basenpaare von Sequenzdaten, die über das Genom verstreut waren, immer noch eine Black Box.
Jetzt hat ein großes internationales Team unter der Leitung von Adam Phillippy von den National Institutes of Health die letzten acht Prozent des menschlichen Genoms in einem in veröffentlichten Artikel enthüllt Wissenschaft. Diese lange vermissten Teile unseres Genoms enthalten mehr als nur Schrott. In den neuen Daten befinden sich mysteriöse Taschen nichtkodierender DNA, die kein Protein produzieren, aber dennoch eine entscheidende Rolle bei vielen Zellfunktionen spielen und möglicherweise im Mittelpunkt von Erkrankungen stehen, bei denen die Zellteilung Amok läuft, wie z. B. Krebs.
„Man sollte meinen, dass, da 92 Prozent des Genoms vor langer Zeit fertiggestellt wurden, weitere acht Prozent nicht viel beitragen würden“, sagt Erich D. Jarvis von Rockefeller, ein Co-Autor der Studie, der an der Entwicklung einer Reihe von Techniken mitgewirkt hat, die für die Entschlüsselung des Finales von zentraler Bedeutung sind Teile des menschlichen Genoms. „Aber aus den fehlenden acht Prozent gewinnen wir jetzt ein völlig neues Verständnis dafür, wie sich Zellen teilen, und können so eine Reihe von Krankheiten untersuchen, an die wir vorher nicht herangekommen waren.“
Auf den Schultern des HGP
Das Human Genome Project übergab uns im Wesentlichen die Schlüssel zu Euchromatin, dem Großteil des menschlichen Genoms, das reich an Genen ist, lose verpackt und damit beschäftigt, RNA herzustellen, die später in Protein übersetzt wird. Unangetastet blieb jedoch ein Labyrinth aus eng gewundenem, sich wiederholendem Heterochromatin – ein kleinerer Teil des Genoms, der kein Protein produziert.
Wissenschaftler hatten gute Gründe, Heterochromatin zunächst zu depriorisieren. Die euchromatischen Regionen enthielten mehr Gene und waren einfacher zu sequenzieren. So wie ein Puzzle mit unterschiedlichen Teilen leichter zusammenzusetzen ist als ein Puzzle, das aus ähnlichen zusammengesetzt ist, war die euchromatische DNA für die damaligen Genomik-Tools leichter zu analysieren als ihre sich wiederholende, heterochromatische Cousine.
Infolgedessen blieb den Genetikern eine beträchtliche Lücke in ihrem Wissen darüber, was einige grundlegende Zellfunktionen antreibt. Die heterochromatischen Sequenzen hinter Zentromeren, die an den Chromosomenkreuzen liegen und die Zellteilung durchführen, wurden alle mit langen Folgen von N für „unbekannte Base“ im menschlichen Referenzgenom markiert. Die Sequenzen der kurzen Arme der Chromosomen 13, 14, 15, 21 und 22 wurden ebenfalls weggelassen. „Nicht einmal das gesamte euchromatische Genom wurde richtig sequenziert“, fügt Jarvis hinzu. „Fehler, wie falsche Duplizierungen, mussten behoben werden.“
Dann, vor etwa zehn Jahren, begannen Wissenschaftler mit der Entwicklung neuer Techniken zur Erzeugung längerer Sequenz-Reads, die Lücken im Genom von Menschen und anderen Arten füllten. Eine solche Initiative ist das Vertebrate Genomes Project unter der Leitung von Jarvis, das kürzlich die ersten nahezu fehlerfreien und nahezu vollständigen Referenzgenome für 25 Tiere produzierte. „Diese Studie war Teil einer internationalen Anstrengung, neue Werkzeuge zu entwickeln, die die hochwertigsten Genanordnungen produzieren“, sagt er. „Im Vergleich zu den Methoden, die vor zwanzig Jahren verwendet wurden, verfügt die moderne Genomik über High-Fidelity-Long-Reads, die zu 99,9 Prozent genau sind, bessere Genom-Assemblierungswerkzeuge und leistungsfähigere Algorithmen, die ähnlich aussehende Puzzleteile besser voneinander unterscheiden können.“
Mit aktualisierten Werkzeugen und neuer Entschlossenheit konnten Jarvis und andere Wissenschaftler dazu beitragen, das zu beenden, was das Human Genome Project begonnen hatte, und endlich ein wirklich vollständiges menschliches Genom beschreiben – seine euchromatischen Regionen wurden überarbeitet und seine heterochromatischen Regionen wurden vollständig zur Schau gestellt.
„Es ist eine große Sache“, sagt Jarvis. „Jedes einzelne Basenpaar eines menschlichen Genoms ist jetzt vollständig.“
Merfin treffen
Das Flaggschiff Wissenschaft Die Studie wurde vom Telomere-to-Telomere (T2T) Consortium geleitet, einer Gruppe von Forschern an verschiedenen akademischen Einrichtungen und NIH. Der Beitrag des Jarvis-Labors, veröffentlicht in Naturmethodenbeinhaltete die Bereitstellung von Werkzeugen, die T2T dabei helfen, chaotische Genomsequenzen zu verfeinern, um fehlerfreie Sequenzen zu produzieren.
Eines dieser Werkzeuge ist Merfin, mit dem sie einige der schwierigsten Sequenzen im menschlichen Genom bereinigt haben. „Genome, die wir im Labor erzeugen, können viele Fehler enthalten“, sagt Giulio Formenti, ein Postdoc in Jarvis‘ Labor, der Merfin entwickelt hat. „Wenn auch nur ein oder wenige Basenpaare falsch sind, kann das große Konsequenzen für die Gesamtgenauigkeit der Genomsequenz haben.“ Merfin ermöglicht es, die Genauigkeit einer Sequenz zu testen, Codes zu erkennen, die möglicherweise falsch sind, und Fehler automatisch zu korrigieren. Da die Technologien, die moderne Sequenzen erzeugen, genauer sind, ist Merfin nur für die kniffligsten Fälle reserviert.
„Strecken von identischen Basenpaaren wie AAA sind für die bestehende Technologie schwer zu bewerten“, sagt Formenti. „Es gibt oft Fehler in diesen Sequenzen, selbst jetzt noch. Merfin korrigiert sie.“
Jarvis und Formenti hoffen, dass ihr Beitrag nicht nur dazu beitragen wird, das Humangenomprojekt abzuschließen, sondern auch die Erforschung von Krankheiten, die mit dem heterochromatischen Genom in Verbindung stehen, zu fördern – darunter vor allem Krebs, der mit Zentromeranomalien in Verbindung gebracht wird. Krebszellen teilen sich wild, wenn bestimmte heterochromatische Zentromergene überexprimiert werden, und ein vollständiges Verständnis des Zentromergenoms könnte die Tür zu neuartigen Therapien öffnen.
„Wir graben endlich in dem, was wir einst Junk-DNA nannten, weil wir es nicht verstehen oder genau betrachten konnten“, sagt Formenti. „Wir wissen jetzt, dass viele Krankheiten mit strukturellen Wiederholungen im Zentromer verbunden sind, und jetzt, da diese Sequenzen nicht mehr im menschlichen Referenzgenom fehlen, können wir damit beginnen, die Ursprünge dieser Krankheiten zu kartieren.“
Weitere Co-Autoren der Merfin-Studie sind: Arang Rhie, Brian P. Walenz, Françoise Thibaud-Nissen, Kishwar Shafin, Sergey Koren, Eugene W. Myers und Adam M. Phillippy.
Sergey Nurk et al, Die vollständige Sequenz eines menschlichen Genoms, Wissenschaft (2022). DOI: 10.1126/science.abj6987. www.science.org/doi/10.1126/science.abj6987