Statistisches Tool findet „Lücken“ in DNA-Datensätzen, die nicht ignoriert werden sollten

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

Ein einfacher statistischer Test zeigt, dass die in der Evolutionsbiologie üblicherweise verwendeten „Lücken“ innerhalb von DNA-Protein- und Sequenzabgleichen im Gegensatz zur derzeitigen Praxis wichtige Informationen über Nukleotid- und Aminosäuresubstitutionen im Laufe der Zeit liefern können. Der Befund könnte besonders relevant für diejenigen sein, die entfernt verwandte Arten untersuchen. Das Werk erscheint in Proceedings of the National Academy of Sciences.

Biologen, die die Evolution studieren, tun dies, indem sie untersuchen, wie sich DNA- und Proteinsequenzen im Laufe der Zeit verändern. Diese Änderungen können Sequenzlängenänderungen sein – wenn bestimmte Nukleotide an bestimmten Positionen entfernt oder hinzugefügt werden – oder Substitutionen, bei denen ein Nukleotidtyp an einem bestimmten Punkt gegen einen anderen Typ ausgetauscht wird.

„Stellen Sie sich die DNA-Sequenz und ihre Entwicklung als einen Satz vor, der im Laufe der Zeit von verschiedenen Menschen kopiert wird“, sagt Jeff Thorne, Professor für Biowissenschaften und Statistik an der NC State und Co-Korrespondenzautor der Studie. „Mit der Zeit ändert sich ein Buchstabe in einem Wort – das ist eine Substitution. Das Weglassen oder Hinzufügen von Buchstaben oder Wörtern entspricht Streichungen oder Einfügungen.“

Der erste Schritt, den Analysten normalerweise durchführen, wenn sie sich evolutionäre DNA-Veränderungen ansehen, besteht darin, ein Sequenz-Alignment zu konstruieren. Das bedeutet, herauszufinden, wie alle Sequenzen einander entsprechen, und dann diese entsprechenden Positionen zum Vergleich in Spalten auszurichten. Aufgrund von Substitutionen, Insertionen und Deletionen können jedoch Nukleotidtypen innerhalb von Spalten zwischen den Sequenzen variieren oder ganz fehlen. Wenn eine Sequenz kein entsprechendes Nukleotid hat, wird in der Ausrichtungsspalte für diese Sequenz eine Lücke eingefügt.

„Herkömmlicherweise werden bei der Verwendung von Sequenz-Alignments zur Durchführung von Analysen die Lücken innerhalb von Alignment-Spalten als fehlende Daten behandelt, die keine Informationen über die Substitutionen liefern“, sagt Thorne. „In der Vergangenheit ist die Forschungsgemeinschaft davon ausgegangen, dass die Lückenorte unabhängig vom Substitutionsprozess sind. Aber was, wenn diese Annahme falsch ist?“

Thorne und seine Kollegen erstellten einen einfachen statistischen Test, um zu beurteilen, ob Lückenpositionen unabhängig vom Aminosäureaustauschprozess sind. Sie testeten 1390 verschiedene Sätze von Sequenzabgleichen und stellten fest, dass in ungefähr zwei Dritteln der Sätze die übliche Annahme der Unabhängigkeit zwischen Lückenpositionen und Aminosäureaustausch abgelehnt wurde.

„Eine Möglichkeit ist, dass Lückenstellen nützliche Informationen über den Austauschprozess von Aminosäuren liefern“, sagt Thorne. „Wenn ja, sollten Evolutionsbiologen bessere Techniken entwickeln, um diese Informationen zu extrahieren.“

Die Forschung veranschaulichte auch, wie problematisch der übliche Ansatz sein kann, eine Sequenzausrichtung zu konstruieren und dann evolutionäre Schlussfolgerungen auf dieser einzigen optimalen Ausrichtung zu stützen. Was ist, wenn die Ausrichtung falsch ist? Noch schlimmer, was ist, wenn die Ausrichtung voreingenommen ist?

Wenn beispielsweise Substitutionen häufiger auftreten als Lücken, neigen Forscher dazu, beim Aufbau des Sequenzalignments wiederholt Substitutionen statt Lücken zu wählen, und das resultierende Alignment kann insgesamt zu wenige Lücken enthalten. Und während diese kleinen Fehler bei der Ausrichtung zwischen eng verwandten Arten die Ergebnisse höchstwahrscheinlich nicht beeinflussen, kann diese Verzerrung im Laufe der Zeit – und insbesondere bei Vergleichen zwischen verschiedenen Arten – zu Fehlern führen, die sich auf nachfolgende Analysen auswirken könnten.

„Manchmal sind unsere besten Vermutungen voreingenommen“, sagt Tae-Kun Seo, leitender Forschungswissenschaftler am Korea Polar Research Institute und Mitautor der Studie. „Es gibt keine einfache Lösung, aber hoffentlich hilft uns diese Studie, potenzielle Fallstricke zu berücksichtigen. Wir müssen uns der Probleme mit herkömmlichen statistischen Methoden bewusst sein und daran arbeiten, sie zu beheben.“

Ben Redelings, Forschungswissenschaftler an der Duke University und der University of Kansas, trug ebenfalls zu der Arbeit bei.

Mehr Informationen:
Korrelationen zwischen Ausrichtungslücken und Nukleotidsubstitution oder Aminosäureaustausch“, Proceedings of the National Academy of Sciences (2022). DOI: 10.1073/pnas.2204435119

Bereitgestellt von der North Carolina State University

ph-tech