Laut einer neuen Studie der Universität Lund in Schweden ist die gebräuchlichste Analysemethode in der Populationsgenetik zutiefst fehlerhaft. Dies kann zu falschen Ergebnissen und Missverständnissen über ethnische Zugehörigkeit und genetische Beziehungen geführt haben. Die Methode wurde in Hunderttausenden von Studien verwendet und beeinflusste die Ergebnisse in der medizinischen Genetik und sogar kommerzielle Abstammungstests. Die Studie ist erschienen in Wissenschaftliche Berichte.
Die Geschwindigkeit, mit der wissenschaftliche Daten gesammelt werden können, steigt exponentiell an, was zu massiven und hochkomplexen Datensätzen führt, die als „Big Data Revolution“ bezeichnet werden. Um diese Daten besser handhabbar zu machen, verwenden Forscher statistische Methoden, die darauf abzielen, die Daten zu komprimieren und zu vereinfachen, während die meisten Schlüsselinformationen erhalten bleiben. Die vielleicht am weitesten verbreitete Methode heißt PCA (Hauptkomponentenanalyse). Stellen Sie sich PCA analog als einen Ofen mit Mehl, Zucker und Eiern als Dateneingabe vor. Der Ofen kann immer das Gleiche tun, aber das Ergebnis, ein Kuchen, hängt entscheidend vom Verhältnis der Zutaten und ihrer Kombination ab.
„Es wird erwartet, dass diese Methode korrekte Ergebnisse liefert, weil sie so häufig verwendet wird. Aber sie ist weder eine Garantie für Zuverlässigkeit noch liefert sie statistisch belastbare Schlussfolgerungen“, sagt Dr. Eran Elhaik, außerordentlicher Professor für molekulare Zellbiologie an der Universität Lund.
Laut Elhaik trug die Methode dazu bei, alte Wahrnehmungen über Rasse und ethnische Zugehörigkeit zu schaffen. Es spielt eine Rolle bei der Erstellung historischer Geschichten darüber, wer und woher Menschen kommen, nicht nur von der wissenschaftlichen Gemeinschaft, sondern auch von kommerziellen Vorfahrenunternehmen. Ein berühmtes Beispiel ist, als ein prominenter amerikanischer Politiker vor der Präsidentschaftskampagne 2020 einen Ahnentest durchführte, um die Behauptungen seiner Vorfahren zu untermauern. Ein weiteres Beispiel ist die falsche Vorstellung von aschkenasischen Juden als Rasse oder isolierte Gruppe, die von PCA-Ergebnissen angetrieben wird.
„Diese Studie zeigt, dass diese Ergebnisse unzuverlässig waren“, sagt Eran Elhaik.
PCA wird in vielen wissenschaftlichen Bereichen eingesetzt, aber Elhaiks Studie konzentriert sich auf die Verwendung in der Populationsgenetik, wo die Explosion der Datensatzgrößen besonders akut ist, was auf die reduzierten Kosten der DNA-Sequenzierung zurückzuführen ist.
Das Gebiet der Paläogenomik, in dem wir etwas über alte Völker und Individuen wie die Europäer der Kupferzeit erfahren möchten, stützt sich stark auf PCA. PCA wird verwendet, um eine genetische Karte zu erstellen, die die unbekannte Probe neben bekannten Referenzproben positioniert. Bisher wurde angenommen, dass die unbekannten Proben mit der Referenzpopulation verwandt sind, die sie überlappen oder der sie auf der Karte am nächsten liegen.
Elhaik entdeckte jedoch, dass die unbekannte Probe praktisch jeder Referenzpopulation nahe kommen konnte, indem man einfach die Anzahl und Art der Referenzproben änderte und praktisch endlose historische Versionen erzeugte, die alle mathematisch „korrekt“ waren, aber nur eine möglicherweise biologisch korrekt war .
In der Studie hat Elhaik die zwölf häufigsten populationsgenetischen Anwendungen von PCA untersucht. Er hat sowohl simulierte als auch echte genetische Daten verwendet, um zu zeigen, wie flexibel PCA-Ergebnisse sein können. Laut Elhaik bedeutet diese Flexibilität, dass Schlussfolgerungen auf der Grundlage von PCA nicht vertraut werden können, da jede Änderung an den Referenz- oder Testproben zu anderen Ergebnissen führen wird.
Zwischen 32.000 und 216.000 wissenschaftliche Artikel in der Genetik allein haben PCA zur Erforschung und Visualisierung von Ähnlichkeiten und Unterschieden zwischen Individuen und Populationen eingesetzt und ihre Schlussfolgerungen auf diesen Ergebnissen gestützt.
„Ich glaube, dass diese Ergebnisse neu bewertet werden müssen“, sagt Elhaik.
Er hofft, dass die neue Studie einen besseren Ansatz zum Hinterfragen von Ergebnissen entwickelt und so dazu beiträgt, die Wissenschaft zuverlässiger zu machen. Er verbrachte einen beträchtlichen Teil des letzten Jahrzehnts damit, solche Methoden wie die geographische Bevölkerungsstruktur (GPS) zur Vorhersage der Biogeographie aus DNA und den Pairwise Matcher, der Fall-Kontroll-Matches verbessert, die in Gentests und Arzneimittelstudien verwendet werden, voranzutreiben.
„Techniken, die eine solche Flexibilität bieten, fördern schlechte Wissenschaft und sind besonders gefährlich in einer Welt, in der ein hoher Veröffentlichungsdruck herrscht. Wenn ein Forscher PCA mehrmals durchführt, wird die Versuchung immer groß sein, den Output auszuwählen, der die beste Geschichte ergibt“, fügt Prof William Amos von der Universität Cambridge, der nicht an der Studie beteiligt war.
Eran Elhaik, Auf Hauptkomponentenanalysen (PCA) basierende Ergebnisse in populationsgenetischen Studien sind stark verzerrt und müssen neu bewertet werden, Wissenschaftliche Berichte (2022). DOI: 10.1038/s41598-022-14395-4