Forscher von UVA Health haben ein wichtiges neues Werkzeug entwickelt, das Wissenschaftlern hilft, Signale von Rauschen zu unterscheiden, während sie die genetischen Ursachen von Krebs und anderen Krankheiten untersuchen. Neben dem Fortschritt der Forschung und der potenziellen Beschleunigung neuer Behandlungen könnte das neue Tool dazu beitragen, die Krebsdiagnose zu verbessern, indem es Ärzten die Erkennung von Krebszellen erleichtert.
Das neue Tool, das von Chongzhi Zang, Ph.D. von UVA, und seinem Team und Mitarbeitern entwickelt wurde, ist ein mathematisches Modell, das dazu beitragen wird, die Integrität von „Big Data“ über die Bausteine unserer Chromosomen, genetisches Material namens Chromatin, sicherzustellen. Chromatin – eine Kombination aus DNA und Protein – spielt eine wichtige Rolle bei der Steuerung der Aktivität unserer Gene. Wenn Chromatin schief geht, kann es eine gesunde Zelle in Krebs verwandeln oder zu anderen Krankheiten beitragen.
Wissenschaftler können jetzt Chromatin in einzelnen Zellen mit einer hochmodernen Technologie namens „Einzelzell-ATAC-seq“ untersuchen, aber dies erzeugt eine enorme Datenmenge, einschließlich viel Rauschen und Verzerrungen. Zangs neues Tool schneidet das durch und bewahrt Wissenschaftler vor falschen Hinweisen und verschwendeten Bemühungen.
In den besten Zeiten ist die groß angelegte Genomforschung an Einzelzellen wie die „Jagd nach der Nadel im Heuhaufen“, sagt Zang. Aber sein neues Werkzeug wird es viel einfacher machen, indem es eine Menge schlechtes Heu wegräumt.
„Bei der traditionellen Art der Datenanalyse sehen Sie möglicherweise einige Muster, die wie echte Signale eines bestimmten Chromatinzustands aussehen, aber aufgrund der Voreingenommenheit der experimentellen Technologie selbst tatsächlich falsch sind. Solche gefälschten Signale können Wissenschaftler verwirren“, sagte er Zang, ein Computerbiologe des UVA Center for Public Health Genomics und des UVA Health Cancer Center. „Wir haben ein Modell entwickelt, um solche falschen Signale besser zu erfassen und herauszufiltern, damit die echte Nadel, nach der wir suchen, leichter aus dem Heu herausragen kann.“
Über das Genomik-Tool
Zangs neues Tool adaptiert ein Modell aus der Zahlentheorie und Kryptologie namens „Simplex-Codierung“. Er und seine Kollegen verwendeten dies, um DNA-Sequenzen in mathematische Formen zu codieren und schließlich die komplexe Genomsequenz in eine viel einfachere mathematische Form umzuwandeln. Sie können dann verschiedene Formen vergleichen, um Verzerrungen und Rauschen in den Sequenzdaten zu erkennen, die mit herkömmlichen Ansätzen nicht leicht zu finden sind.
„Die Komplexität der DNA-Sequenzen nimmt exponentiell zu, wenn sie länger werden. Sie sind schwer zu modellieren, da ein typischer Datensatz Millionen von Sequenzen aus Tausenden von Zellen enthält“, sagte Shengen Shawn Hu, Ph.D., ein Forscher in Zangs Labor und der Hauptautor dieser Arbeit. „Aber das Simplex-Codierungsmodell kann aufgrund seiner schönen mathematischen Eigenschaft eine genaue Schätzung von Sequenzverzerrungen liefern.“
Tests des Tools zeigten, dass es deutlich besser bei der Analyse komplexer Einzelzelldaten war, um verschiedene Zelltypen zu charakterisieren. Dies ist sowohl für die biologische Grundlagenforschung als auch für die Krankheitsdiagnose wichtig, bei der Ärzte eine winzige Anzahl von Krankheitszellen in viel größeren Proben erkennen müssen, die von Zehntausenden bis zu Millionen von Zellen reichen.
„Die Verzerrungen waren nicht leicht zu finden, weil sie mit echten Signalen verwoben und in den großen Datenmengen versteckt waren. Es wäre vielleicht keine große Sache, wenn die Leute nur die stärksten Signale aus einer großen Anzahl von Zellen auswählen würden“, sagte Zang. der kürzlich mehrere andere Einzelzell-Genomikforschungen bei der Untersuchung von Erkrankungen der Herzkranzgefäße und der Darmentwicklung mitleitete.
„Aber wenn Sie sich Einzelzelldaten ansehen, gibt es keine niedrig hängenden Früchte mehr. Die Signale sind auf der Ebene der einzelnen Zellen immer schwach, und die Auswirkungen von Rauschen und Verzerrungen können katastrophal sein. Die Bias-Korrektur wird oft ignoriert, kann es aber sein entscheidend in der Einzelzell-Datenanalyse.“
Um ihr neues Tool allgemein verfügbar zu machen, haben die Forscher kostenlose Open-Source-Software entwickelt und online gestellt. Die Software ist auf GitHub zu finden.
„Wir hoffen, dass dieses Tool der biomedizinischen Forschungsgemeinschaft beim Studium der Chromatinbiologie und -genomik zugute kommen und schließlich die Krankheitsforschung unterstützen kann“, sagte Zang. „Es ist immer wieder spannend zu sehen, wie unsere Kollegen die von uns entwickelten Tools verwenden, um wichtige wissenschaftliche Entdeckungen in ihrer eigenen Forschung zu machen.“
Die Forscher haben ihre Ergebnisse in veröffentlicht Naturkommunikation.
Mehr Informationen:
Shengen Shawn Hu et al., Intrinsic Bias Estimation zur verbesserten Analyse von Massen- und Einzelzell-Chromatin-Zugänglichkeitsprofilen mit SELMA, Naturkommunikation (2022). DOI: 10.1038/s41467-022-33194-z
Software: github.com/zang-lab/SELMA und bei doi.org/10.5281/zenodo.7048767