Benchmarking-Tool, das Einzelzell- und räumliche Genomdaten genau nachahmen kann

UCLA-Forscher haben einen „All-in-One“-Statistiksimulator der nächsten Generation entwickelt, der in der Lage ist, ein breites Spektrum an Informationen zu verarbeiten, um realistische synthetische Daten zu generieren und ein Benchmarking-Tool für medizinische und biologische Forscher bereitzustellen, die fortschrittliche Technologien zur Untersuchung von Krankheiten und Potenzialen einsetzen Therapien. Insbesondere kann das neue Computermodellierungs- oder „In-Silico“-System Forschern dabei helfen, Berechnungsmethoden zu bewerten und zu validieren.

Die Einzelzell-RNA-Sequenzierung, auch Einzelzell-Transkriptomik genannt, ist die Grundlage für die Analyse der genetischen Ausstattung (genomweite Genexpressionsniveaus) von Zellen. Die Einführung zusätzlicher „Omics“ lieferte Details zu einer Reihe molekularer Merkmale, und in den letzten Jahren ermöglichten räumliche Transkriptom-Technologien die Profilierung von Genexpressionsniveaus mit räumlichen Standortinformationen von Zell-„Nachbarschaften“, die genaue Standorte und Bewegungen der Zellen innerhalb der Zelle zeigen Gewebe.

„Tausende rechnerische Methoden wurden entwickelt, um Einzelzell- und räumliche Omics-Daten für eine Vielzahl von Aufgaben zu analysieren, was Methoden-Benchmarking zu einer dringenden Herausforderung für Methodenentwickler und -anwender macht“, sagte Jingyi Jessica Li, Ph.D., eine UCLA-Forscherin und Professor für Statistik, Biostatistik, Computermedizin und Humangenetik. Li ist außerdem mit dem Forschungsbereich Gene Regulation am UCLA Jonsson Comprehensive Cancer Center verbunden. Li leitet eine Forschungsgruppe mit dem Titel „Junction of Statistics and Biology“.

„Obwohl sich Simulatoren weiterentwickelt und leistungsfähiger geworden sind, gibt es zahlreiche Einschränkungen. Nur wenige können realistische Einzelzell-RNA-Sequenzierungsdaten aus kontinuierlichen Zelltrajektorien generieren, indem sie reale Daten nachahmen, und den meisten fehlt die Fähigkeit, Daten von Multi-Omics und räumlicher Transkriptomik zu simulieren.“ „Wir haben scDesign3 eingeführt, das unserer Meinung nach der bisher realistischste und vielseitigste Simulator ist, um die Lücke zwischen den Benchmarking-Anforderungen der Forscher und den Einschränkungen bestehender Tools zu schließen“, sagte Li, leitender Autor einer am 11. Mai veröffentlichten Studie Naturbiotechnologie.

Die UCLA-Forscher glauben, dass scDesign3 „das erste probabilistische Modell bietet, das die Generierung und Inferenz für Einzelzellen- und räumliche Omics-Daten vereinheitlicht. Ausgestattet mit interpretierbaren Parametern und einer Modellwahrscheinlichkeit ist scDesign3 mehr als ein vielseitiger Simulator und bietet einzigartige Vorteile für die Generierung maßgeschneiderter Daten.“ In-silico-Daten, die als Negativ- und Positivkontrollen für rechnerische Analysen und zur unbeaufsichtigten Beurteilung der Anpassungsgüte abgeleiteter Zellcluster, Trajektorien und räumlicher Standorte dienen können.“ Die Anpassungsgüte ist ein Maß dafür, wie gut ein statistisches Modell zu einer Reihe von Beobachtungen passt.

Laut den Autoren können die „transparente Modellierung und die interpretierbaren Parameter des Systems Benutzern dabei helfen, Daten zu untersuchen, zu ändern und zu simulieren. Insgesamt ist scDesign3 eine multifunktionale Suite zum Benchmarking von Rechenmethoden und zur Interpretation von Einzelzellen- und räumlichen Omics-Daten.“

Mehr Informationen:
Jingyi Li, scDesign3 generiert realistische In-silico-Daten für multimodale Einzelzellen- und räumliche Omics, Naturbiotechnologie (2023). DOI: 10.1038/s41587-023-01772-1. www.nature.com/articles/s41587-023-01772-1

Zur Verfügung gestellt von der University of California, Los Angeles

ph-tech