Komprimierung von Genbibliotheken zur Erweiterung der Zugänglichkeit, Forschungsmöglichkeiten

FarmRaise zielt darauf ab ein Finanzdienstleistungsriese zu werden beginnend mit

Bei der Bildkomprimierung geht bei einer großen Datei, deren Speicherung oder gemeinsame Nutzung umständlich sein könnte, eine kleine Menge an visuellen Informationen verloren. Diese „Verlusthaftigkeit“ bewahrt das Bild weitgehend, während es seine Dateigröße erheblich reduziert – und dient laut Justin Pritchard, Assistenzprofessor für Biomedizintechnik, als Inspiration für eine neue Forschungsrichtung in der Genomik.

Pritchard und ein von der Penn State geleitetes Team interdisziplinärer Forscher entwickelten eine Methodik zum „Komprimieren“ umfangreicher genetischer Datenbibliotheken auf überschaubarere Größen. Ihre Ergebnisse veröffentlichten sie in Naturkommunikation am 2. Februar.

„Diese Idee der Komprimierung reduziert den Umfang der Experimente dramatisch und eröffnet Möglichkeiten für neue Experimente“, sagte Pritchard, die auch die Dorothy Foehr Huck and J. Lloyd Huck Early Career Entrepreneurial Professorship innehat. „Dies kann biologische Geheimnisse enthüllen, wie zum Beispiel, warum verschiedene Gene und Medikamente unterschiedlich zusammenarbeiten, und es ermöglicht uns, sehr komplizierte Biologie mit einfacheren Experimenten zu enträtseln.“

Die Forscher verwiesen auf CRISPR-Experimente im Genommaßstab, die Daten zu Tausenden von Geneffekten enthielten, die in verschiedenen menschlichen Zelltypen getestet wurden. Der Effekt, wenn das Gen ausgeschaltet wird, kann zwischen den Zelltypen variieren, sodass oft eine große Anzahl von Zellen benötigt wird, um das Zusammenspiel zwischen Genen und Phänotypen zu verstehen.

Um die größeren Effekte im Genommaßstab aus der kleineren „komprimierten“ CRISPR-Bibliothek vorherzusagen, verwendete das Team einen benutzerdefinierten Algorithmus, der auf einer gängigen Technik des maschinellen Lernens basiert, die als Random Forests bekannt ist. Diese Methode integriert von den Forschern bereitgestellte Daten in eine Reihe von zufällig generierten Entscheidungsbäumen, die gemeinsam Vorhersagen über die Beziehung zwischen Geninaktivierung und Zellwachstum liefern. Das Modell wurde mit dem Großteil der Daten trainiert – wobei eine Datenteilmenge ausgelassen wurde – und dann zunächst validiert, indem seine Fähigkeit getestet wurde, Daten für die ausgelassene Teilmenge vorherzusagen. Diese Genauigkeit erstreckte sich auf Datensätze, die in verschiedenen Labors unter Verwendung unterschiedlicher experimenteller Bedingungen und CRISPR-Bibliotheken generiert wurden.

Diese Leistung war mit nur einem kleinen Prozentsatz – etwa 1 % – der Informationen der ursprünglichen Bibliothek möglich. Schließlich führte die Penn State-Gruppe neue Experimente durch, in denen sie diese „verlustbehafteten Komprimierungsbibliotheken“ mithilfe von Techniken der synthetischen Biologie physikalisch aufbauten und die Vorhersagen in neuen Experimenten validierten.

„Ein Experiment im Genommaßstab untersucht 18.000 Gene“, sagte Pritchard. „Durch maschinelles Lernen haben wir den Umfang des Experiments auf bis zu 200 Gene komprimiert. Trotz des Verlusts einiger Daten bei der Komprimierung stellten wir fest, dass eine Teilmenge von 200 Genen überraschend gute Informationen über die gesamten 18.000 Gene liefern könnte.“

Die Technik eröffnet laut Pritchard auch Möglichkeiten für andere Forschungen. Es zeigte Übertragbarkeit, d. h. es konnte genaue Vorhersagen treffen, die Informationen aus völlig unterschiedlichen Datensätzen abgleichen, obwohl es nur mit den CRISPR-Daten trainiert wurde. Die Fähigkeit, die Anzahl der Gene zu reduzieren, ermöglicht auch mehr Forschung an Zellen, die in großen Mengen nur schwer oder gar nicht aggregiert werden können, wie z. B. Zellen in einem lebenden Organismus.

„Wir sind gespannt auf die Zukunft dieser Forschung“, sagte Pritchard. „Wir können die Zusammensetzung dieser verlustbehafteten Kompressionssätze in Echtzeit für verschiedene experimentelle Fragestellungen und Bedingungen in Bereichen von der Krebsbiologie bis hin zu Biopharmazeutika ändern, indem wir neuere Techniken des maschinellen Lernens verwenden. Die Methode hilft uns auch, die Grundlagenforschung zu verbessern, indem sie Fragen zum Aufbau des Genoms beantwortet funktioniert und kodiert Informationen über das Zellwachstum.“

Boyang Zhao, Edward P. O’Brien, Luke Gilbert, Scott Leighow und Yiyun Rao von der Penn State haben zu dieser Arbeit beigetragen. Zhao hat als Erstautor beigetragen und ist auch mit der Quantalarity Research Group in Houston verbunden. Gilbert ist mit der University of California San Francisco und dem Helen Diller Family Comprehensive Cancer Center in San Francisco verbunden.

Mehr Informationen:
Boyang Zhao et al., Eine Pan-CRISPR-Analyse der Säugetierzellspezifität identifiziert ultrakompakte sgRNA-Untergruppen für Experimente im Genommaßstab, Naturkommunikation (2022). DOI: 10.1038/s41467-022-28045-w

Zur Verfügung gestellt von der Pennsylvania State University

ph-tech