Forschungsteam entwickelt Schnellverfahren zur genetischen Verbesserung von Pflanzenmerkmalen

Forscher, die an der Verbesserung eines bestimmten Merkmals in Pflanzen interessiert sind, können nun die Gene identifizieren, die die Expression des Merkmals regulieren, ohne Experimente durchführen zu müssen.

Kranthi Varala von der Purdue University und 10 Co-Autoren haben dies getan veröffentlicht Die Einzelheiten des neuen webbasierten Tools zur Entdeckung regulatorischer Gene finden Sie im Verfahren der Nationalen Akademie der Wissenschaften. Varala hat ein Patent auf die Ergebnisse angemeldet, die sich auf die wirtschaftlich wichtige Biosynthese von Samenöl beziehen.

Das Purdue-USDA-Team wollte eine Ressource aufbauen, die aus großen Mengen öffentlich verfügbarer Daten lernt, schnell zu identifizieren, welche speziellen Gene, sogenannte Transkriptionsfaktoren, die Expression eines bestimmten Merkmals in verschiedenen Pflanzenarten regulieren.

„Jede Studie konzentriert sich auf eine Handvoll davon“, sagte Varala, Assistenzprofessor für Gartenbau und Landschaftsarchitektur. „Unsere Prämisse war: Wenn wir alles in einer einzigen Analyse zusammenfassen können, können wir diese Daten nutzen, um etwas Globales aufzubauen.“

Arabidopsis diente als PNAS „Aber dieser Ansatz hat nichts Spezifisches für Arabidopsis“, sagte Varala. „Der Ansatz ist allgemein genug, dass man mit einem Mais-Datensatz beginnen könnte. Man könnte ihn mit Reis, mit Tomaten, mit jeder Nutzpflanze, an der man arbeitet, machen, solange man Tausende von Genexpressionsmessungen hat, die Menschen durchgeführt haben. Und das gibt es.“ Mittlerweile gibt es über ein Dutzend Arten, bei denen wir Zehntausende von Genexpressionsstudien haben.“

Um zu beweisen, dass das System funktioniert, konzentrierte sich das Team auf einen genetischen Weg, der reguliert, wie Pflanzen Öl in ihren Samen herstellen und speichern. Das Team wählte dieses Merkmal aufgrund seiner Bedeutung für die Lebensmittel- und Biokraftstoffproduktion und weil mehr als 300 der beteiligten Gene bereits bekannt sind.

Durch genetische Manipulation der Transkriptionsfaktoren einer Pflanze können Forscher die in ihren Samen produzierte Ölmenge erhöhen oder verringern.

Wie andere Forscher hat Varala im Laufe der Jahre viele Projekte verfolgt, deren Ziel es war, die Gene und Regulatoren zu identifizieren, die an der Lösung eines Problems beteiligt sind. Dies erforderte sorgfältige und zeitaufwändige Experimente. Doch die generierten Daten lieferten nicht alle Antworten, die er suchte. Er verglich es mit der Berechnung einer Gleichung, bei der nur drei der zehn beteiligten Faktoren bekannt waren.

„Man kann die Gleichung nicht lösen“, sagte er. Ebenso wollte Varala oft mehr Fragen stellen, als die Daten beantworten konnten. Das motivierte ihn, ein Framework zu entwickeln, das alle möglichen Daten nutzt, um diese Fragen zu stellen, ohne alle relevanten Experimente durchführen zu müssen, um eine Liste von Kandidaten zu erhalten, die dann eine genetische Validierung benötigen.

„Ich versuche, die anfängliche Datenerfassungsphase abzukürzen“, sagte Varala, damit sich die Wissenschaftler auf die Durchführung der genetischen Validierungen konzentrieren können. Dafür musste sein Team jedoch mit einem Datensatz beginnen, der auf 18.000 Einzelstudien basierte.

Varala und sein Team analysierten diesen riesigen Datensatz mithilfe der Bell- und der inzwischen ausgemusterten Brown-Supercomputer im Rosen Center for Advanced Computing in Purdue. Das Team entwickelte ein Framework für maschinelles Lernen, um den Prozess für andere zu beschleunigen.

Es wäre für eine Person unmöglich, dies manuell zu tun. Ein Team könnte es tun, aber das würde zu Vorurteilen bei der Art und Weise führen, wie Gruppenmitglieder die Daten verarbeiten. Der Klassifikator für maschinelles Lernen arbeitet ohne Voreingenommenheit.

Das Neue an diesem Ansatz besteht darin, dass er sich nicht auf Daten bezieht, die sich auf alle Organe beziehen, sondern auf organspezifische Datensätze. Unabhängige Gennetzwerke regulieren diese Organe – Blätter, Wurzeln, Triebe, Blüten und Samen.

„Anstatt alle Organe zu nutzen, sagten wir, können wir im Rahmen der Samenexperimente, die Menschen im Laufe der Jahre durchgeführt haben, alle Daten nutzen, um etwas zu lernen, was im Samen passiert und nicht unbedingt in der Wurzel, im Blatt oder in der Blüte? Das hat sich verbessert.“ „Unser Ansatz hat uns sehr überzeugt“, sagte Varala.

Das Team verwendete eine Berechnungsmethode namens Inferenzansatz, um vorherzusagen, welche Transkriptionsfaktoren den Samenöl-Biosyntheseprozess in Arabidopsis regulieren würden.

„Die, die wir kennen, helfen uns zu bestätigen, dass unser Ansatz richtig funktioniert. Die, die wir nicht kennen, sind gute Kandidaten für die Erforschung neuer Biologie“, sagte Varala. „Dieser rein rechnerische Ansatz weiß nichts über Samen, Öl oder ähnliches. Wir gaben ihm eine Liste von Genen und er konnte die bekannten wiederentdecken, ohne den biologischen Kontext zu kennen.“

Der Hauptautor, Rajeev Ranjan, ein Postdoktorand in der Abteilung für Gartenbau und Landschaftsarchitektur an der Purdue University, nahm die anderen 12 der Top 20 und fragte, ob diese Vorhersagen wahr seien. „Wir konnten für elf dieser zwölf Mutantenlinien erzeugen. Fünf dieser elf verändern tatsächlich den Samenölgehalt“, sagte er. „Darüber hinaus haben wir auch gezeigt, dass die Überexpression eines Faktors den Samenölgehalt um bis zu zwölf Prozent erhöht.“

Die acht bekannten regulatorischen Gene, die zu den acht neuen hinzugefügt wurden, zeigten, dass der Inferenzansatz 13 der Top-20-Kandidaten genau identifizierte. Die Stärke des Ansatzes besteht darin, dass er allein anhand einer Liste von Genen mit hoher Genauigkeit vorhersagen kann, welche Gene ein Merkmal von Interesse regulieren.

„Es hat lange gedauert, weil es ein langer, komplizierter Prozess ist und es keine Garantie gab, dass es funktionieren würde“, sagte Varala über das vierjährige Projekt. „Nichts in dieser Größenordnung wurde zuvor versucht.“

Mehr Informationen:
Rajeev Ranjan et al., Organ-getrennte Genregulationsnetzwerke bieten eine hohe Genauigkeit bei der Auswahl von Transkriptionsfaktorkandidaten über verschiedene Prozesse hinweg. Verfahren der Nationalen Akademie der Wissenschaften (2024). DOI: 10.1073/pnas.2322751121

Zur Verfügung gestellt von der Purdue University

ph-tech