Ein neues maschinelles Lernmodell zur Vorhersage von Ernteerträgen unter Verwendung von Umweltdaten und genetischen Informationen kann zur Entwicklung neuer, leistungsstärkerer Pflanzensorten eingesetzt werden.
Igor Fernandes, ein Masterstudent für Statistik und Analytik an der University of Arkansas, begann sein Agrarstudium mit einem datenwissenschaftlichen Hintergrund und etwas Erfahrung in der Agronomie als studentische Hilfskraft bei Embrapa, der brasilianischen Agrarforschungsgesellschaft. Mit der Perspektive eines Außenstehenden und der Erfahrung, die einer seiner ehemaligen Betreuer mit Umweltdaten gemacht hatte, entwickelte er einen neuartigen Ansatz zur Vorhersage, wie sich Nutzpflanzensorten auf dem Feld entwickeln werden.
Sein Interesse an dem Thema führte zu einer kürzlich veröffentlichten Studie, die er gemeinsam mit seinem Berater Sam Fernandes verfasste, einem Assistenzprofessor für Agrarstatistik und quantitative Genetik an der Arkansas Agricultural Experiment Station, der Forschungsabteilung der Agrarabteilung der University of Arkansas.
Die Studie, veröffentlicht im Theoretische und Angewandte Genetik Der Titel des in der Fachzeitschrift „Nature Research“ veröffentlichten Artikels lautet „Kombination genetischer und umweltbezogener Daten durch maschinelles Lernen zur Vorhersage des Maisertrags in Versuchen in mehreren Umgebungen.“
„Igor kam aus der Statistik und hatte keinen genetischen Hintergrund“, sagte Sam Fernandes. „Er hatte also eine Idee, die überhaupt nicht dem entsprach, was wir in der Genetik verwenden würden, und es war einfach überraschend, dass sie gut funktionierte.“
Mit seinem auf Umweltdaten basierenden Modell belegte Igor Fernandes beim diesjährigen internationalen Genome to Fields-Wettbewerb knapp den zweiten Platz. Zu den Co-Autoren der Studie, die aus dem Wettbewerbsbeitrag hervorging, gehörten Caio Vieira, Assistenzprofessor für Sojabohnenzüchtung an der Versuchsstation, und Kaio Dias, Assistenzprofessor in der Abteilung für allgemeine Biologie an der Bundesuniversität Viçosa in Brasilien.
Umwelt und Genetik
Während der Wettbewerbsbeitrag zeigte, dass Umweltdaten allein bei der Vorhersage von Ernteerträgen besser geeignet waren als erwartet, sahen die Forscher darin die Möglichkeit, eine umfassende Studie durchzuführen, die den neuen Ansatz mit etablierten Vorhersagemodellen aus der genomischen Züchtung verglich.
Genomische Züchtung, ein Verfahren, bei dem Tausende von Kandidaten für Feldversuche allein auf der Grundlage von DNA geprüft werden, kann Zeit und Ressourcen sparen, die für die Entwicklung einer neuen Pflanzensorte erforderlich sind, beispielsweise um bei Dürrebedingungen besser zu wachsen. Ein wichtiger Teil der genomischen Züchtung umfasst die genomische Vorhersage, um den Ertrag einer Pflanze anhand ihrer DNA abzuschätzen.
„Nehmen wir an, Sie haben Tausende von Kandidaten und erhalten von allen die DNA“, erklärt Sam Fernandes. „Anhand der DNA und der Informationen aus früheren Feldversuchen können Sie sagen, welche Sorte den höchsten Ertrag bringen wird, ohne sie auf dem Feld anbauen zu müssen. Auf diese Weise sparen Sie Ressourcen. Das ist eine genomische Vorhersage.“
Das Hinzufügen von Informationen zu einem Modell, die zeigen, wie die Pflanze mit Umweltbedingungen interagieren würde, erhöht die Genauigkeit der genomischen Vorhersage und wird immer üblicher, da immer mehr Umweltdaten von Testzentren verfügbar werden. Diese Praxis wird als „Enviromics“ bezeichnet. Dennoch besteht kein Konsens über den besten maschinellen Lernansatz, um Umwelt- und genetische Daten zu kombinieren.
„Ein Vorteil der Einbeziehung von Umweltinformationen in die Modelle ist, dass man das ansprechen kann, was wir Genotyp-Umwelt-Interaktion nennen“, sagte Sam Fernandes. „Da die Umwelt nicht alle Individuen auf die gleiche Weise beeinflusst, versuchen wir, all das zu berücksichtigen, damit wir das beste Individuum auswählen können. Und das beste Individuum kann je nach Ort und Jahreszeit unterschiedlich sein.“
Die Studie verwendete dieselben Daten von Maisfeldern aus der Genomes to Fields Initiative, die auch im Wettbewerb verwendet wurden, aber die Forscher passten die Eingaben als genetisch, umweltbedingt oder als Kombination aus beidem auf „additive“ und „multiplikative“ Weise an. Bei der Einbeziehung von Umwelt- und genetischen Daten auf eine einfachere „additive“ Weise war die Vorhersagegenauigkeit besser als bei der komplizierteren „multiplikativen“ Weise.
Das einfachere Modell benötigte weniger Zeit für den Computer zur Verarbeitung und die mittlere Vorhersagegenauigkeit war gegenüber dem etablierten Modell um 7 % besser. Das Experiment wurde in drei Szenarien validiert, die typischerweise in der Pflanzenzucht vorkommen.
„Eine der einzigartigen Leistungen von Igor ist die Art und Weise, wie er die Umweltdaten verarbeitet hat“, sagte Sam Fernandes. „Es gibt ausgefallenere Modelle [in which] Die Leute können alle möglichen Informationen einbringen. Aber was Igor gemacht hat, ist eine einfache, aber effiziente Methode, genetische und Umweltdaten zu kombinieren. Dabei verwendet er Feature Engineering, um die Informationen zu verarbeiten und eine informativere Zusammenfassung der Variablen zu erhalten.“
Insgesamt sind die Ergebnisse vielversprechend, so die Forscher, insbesondere angesichts des zunehmenden Interesses an der Kombination von Umweltmerkmalen und genetischen Daten zu Vorhersagezwecken. Ihr unmittelbares Ziel ist es, die Ergebnisse anzuwenden, um die Möglichkeiten des Genotyp-Screenings für Feldversuche zu verbessern.
Weitere Informationen:
Igor K. Fernandes et al., Verwendung von maschinellem Lernen zur Kombination genetischer und umweltbezogener Daten für Maisertragsvorhersagen in Versuchen unter verschiedenen Umgebungsbedingungen, Theoretische und Angewandte Genetik (2024). DOI: 10.1007/s00122-024-04687-w