Un nouveau modèle d’apprentissage automatique permettant de prédire le rendement des cultures à l’aide de données environnementales et d’informations génétiques peut être utilisé pour développer de nouvelles variétés de cultures plus performantes.
Igor Fernandes, étudiant en master de statistiques et d’analyse à l’Université de l’Arkansas, a commencé ses études agricoles avec une formation en science des données et une certaine connaissance de l’agronomie en tant qu’assistant de premier cycle pour Embrapa, la société brésilienne de recherche agricole. Avec une perspective extérieure et une expérience de travail avec les données environnementales par l’intermédiaire de l’un de ses anciens conseillers, il a développé une nouvelle approche pour prévoir les performances des variétés de cultures sur le terrain.
Son intérêt pour le sujet l’a conduit à publier récemment une étude co-écrite avec son conseiller, Sam Fernandes, professeur adjoint de statistiques agricoles et de génétique quantitative à la station expérimentale agricole de l’Arkansas, la branche de recherche de la division de l’agriculture du système de l’université de l’Arkansas.
L’étude, publié dans le Génétique théorique et appliquée journal, s’intitule « Utilisation de l’apprentissage automatique pour combiner des données génétiques et environnementales afin de prédire le rendement des grains de maïs dans le cadre d’essais multi-environnementaux ».
« Igor venait des statistiques, mais n’avait aucune formation en génétique », explique Sam Fernandes. « Il a donc eu une idée qui ne correspondait pas du tout à ce que nous utiliserions en génétique, et nous avons été surpris de constater qu’elle fonctionnait bien. »
Le modèle d’Igor Fernandes, qui se concentre sur les données environnementales, lui a permis de terminer deuxième du concours international Genome to Fields de cette année. Les co-auteurs de l’étude issue de ce concours sont Caio Vieira, professeur adjoint de sélection du soja pour la station expérimentale, et Kaio Dias, professeur adjoint au département de biologie générale de l’Université fédérale de Viçosa, au Brésil.
Environnement et génétique
Bien que les résultats du concours aient montré que les données environnementales seules fonctionnaient mieux que prévu pour prédire le rendement des cultures, les chercheurs ont vu une opportunité de réaliser une étude complète comparant la nouvelle approche aux modèles de prédiction établis utilisés dans la sélection génomique.
La sélection génomique, un processus de sélection de milliers de candidats pour des essais en champ basé uniquement sur l’ADN, peut permettre d’économiser le temps et les ressources nécessaires au développement d’une nouvelle variété végétale, par exemple pour qu’elle pousse mieux dans des conditions de sécheresse. Une partie importante de la sélection génomique implique la prédiction génomique pour estimer le rendement d’une plante à l’aide de son ADN.
« Imaginons que vous ayez des milliers de candidats et que vous obteniez l’ADN de chacun d’eux », explique Sam Fernandes. « En vous basant sur l’ADN et sur les informations provenant d’essais sur le terrain précédents, vous êtes en mesure de déterminer lequel aura le rendement le plus élevé sans avoir à le planter dans le champ. Vous économisez ainsi des ressources. C’est ce qu’on appelle la prédiction génomique. »
L’ajout d’informations à un modèle sur la façon dont cette plante interagit avec les conditions environnementales augmente la précision de la prédiction génomique et devient de plus en plus courant à mesure que davantage de données environnementales provenant de centres de test deviennent disponibles. Cette pratique est appelée « enviromique ». Pourtant, il n’existe pas de consensus sur la meilleure approche d’apprentissage automatique pour combiner les données environnementales et génétiques.
« L’un des avantages de l’intégration des informations environnementales dans les modèles est qu’il permet de prendre en compte ce que l’on appelle l’interaction génotype-environnement », explique Sam Fernandes. « Étant donné que l’environnement n’affecte pas tous les individus de la même manière, nous essayons de tenir compte de tout cela, afin de pouvoir sélectionner le meilleur individu. Or, le meilleur individu peut être différent selon le lieu et la saison. »
L’étude a utilisé les mêmes données sur les parcelles de maïs de l’initiative Genomes to Fields que celles utilisées lors du concours, mais les chercheurs ont ajusté les données génétiques, environnementales ou une combinaison des deux de manière « additive » et « multiplicative ». En incluant les données environnementales et génétiques de manière « additive » plus simple, la précision des prédictions était meilleure que de manière « multiplicative » plus compliquée.
Le modèle le plus simple a nécessité moins de temps de traitement par ordinateur et la précision moyenne de prédiction s’est améliorée de 7 % par rapport au modèle établi. L’expérience a été validée dans trois scénarios généralement rencontrés en sélection végétale.
« L’une des choses uniques qu’Igor a faites est la façon dont il a traité les données environnementales », a déclaré Sam Fernandes. « Il existe des modèles plus sophistiqués [in which] « Les gens peuvent y intégrer toutes sortes d’informations. Mais ce qu’Igor a fait est une manière simple et efficace de combiner les données génétiques et environnementales en utilisant l’ingénierie des caractéristiques pour traiter les informations et obtenir un résumé des variables plus informatif. »
Les chercheurs estiment que les résultats sont prometteurs, notamment en raison de l’intérêt croissant pour la combinaison des caractéristiques environnementales et des données génétiques à des fins de prédiction. Leur objectif immédiat est d’appliquer ces résultats pour accroître la capacité de sélection des génotypes pour les essais sur le terrain.
Plus d’informations :
Igor K. Fernandes et al., Utilisation de l’apprentissage automatique pour combiner des données génétiques et environnementales afin de prévoir le rendement des grains de maïs dans le cadre d’essais multi-environnementaux, Génétique théorique et appliquée (2024). DOI: 10.1007/s00122-024-04687-w