L’extraction précise des traits phénotypiques à partir des données d’images est essentielle pour la recherche sur les cultures céréalières, mais la détection des épis dans les serres est difficile en raison des similitudes environnementales et physiques entre les épis et les feuilles. Les efforts récents incluent l’augmentation de la résolution de l’image et de la dimensionnalité des fonctionnalités, ainsi que le développement de réseaux neuronaux tels que SpikeSegNet pour améliorer la détection des pics. Cependant, ces méthodes ont du mal à localiser avec précision les petits pics, et des progrès supplémentaires dans le réglage des réseaux neuronaux et de nouveaux modèles de détection sont nécessaires pour surmonter efficacement ces défis de détection des pics.
En janvier 2024, Phénomique des plantes publié un article de recherche intitulé « Détection de pointes à haut débit dans les cultures céréalières cultivées en serre avec des mécanismes d’attention basés sur des modèles d’apprentissage profond ».
Dans cette étude, trois réseaux de neurones profonds (DNN) : FRCNN, FRCNN-A et Swin Transformer ont été mis en œuvre et formés pour la détection des pointes dans les cultures céréalières. Les réseaux ont été optimisés à l’aide de l’optimiseur SGD, avec des temps de formation variant selon les modèles ; FRCNN nécessitait 900 à 1 200 époques, FRCNN-A 800 à 1 000 époques et Swin Transformer 2 500 à 3 000 époques. Une stratégie de taux d’apprentissage dynamique a été utilisée pour optimiser la convergence des modèles, démontrant l’efficacité des modèles dans la détection de pointes de difficulté variable, en particulier au sein d’une masse foliaire dense.
Les résultats ont montré que le Swin Transformer surpassait les autres modèles en termes de précision sans transformation ni augmentation des données. Le modèle FRCNN-A, complété par un module d’attention, a montré une amélioration significative par rapport au FRCNN d’origine, soulignant le potentiel d’améliorations supplémentaires de l’architecture FRCNN-A. La capacité du module d’attention à capturer le contexte hiérarchique des régions d’intérêt a été particulièrement remarquée pour son efficacité à détecter des modèles de pointes difficiles.
La formation sur neuf ensembles de données provenant de deux installations de phénotypage a montré que la précision de tous les modèles s’améliorait à mesure que le contenu de l’image originale dans les ensembles de formation augmentait. Le Swin Transformer a démontré la précision moyenne (mAP) la plus élevée sur différents ensembles d’entraînement, indiquant sa capacité supérieure à extraire des caractéristiques et à détecter des pics. Cependant, l’étude a également souligné que si le Swin Transformer offre une grande précision, le FRCNN-A offre une alternative de formation plus efficace et plus rapide, particulièrement bénéfique pour les ensembles de données présentant des caractéristiques similaires.
Les résultats ont souligné l’importance de l’adaptabilité des modèles aux images augmentées et de leurs performances sur un ensemble de tests IPK spécifique, soulignant le potentiel de ces architectures avancées pour améliorer la détection des pointes dans les variétés de blé mélangées. L’étude a conclu que le FRCNN-A modifié, avec son nombre réduit de couches convolutives et l’ajout d’un module d’attention, ainsi que le transformateur Swin à forte intensité de calcul, représentent des avancées significatives dans la détection d’objets à petite échelle dans des scènes optiques complexes.
Ces innovations promettent une précision et une efficacité améliorées dans les tâches de phénotypage, bien que le compromis entre le temps d’inférence et la précision reste un facteur à prendre en compte pour les applications en temps réel.
Plus d’information:
Sajid Ullah et al, Détection de pointes à haut débit dans les cultures céréalières cultivées en serre avec des modèles d’apprentissage profond basés sur des mécanismes d’attention, Phénomique des plantes (2024). DOI : 10.34133/plantphenomics.0155