Die genaue Extraktion phänotypischer Merkmale aus Bilddaten ist für die Getreideforschung unerlässlich, die Erkennung von Ähren in Gewächshäusern ist jedoch aufgrund der umweltbedingten und physikalischen Ähnlichkeiten zwischen Ähren und Blättern eine Herausforderung. Zu den jüngsten Bemühungen gehören die Erhöhung der Bildauflösung und der Merkmalsdimensionalität sowie die Entwicklung neuronaler Netze wie SpikeSegNet zur Verbesserung der Spike-Erkennung. Diese Methoden haben jedoch Schwierigkeiten, kleine Spitzen genau zu lokalisieren, und weitere Fortschritte bei der Abstimmung neuronaler Netzwerke und neuartige Erkennungsmodelle sind erforderlich, um diese Herausforderungen bei der Spitzenerkennung effizient zu bewältigen.
Im Januar 2024, Pflanzenphänomik veröffentlicht ein Forschungsartikel mit dem Titel „Hochdurchsatz-Spitzenerkennung in im Gewächshaus angebauten Getreidepflanzen mit Aufmerksamkeitsmechanismen basierend auf Deep-Learning-Modellen.“
In dieser Studie wurden drei tiefe neuronale Netze (DNNs) – FRCNN, FRCNN-A und Swin Transformer – implementiert und für die Spitzenerkennung in Getreidekulturen trainiert. Die Netzwerke wurden mit dem SGD-Optimierer optimiert, wobei die Trainingszeiten zwischen den Modellen variierten; FRCNN benötigte 900 bis 1200 Epochen, FRCNN-A 800 bis 1000 Epochen und Swin Transformer 2500 bis 3000 Epochen. Zur Optimierung der Modellkonvergenz wurde eine dynamische Lernratenstrategie verwendet, die die Wirksamkeit der Modelle bei der Erkennung von Spitzen unterschiedlicher Schwierigkeit, insbesondere innerhalb dichter Blattmasse, demonstrierte.
Die Ergebnisse zeigten, dass der Swin Transformer die anderen Modelle hinsichtlich der Genauigkeit ohne Datentransformation oder -erweiterung übertraf. Das um ein Aufmerksamkeitsmodul erweiterte FRCNN-A-Modell zeigte eine deutliche Verbesserung gegenüber dem ursprünglichen FRCNN und unterstreicht das Potenzial für weitere Verbesserungen in der FRCNN-A-Architektur. Die Fähigkeit des Aufmerksamkeitsmoduls, den hierarchischen Kontext interessierender Regionen zu erfassen, wurde insbesondere für seine Wirksamkeit bei der Erkennung anspruchsvoller Spitzenmuster hervorgehoben.
Das Training mit neun Datensätzen aus zwei Phänotypisierungseinrichtungen zeigte, dass die Genauigkeit aller Modelle mit zunehmendem ursprünglichen Bildinhalt in den Trainingssätzen zunahm. Der Swin Transformer zeigte die höchste mittlere durchschnittliche Präzision (mAP) über verschiedene Trainingssätze hinweg, was auf seine überlegene Fähigkeit hinweist, Merkmale zu extrahieren und Spitzen zu erkennen. In der Studie wurde jedoch auch hervorgehoben, dass der Swin Transformer zwar eine hohe Genauigkeit bietet, der FRCNN-A jedoch eine effizientere und schnellere Trainingsalternative bietet, was besonders für Datensätze mit ähnlichen Eigenschaften von Vorteil ist.
Die Ergebnisse unterstrichen die Bedeutung der Anpassungsfähigkeit der Modelle an erweiterte Bilder und ihrer Leistung bei einem bestimmten IPK-Testsatz und unterstrichen das Potenzial dieser fortschrittlichen Architekturen zur Verbesserung der Spike-Erkennung bei gemischten Weizensorten. Die Studie kam zu dem Schluss, dass das modifizierte FRCNN-A mit seiner reduzierten Anzahl an Faltungsschichten und der Hinzufügung eines Aufmerksamkeitsmoduls zusammen mit dem rechenintensiven Swin Transformer erhebliche Fortschritte bei der Erkennung kleiner Objekte in komplexen optischen Szenen darstellt.
Diese Innovationen versprechen eine verbesserte Genauigkeit und Effizienz bei Phänotypisierungsaufgaben, obwohl der Kompromiss zwischen Inferenzzeit und Genauigkeit weiterhin eine Überlegung für Echtzeitanwendungen ist.
Mehr Informationen:
Sajid Ullah et al., Hochdurchsatz-Spike-Erkennung in im Gewächshaus angebauten Getreidepflanzen mit auf Aufmerksamkeitsmechanismen basierenden Deep-Learning-Modellen, Pflanzenphänomik (2024). DOI: 10.34133/plantphenomics.0155