Les chercheurs ont développé une nouvelle méthode à grande vitesse pour détecter l’emplacement, la taille et la catégorie de plusieurs objets sans acquérir d’images ou nécessiter une reconstruction de scène complexe. Étant donné que la nouvelle approche diminue considérablement la puissance de calcul nécessaire à la détection d’objets, elle pourrait être utile pour identifier les dangers au volant.
« Notre technique est basée sur un détecteur à un seul pixel, qui permet une détection multi-objets efficace et robuste directement à partir d’un petit nombre de mesures 2D », a déclaré le chef de l’équipe de recherche Liheng Bian de l’Institut de technologie de Pékin en Chine. « Ce type de technologie de détection sans image devrait résoudre les problèmes de lourde charge de communication, de surcharge de calcul élevée et de faible taux de perception des systèmes de perception visuelle existants. »
Les méthodes de perception sans image d’aujourd’hui ne peuvent réaliser que la classification, la reconnaissance ou le suivi d’un objet unique. Pour accomplir les trois à la fois, les chercheurs ont développé une technique connue sous le nom de détection d’objet à un seul pixel sans image (SPOD). Dans Lettres optiquesils rapportent que SPOD peut atteindre une précision de détection d’objets d’un peu plus de 80 %.
La technique SPOD s’appuie sur les réalisations antérieures du groupe de recherche dans le développement d’une technologie de détection sans imagerie en tant que technologie de perception de scène efficace. Leurs travaux antérieurs incluent la classification, la segmentation et la reconnaissance de caractères sans image basées sur un détecteur à un seul pixel.
« Pour la conduite autonome, SPOD pourrait être utilisé avec le lidar pour aider à améliorer la vitesse de reconstruction de la scène et la précision de la détection des objets », a déclaré Bian. « Nous pensons qu’il a un taux de détection et une précision suffisamment élevés pour la conduite autonome tout en réduisant la bande passante de transmission et les besoins en ressources informatiques nécessaires à la détection d’objets. »
Détection sans images
L’automatisation de tâches visuelles avancées, qu’elles soient utilisées pour piloter un véhicule ou suivre un avion en mouvement, nécessite généralement des images détaillées d’une scène pour extraire les caractéristiques nécessaires à l’identification d’un objet. Cependant, cela nécessite soit un matériel d’imagerie complexe, soit des algorithmes de reconstruction compliqués, ce qui entraîne un coût de calcul élevé, une longue durée d’exécution et une charge de transmission de données importante. Pour cette raison, l’image traditionnelle d’abord, percevoir les approches ultérieures peut ne pas être la meilleure pour la détection d’objets.
Les méthodes de détection sans image basées sur des détecteurs à pixel unique peuvent réduire la puissance de calcul nécessaire à la détection d’objets. Au lieu d’utiliser un détecteur pixélisé tel qu’un CMOS ou un CCD, l’imagerie à un seul pixel éclaire la scène avec une séquence de motifs lumineux structurés, puis enregistre l’intensité lumineuse transmise pour acquérir les informations spatiales des objets. Ces informations sont ensuite utilisées pour reconstruire informatiquement l’objet ou pour calculer ses propriétés.
Pour SPOD, les chercheurs ont utilisé un motif lumineux structuré petit mais optimisé pour balayer rapidement toute la scène et obtenir des mesures 2D. Ces mesures sont introduites dans un modèle d’apprentissage en profondeur connu sous le nom d’encodeur basé sur un transformateur pour extraire les caractéristiques significatives de haute dimension de la scène. Ces caractéristiques sont ensuite introduites dans un décodeur basé sur un réseau d’attention à plusieurs échelles, qui produit simultanément les informations de classe, d’emplacement et de taille de toutes les cibles de la scène.
« Comparé au motif pleine grandeur utilisé par d’autres méthodes de détection à un seul pixel, le petit motif optimisé produit de meilleures performances de détection sans image », a déclaré Lintao Peng, membre du groupe. « En outre, le réseau d’attention multi-échelles du décodeur SPOD renforce l’attention du réseau sur la zone cible de la scène. Cela permet une extraction plus efficace des caractéristiques de la scène, permettant des performances de détection d’objets de pointe. »
Démonstration de preuve de concept
Pour démontrer expérimentalement SPOD, les chercheurs ont construit une configuration de preuve de concept. Des images sélectionnées au hasard dans l’ensemble de données de test Pascal Voc 2012 ont été imprimées sur film et utilisées comme scènes cibles. Lorsqu’un taux d’échantillonnage de 5 % était utilisé, le temps moyen pour terminer la modulation spatiale de la lumière et la détection d’objets sans image par scène avec SPOD n’était que de 0,016 seconde.
C’est beaucoup plus rapide que d’effectuer d’abord la reconstruction de scène (0,05 seconde) puis la détection d’objet (0,018 seconde). SPOD a montré une précision de détection moyenne de 82,2 % pour toutes les classes d’objets incluses dans l’ensemble de données de test.
« Actuellement, SPOD ne peut pas détecter toutes les catégories d’objets possibles car l’ensemble de données de détection d’objets existant utilisé pour former le modèle ne contient que 80 catégories », a déclaré Peng. « Cependant, lorsqu’il est confronté à une tâche spécifique, le modèle pré-entraîné peut être affiné pour obtenir une détection multi-objets sans image de nouvelles classes cibles pour des applications telles que la détection de piétons, de véhicules ou de bateaux. »
Ensuite, les chercheurs prévoient d’étendre la technologie de perception sans image à d’autres types de détecteurs et de systèmes d’acquisition informatiques pour obtenir une technologie de détection sans reconstruction.
Plus d’information:
Lintao Peng et al, Détection d’objets à un seul pixel sans image, Lettres optiques (2023). DOI : 10.1364/OL.486078