Forscher erkennen und klassifizieren mehrere Objekte ohne Bilder

Die EU schlaegt einen 12 Milliarden Dollar Plan vor um den wachsenden Cybersicherheitsbedrohungen

Forscher haben eine neue Hochgeschwindigkeitsmethode entwickelt, um den Ort, die Größe und die Kategorie mehrerer Objekte zu erkennen, ohne Bilder aufzunehmen oder eine komplexe Szenenrekonstruktion zu erfordern. Da der neue Ansatz die für die Objekterkennung erforderliche Rechenleistung stark verringert, könnte er für die Erkennung von Gefahren während der Fahrt nützlich sein.

„Unsere Technik basiert auf einem Einzelpixel-Detektor, der eine effiziente und robuste Erkennung mehrerer Objekte direkt aus einer kleinen Anzahl von 2D-Messungen ermöglicht“, sagte Forschungsteamleiter Liheng Bian vom Beijing Institute of Technology in China. „Diese Art von bildloser Sensortechnologie soll die Probleme der hohen Kommunikationslast, des hohen Rechenaufwands und der niedrigen Wahrnehmungsrate bestehender visueller Wahrnehmungssysteme lösen.“

Heutige bildlose Wahrnehmungsmethoden können nur Klassifikation, Einzelobjekterkennung oder Tracking leisten. Um alle drei gleichzeitig zu erreichen, entwickelten die Forscher eine Technik, die als bildfreie Einzelpixel-Objekterkennung (SPOD) bekannt ist. In Optik Buchstabenberichten sie, dass SPOD eine Objekterkennungsgenauigkeit von knapp über 80 % erreichen kann.

Die SPOD-Technik baut auf den früheren Errungenschaften der Forschungsgruppe bei der Entwicklung einer abbildfreien Sensortechnologie als effiziente Szenenwahrnehmungstechnologie auf. Ihre bisherige Arbeit umfasst die bildfreie Klassifizierung, Segmentierung und Zeichenerkennung basierend auf einem Einzelpixel-Detektor.

„Für autonomes Fahren könnte SPOD mit Lidar verwendet werden, um die Geschwindigkeit der Szenenrekonstruktion und die Genauigkeit der Objekterkennung zu verbessern“, sagte Bian. „Wir glauben, dass es eine ausreichend hohe Erkennungsrate und Genauigkeit für autonomes Fahren hat und gleichzeitig die Übertragungsbandbreite und die Anforderungen an Rechenressourcen reduziert, die für die Objekterkennung erforderlich sind.“

Erkennung ohne Bilder

Die Automatisierung fortgeschrittener visueller Aufgaben – ob zum Navigieren eines Fahrzeugs oder zum Verfolgen eines sich bewegenden Flugzeugs – erfordert normalerweise detaillierte Bilder einer Szene, um die zur Identifizierung eines Objekts erforderlichen Merkmale zu extrahieren. Dies erfordert jedoch entweder komplexe Bildgebungshardware oder komplizierte Rekonstruktionsalgorithmen, was zu hohem Rechenaufwand, langer Laufzeit und hoher Datenübertragungslast führt. Aus diesem Grund sind die herkömmlichen Vorgehensweisen zuerst Bild, dann wahrzunehmen möglicherweise nicht die beste für die Objekterkennung.

Bildlose Erfassungsmethoden auf Basis von Einzelpixel-Detektoren können die für die Objekterkennung benötigte Rechenleistung reduzieren. Anstatt einen pixeligen Detektor wie einen CMOS oder CCD zu verwenden, beleuchtet die Einzelpixel-Bildgebung die Szene mit einer Folge von strukturierten Lichtmustern und zeichnet dann die Intensität des durchgelassenen Lichts auf, um die räumlichen Informationen von Objekten zu erfassen. Diese Informationen werden dann verwendet, um das Objekt rechnerisch zu rekonstruieren oder seine Eigenschaften zu berechnen.

Für SPOD verwendeten die Forscher ein kleines, aber optimiertes strukturiertes Lichtmuster, um schnell die gesamte Szene zu scannen und 2D-Messungen zu erhalten. Diese Messungen werden in ein Deep-Learning-Modell eingespeist, das als transformatorbasierter Encoder bekannt ist, um die hochdimensionalen aussagekräftigen Merkmale in der Szene zu extrahieren. Diese Merkmale werden dann in einen auf einem Multiskalen-Aufmerksamkeitsnetzwerk basierenden Dekoder eingespeist, der die Klassen-, Standort- und Größeninformationen aller Ziele in der Szene gleichzeitig ausgibt.

„Im Vergleich zu dem Muster in voller Größe, das von anderen Einzelpixel-Erkennungsmethoden verwendet wird, erzeugt das kleine, optimierte Muster eine bessere bildfreie Erfassungsleistung“, sagte Gruppenmitglied Lintao Peng. „Außerdem verstärkt das Multiskalen-Aufmerksamkeitsnetzwerk im SPOD-Decoder die Aufmerksamkeit des Netzwerks auf den Zielbereich in der Szene. Dies ermöglicht eine effizientere Extraktion von Szenenmerkmalen und ermöglicht eine hochmoderne Objekterkennungsleistung.“

Proof-of-Concept-Demonstration

Um SPOD experimentell zu demonstrieren, bauten die Forscher einen Proof-of-Concept-Aufbau. Bilder, die zufällig aus dem Pascal Voc 2012-Testdatensatz ausgewählt wurden, wurden auf Film gedruckt und als Zielszenen verwendet. Bei einer Abtastrate von 5 % betrug die durchschnittliche Zeit bis zur vollständigen räumlichen Lichtmodulation und bildlosen Objekterkennung pro Szene mit SPOD nur 0,016 Sekunden.

Dies ist viel schneller, als zuerst die Szenenrekonstruktion (0,05 Sekunden) und dann die Objekterkennung (0,018 Sekunden) durchzuführen. SPOD zeigte eine durchschnittliche Erkennungsgenauigkeit von 82,2 % für alle im Testdatensatz enthaltenen Objektklassen.

„Derzeit kann SPOD nicht jede mögliche Objektkategorie erkennen, da der vorhandene Objekterkennungsdatensatz, der zum Trainieren des Modells verwendet wird, nur 80 Kategorien enthält“, sagte Peng. „Allerdings lässt sich das vortrainierte Modell bei einer konkreten Aufgabenstellung verfeinern, um eine bildlose Multi-Objekt-Erkennung neuer Zielklassen für Anwendungen wie Fußgänger-, Fahrzeug- oder Bootsdetektion zu erreichen.“

Als nächstes planen die Forscher, die bildfreie Wahrnehmungstechnologie auf andere Arten von Detektoren und rechnergestützten Erfassungssystemen auszudehnen, um eine rekonstruktionsfreie Sensortechnologie zu erreichen.

Mehr Informationen:
Lintao Peng et al, Bildfreie Einzelpixel-Objekterkennung, Optik Buchstaben (2023). DOI: 10.1364/OL.486078

ph-tech