Orbital-Drehimpuls-kodierte diffraktive Netzwerke für Objektklassifizierungsaufgaben

Deep Learning hat die Art und Weise, wie wir Daten wahrnehmen und nutzen, revolutioniert. Da jedoch die Datensätze wachsen und die Rechenanforderungen steigen, benötigen wir effizientere Methoden zur Handhabung, Speicherung und Verarbeitung von Daten. In dieser Hinsicht gilt das optische Rechnen als die nächste Grenze der Computertechnologie. Anstatt elektronische Signale zu verwenden, nutzt die optische Datenverarbeitung die Eigenschaften von Lichtwellen wie Wellenlänge und Polarisation, um Daten zu speichern und zu verarbeiten.

Beugende tiefe neuronale Netze (D2NN) nutzen verschiedene Eigenschaften von Lichtwellen, um Aufgaben wie Bild- und Objekterkennung auszuführen. Solche Netzwerke bestehen aus zweidimensionalen Pixelarrays als diffraktive Schichten. Jedes Pixel dient als einstellbarer Parameter, der die Eigenschaften der durch ihn hindurchtretenden Lichtwellen beeinflusst. Dieses einzigartige Design ermöglicht es den Netzwerken, Rechenaufgaben auszuführen, indem sie in Lichtwellen gespeicherte Informationen manipulieren. Bisher nutzen D2NNs Eigenschaften von Lichtwellen wie Intensität, Phase, Polarisation und Wellenlänge.

Nun, in einer Studie veröffentlicht in Fortschrittlicher Photonik-NexusForscher der Minzu University of China, der Peking University und der Shanxi University in China haben drei D2NNs mit diffraktiven Schichten entwickelt, die Objekte mithilfe von Informationen erkennen können, die im Bahndrehimpuls (OAM) des Lichts gespeichert sind. Dazu gehören OAM-kodierte D2NNs mit einem einzigen Detektor für die Einzel- und Multitask-Klassifizierung sowie OAM-kodierte D2NNs mit mehreren Detektoren für die wiederholbare Multitask-Klassifizierung.

Aber was ist OAM? Es ist eine Eigenschaft von Lichtwellen, die mit ihrer Rotations- oder Drehbewegung zusammenhängt. Es kann unendlich viele unabhängige Werte annehmen, die jeweils einem anderen Lichtmodus entsprechen. Aufgrund seiner breiten Palette möglicher Zustände oder Modi kann OAM räumliche Informationen wie die Position, Anordnung oder Struktur eines Objekts übertragen. Im vorgeschlagenen D2NN-Framework werden OAM-Strahlen, die Informationen enthalten, die handgeschriebene Ziffern beleuchten, zu einem einzigen Wirbelstrahl kombiniert. Dieser Strahl, der mehrere OAM-Modi enthält, die jeweils mit einer bestimmten Verdrehung oder Rotation von Lichtwellen verbunden sind, durchläuft fünf Beugungsschichten, die darauf trainiert sind, die Eigenschaften handgeschriebener Ziffern aus den OAM-Modi zu erkennen.

Ein bemerkenswertes Merkmal des OAM-codierten D2NN ist seine Fähigkeit, die Reihenfolge sich wiederholender Ziffern zu erkennen. Um dies zu erreichen, verwendeten die Forscher mehrere Detektoren, um OAM-Informationen mehrerer Bilder gleichzeitig zu verarbeiten.

Bei Tests mit dem MNIST-Datensatz, einem häufig verwendeten Datensatz zur handschriftlichen Ziffernerkennung, hat das D2NN einzelne Ziffern in den Bildern in etwa 85,49 % der Fälle korrekt vorhergesagt, eine Genauigkeit, die mit D2NN-Modellen vergleichbar ist, die Wellenlängen- und Polarisationseigenschaften von Licht nutzen.

Die Verwendung von OAM-Modi zur Kodierung von Informationen ist ein wichtiger Schritt zur Weiterentwicklung der Parallelverarbeitungsfähigkeiten und kommt Anwendungen zugute, die eine Echtzeitverarbeitung erfordern, wie z. B. Bilderkennung oder datenintensive Aufgaben.

Tatsächlich erzielt diese Arbeit einen Durchbruch bei der parallelen Klassifizierung, indem sie den OAM-Freiheitsgrad nutzt und andere bestehende D2NN-Designs übertrifft. Insbesondere bieten OAM-kodierte D2NNs einen leistungsstarken Rahmen zur weiteren Verbesserung der Leistungsfähigkeit rein optischer Parallelklassifizierung und OAM-basierter Bildverarbeitungsaufgaben und dürften vielversprechende Forschungsrichtungen für D2NN eröffnen.

Mehr Informationen:
Kuo Zhang et al., Fortgeschrittene rein optische Klassifizierung unter Verwendung orbital-drehimpulscodierter diffraktiver Netzwerke, Fortschrittlicher Photonik-Nexus (2023). DOI: 10.1117/1.APN.2.6.066006

ph-tech