„Linsenlose“ Bildgebung durch fortschrittliches maschinelles Lernen für Bildsensorlösungen der nächsten Generation

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

Eine Kamera benötigt normalerweise ein Linsensystem, um ein scharfes Bild aufzunehmen, und die Linsenkamera ist seit Jahrhunderten die vorherrschende Bildgebungslösung. Eine Linsenkamera erfordert ein komplexes Linsensystem, um eine qualitativ hochwertige, helle und aberrationsfreie Bildgebung zu erreichen. In den letzten Jahrzehnten ist die Nachfrage nach kleineren, leichteren und billigeren Kameras stark gestiegen. Es besteht ein eindeutiger Bedarf an Kameras der nächsten Generation mit hoher Funktionalität, die kompakt genug sind, um überall installiert zu werden. Die Miniaturisierung der Linsenkamera ist jedoch durch das Linsensystem und die für refraktive Linsen erforderliche Fokussierentfernung beschränkt.

Jüngste Fortschritte in der Computertechnologie können das Linsensystem vereinfachen, indem einige Teile des optischen Systems durch Computer ersetzt werden. Dank der Verwendung von Bildrekonstruktionsberechnungen kann auf das gesamte Objektiv verzichtet werden, was eine objektivlose Kamera ermöglicht, die ultradünn, leicht und kostengünstig ist. Die objektivlose Kamera hat in letzter Zeit an Zugkraft gewonnen. Aber bisher hat sich die Bildrekonstruktionstechnik nicht etabliert, was zu einer unzureichenden Bildqualität und langwieriger Rechenzeit für die linsenlose Kamera führt.

Kürzlich haben Forscher ein neues Bildrekonstruktionsverfahren entwickelt, das die Rechenzeit verkürzt und qualitativ hochwertige Bilder liefert. Ein Kernmitglied des Forschungsteams, Prof. Masahiro Yamaguchi von Tokyo Tech, beschreibt die ursprüngliche Motivation hinter der Forschung: „Ohne die Einschränkungen eines Objektivs könnte die objektivlose Kamera ultraminiatur sein, was neue Anwendungen ermöglichen könnte jenseits unserer Vorstellungskraft.“ Ihre Arbeit wurde veröffentlicht in Optik Buchstaben.

Die typische optische Hardware der linsenlosen Kamera besteht einfach aus einer dünnen Maske und einem Bildsensor. Das Bild wird dann mit einem mathematischen Algorithmus rekonstruiert. Die Maske und der Sensor können zusammen in etablierten Halbleiterfertigungsprozessen für die zukünftige Produktion hergestellt werden. Die Maske codiert das einfallende Licht optisch und wirft Muster auf den Sensor. Obwohl die gegossenen Muster für das menschliche Auge vollständig nicht interpretierbar sind, können sie mit expliziter Kenntnis des optischen Systems decodiert werden.

Der Decodierungsprozess – basierend auf der Bildrekonstruktionstechnologie – bleibt jedoch eine Herausforderung. Herkömmliche modellbasierte Decodierungsverfahren approximieren den physikalischen Prozess der linsenlosen Optik und rekonstruieren das Bild durch Lösen eines „konvexen“ Optimierungsproblems. Dies bedeutet, dass das Rekonstruktionsergebnis anfällig für die unvollkommenen Annäherungen des physikalischen Modells ist. Darüber hinaus ist die zur Lösung des Optimierungsproblems erforderliche Berechnung zeitaufwändig, da sie eine iterative Berechnung erfordert. Deep Learning könnte dabei helfen, die Einschränkungen der modellbasierten Decodierung zu umgehen, da es das Modell lernen und das Bild stattdessen durch einen nicht iterativen direkten Prozess decodieren kann. Bestehende Deep-Learning-Methoden für linsenlose Bildgebung, die ein Convolutional Neural Network (CNN) verwenden, können jedoch keine qualitativ hochwertigen Bilder erzeugen. Sie sind ineffizient, weil CNN das Bild basierend auf den Beziehungen benachbarter „lokaler“ Pixel verarbeitet, während linsenlose Optiken lokale Informationen in der Szene durch eine Eigenschaft namens „Multiplexing“ in überlappende „globale“ Informationen auf allen Pixeln des Bildsensors umwandeln. „

Das Forschungsteam von Tokyo Tech untersucht diese Multiplexing-Eigenschaft und hat nun einen neuartigen, dedizierten maschinellen Lernalgorithmus für die Bildrekonstruktion vorgeschlagen. Der vorgeschlagene Algorithmus basiert auf einer hochmodernen Technik des maschinellen Lernens namens Vision Transformer (ViT), die besser im globalen Merkmalsschluss ist. Die Neuheit des Algorithmus liegt in der Struktur der mehrstufigen Transformatorblöcke mit überlappenden „Patchify“-Modulen. Dies ermöglicht es, Bildmerkmale in einer hierarchischen Darstellung effizient zu lernen. Folglich kann das vorgeschlagene Verfahren die Multiplexing-Eigenschaft gut ansprechen und die Einschränkungen des herkömmlichen CNN-basierten Deep Learning vermeiden, wodurch eine bessere Bildrekonstruktion ermöglicht wird.

Während herkömmliche modellbasierte Verfahren lange Rechenzeiten für die iterative Verarbeitung benötigen, ist das vorgeschlagene Verfahren schneller, da die direkte Rekonstruktion mit einem durch maschinelles Lernen entworfenen iterationsfreien Verarbeitungsalgorithmus möglich ist. Der Einfluss von Modellnäherungsfehlern wird ebenfalls drastisch reduziert, da das maschinelle Lernsystem das physikalische Modell lernt. Darüber hinaus verwendet das vorgeschlagene ViT-basierte Verfahren globale Merkmale im Bild und eignet sich zur großflächigen Verarbeitung von Casting-Mustern auf dem Bildsensor, während herkömmliche, auf maschinellem Lernen basierende Decodierungsverfahren hauptsächlich lokale Beziehungen durch CNN lernen.

Zusammenfassend löst das vorgeschlagene Verfahren die Einschränkungen herkömmlicher Verfahren wie der iterativen bildrekonstruktionsbasierten Verarbeitung und des CNN-basierten maschinellen Lernens mit der ViT-Architektur und ermöglicht die Aufnahme qualitativ hochwertiger Bilder in kurzer Rechenzeit. Das Forschungsteam führte ferner optische Experimente durch – wie in ihrer neuesten Veröffentlichung in berichtet –, die darauf hindeuten, dass die linsenlose Kamera mit der vorgeschlagenen Rekonstruktionsmethode qualitativ hochwertige und optisch ansprechende Bilder erzeugen kann, während die Geschwindigkeit der Nachverarbeitungsberechnung hoch genug ist für reale Zeiterfassung.

„Uns ist klar, dass die Miniaturisierung nicht der einzige Vorteil der linsenlosen Kamera sein sollte. Die linsenlose Kamera kann auf die Bildgebung mit unsichtbarem Licht angewendet werden, bei der die Verwendung eines Objektivs unpraktisch oder sogar unmöglich ist. Hinzu kommt die zugrunde liegende Dimensionalität der erfassten optischen Informationen durch die objektivlose Kamera ist größer als zwei, was eine One-Shot-3D-Bildgebung und eine Neufokussierung nach der Aufnahme ermöglicht. Wir erforschen weitere Funktionen der objektivlosen Kamera. Das ultimative Ziel einer objektivlosen Kamera ist es, klein und dennoch mächtig zu sein. Wir sind es Ich freue mich sehr, in dieser neuen Richtung für Bildgebungs- und Sensorlösungen der nächsten Generation führend zu sein“, sagt der Hauptautor der Studie, Herr Xiuxi Pan von Tokyo Tech, während er über ihre zukünftige Arbeit spricht.

Mehr Informationen:
Xiuxi Pan et al, Bildrekonstruktion mit Transformator für maskenbasierte linsenlose Bildgebung, Optik Buchstaben (2022). DOI: 10.1364/OL.455378

Bereitgestellt vom Tokyo Institute of Technology

ph-tech