Alles, was Sie über Computer Vision wissen, könnte bald falsch sein

Alles was Sie ueber Computer Vision wissen koennte bald falsch

Ubicept möchte, dass die Hälfte der Kameras der Welt die Dinge anders sehen

Computer Vision könnte viel schneller und besser, wenn wir das Konzept der Standbilder überspringen und stattdessen direkt den Datenstrom einer Kamera analysieren. Das ist zumindest die Theorie, dass die neuste Idee, die aus dem MIT Media Lab hervorgegangen ist, Ubizeptarbeitet unter.

Die meisten Computer-Vision-Anwendungen funktionieren auf die gleiche Weise: Eine Kamera nimmt ein Bild (oder eine schnelle Serie von Bildern im Fall von Videos) auf. Diese Standbilder werden an einen Computer weitergeleitet, der dann die Analyse durchführt, um herauszufinden, was sich im Bild befindet. Klingt einfach genug.

Aber es gibt ein Problem: Dieses Paradigma geht davon aus, dass das Erstellen von Standbildern eine gute Idee ist. Als Menschen, die daran gewöhnt sind, Fotografie und Video zu sehen, mag das vernünftig erscheinen. Computern ist das jedoch egal, und Ubicept glaubt, dass es das Computersehen weitaus besser und zuverlässiger machen kann, indem es die Idee von Frames ignoriert.

Das Unternehmen selbst ist eine Zusammenarbeit zwischen seinen Mitbegründern. Sebastian Bauer ist CEO des Unternehmens und Postdoc an der University of Wisconsin, wo er an Lidar-Systemen arbeitete. Tristan Swedish ist jetzt CTO von Ubicept. Davor war er wissenschaftlicher Mitarbeiter und Master- und Ph.D. acht Jahre lang Student am MIT Media Lab.

„Es gibt 45 Milliarden Kameras auf der Welt, und die meisten von ihnen erstellen Bilder und Videos, die nicht wirklich von einem Menschen betrachtet werden“, erklärte Bauer. „Diese Kameras dienen hauptsächlich der Wahrnehmung, damit Systeme auf der Grundlage dieser Wahrnehmung Entscheidungen treffen können. Denken Sie zum Beispiel an autonomes Fahren als System, bei dem es um die Fußgängererkennung geht. Es kommen all diese Studien heraus, die zeigen, dass die Fußgängererkennung bei hellem Tageslicht gut funktioniert, aber besonders schlecht bei schwachem Licht. Weitere Beispiele sind Kameras für die industrielle Sortierung, Inspektion und Qualitätssicherung. Alle diese Kameras werden für die automatisierte Entscheidungsfindung verwendet. In ausreichend beleuchteten Räumen oder bei Tageslicht funktionieren sie gut. Aber bei wenig Licht, besonders in Verbindung mit schnellen Bewegungen, gibt es Probleme.“

Die Lösung des Unternehmens besteht darin, das „Standbild“ als Quelle der Wahrheit für Computer Vision zu umgehen und stattdessen die einzelnen Photonen zu messen, die direkt auf einen Bildsensor treffen. Damit kann man fertig werden ein Einzelphotonen-Avalanche-Diodenarray (oder SPAD-Array unter Freunden). In diesen Rohdatenstrom kann dann eingespeist werden ein feldprogrammierbares Gate-Array (FPGA, eine Art superspezialisierter Prozessor) und durch Computer-Vision-Algorithmen weiter analysiert.

Das neu gegründete Unternehmen stellte seine Technologie im Januar auf der CES in Las Vegas vor und hat einige ziemlich kühne Pläne für die Zukunft der Computer Vision.

„Unsere Vision ist es, in den nächsten fünf Jahren mindestens 10 % der Kameras und in den nächsten 10 Jahren mindestens 50 % der Kameras mit Technologie auszustatten“, prognostiziert Bauer. „Wenn man jedes einzelne Photon mit sehr hoher zeitlicher Auflösung detektiert, tut man das Beste, was die Natur zulässt. Und Sie sehen die Vorteile, wie die hochwertigen Videos auf unserer Webseite, die alles andere in den Schatten stellen.“

Tech hat die Technologie kürzlich bei einer Demonstration in Boston in Aktion gesehen und wollte untersuchen, wie die Technologie funktioniert und welche Auswirkungen sie auf Computer Vision und KI-Anwendungen hat.

Eine neue Form des Sehens

Digitalkameras arbeiten im Allgemeinen so, dass sie eine Einzelbildbelichtung erfassen, indem sie die Anzahl der Photonen „zählen“, die über einen bestimmten Zeitraum auf jedes der Sensorpixel treffen. Am Ende des Zeitraums werden all diese Photonen miteinander multipliziert, und Sie haben ein Standbild. Wenn sich nichts im Bild bewegt, funktioniert das großartig, aber die Sache „wenn sich nichts bewegt“ ist eine ziemlich große Einschränkung, insbesondere wenn es um Computer Vision geht. Es stellt sich heraus, dass sich alles ständig bewegt, wenn Sie versuchen, Kameras zu verwenden, um Entscheidungen zu treffen.

Natürlich ist das Unternehmen mit den Rohdaten immer noch in der Lage, den Photonenstrom zu Einzelbildern zu kombinieren, wodurch ein wunderschön gestochen scharfes Video ohne Bewegungsunschärfe entsteht. Vielleicht noch spannender: Der Verzicht auf die Idee von Frames bedeutet, dass das Ubicept-Team die Rohdaten nehmen und direkt analysieren konnte. Hier ist ein Beispielvideo, das den dramatischen Unterschied zeigt, der in der Praxis ausmachen kann:

tch-1-tech