Zuckerberg wirbt mit Nvidia-CEO Jensen Huang für Metas neueste Video-Vision-KI

Zuckerberg wirbt mit Nvidia CEO Jensen Huang fuer Metas neueste Video Vision KI

Meta hatte im letzten Jahr einen spürbaren Erfolg mit Segment Anything, einem maschinellen Lernmodell, das so ziemlich alles in einem Bild schnell und zuverlässig identifizieren und umreißen konnte. Die Fortsetzung, die CEO Mark Zuckerberg am Montag auf der SIGGRAPH-Bühne erstmals vorstellte, überträgt das Modell auf den Videobereich und zeigt, wie schnell sich das Feld entwickelt.

Segmentierung ist der Fachbegriff dafür, wenn ein Bildverarbeitungsmodell ein Bild betrachtet und die einzelnen Teile heraussucht: „Das ist ein Hund, das ist ein Baum hinter dem Hund“ und hoffentlich nicht „Das ist ein Baum, der aus einem Hund wächst“. Dies geschieht schon seit Jahrzehnten, ist aber in letzter Zeit viel besser und schneller geworden, wobei Segment Anything einen großen Fortschritt darstellt.

Segment Alles 2 (SA2) ist eine natürliche Fortsetzung, da es nativ auf Videos und nicht nur auf Standbilder anwendbar ist; obwohl Sie das erste Modell natürlich für jedes Einzelbild eines Videos einzeln ausführen könnten, ist dies nicht der effizienteste Arbeitsablauf.

„Wissenschaftler verwenden dieses Zeug, um Korallenriffe und natürliche Lebensräume und ähnliches zu untersuchen. Aber es ist ziemlich cool, dies auf Video tun zu können, es als Zero-Shot zu verwenden und ihm zu sagen, was man will“, sagte Zuckerberg in einem Gespräch mit Nvidia-CEO Jensen Huang.

Die Verarbeitung von Videos erfordert natürlich viel mehr Rechenleistung und es ist ein Beweis für die branchenweit erzielten Effizienzfortschritte, dass SA2 ausgeführt werden kann, ohne das Rechenzentrum zum Schmelzen zu bringen. Natürlich ist es immer noch ein riesiges Modell, das ernsthafte Hardware benötigt, um zu funktionieren, aber eine schnelle, flexible Segmentierung war noch vor einem Jahr praktisch unmöglich.

Bildnachweise: Meta

Das Modell wird wie das erste offen und kostenlos nutzbar sein, und von einer gehosteten Version ist nicht die Rede, die diese KI-Unternehmen manchmal anbieten. Es gibt aber eine kostenlose Demo.

Natürlich braucht ein solches Modell eine Menge Daten zum Trainieren, und Meta veröffentlicht auch eine große, kommentierte Datenbank mit 50.000 Videos, die es genau zu diesem Zweck erstellt hat. In dem Dokument, das SA2 beschreibt, wurde auch eine andere Datenbank mit über 100.000 „intern verfügbaren“ Videos zum Trainieren verwendet, und diese wird nicht öffentlich gemacht – ich habe Meta um weitere Informationen gebeten, was das ist und warum sie nicht veröffentlicht wird. (Wir würden vermuten, dass die Daten aus öffentlichen Instagram- und Facebook-Profilen stammen.)

Zuckerberg wirbt mit Nvidia CEO Jensen Huang fuer Metas neueste Video Vision KI
Beispiele für gekennzeichnete Trainingsdaten.
Bildnachweise: Meta

Meta ist seit einigen Jahren führend im Bereich der „offenen“ KI, obwohl es dies (wie Zuckerberg in der Unterhaltung meinte) eigentlich schon seit langem mit Tools wie PyTorch tut. Doch in jüngster Zeit sind LLaMa, Segment Anything und einige andere Modelle, die es frei zur Verfügung stellt, zu einem relativ erschwinglichen Maßstab für die KI-Leistung in diesen Bereichen geworden, obwohl ihre „Offenheit“ umstritten ist.

Zuckerberg erwähnte, dass die Offenheit bei Meta nicht nur aus reiner Herzensgüte erfolge, was aber nicht bedeute, dass ihre Absichten unlauter seien:

„Das ist nicht einfach eine Software, die man bauen kann – man braucht ein Ökosystem darum herum. Es würde fast gar nicht so gut funktionieren, wenn wir es nicht als Open Source veröffentlichen würden, oder? Wir machen das nicht, weil wir altruistische Menschen sind, auch wenn ich denke, dass das für das Ökosystem hilfreich sein wird – wir machen es, weil wir denken, dass das, was wir bauen, dadurch das Beste wird.“

Es wird jedenfalls sicherlich gut genutzt werden. Schauen Sie sich das GitHub hier an.

tch-1-tech