Wenn KI aus der Chatbox in unsere Wohnzimmer vordringen soll, muss sie Räume und Objekte besser verstehen. Um diese Arbeit voranzutreiben, hat das Allen Institute for AI eine gigantische und vielfältige Datenbank mit 3D-Modellen erstellt von Alltagsgegenständen, sodass Simulationen für KI-Modelle der Realität viel näher kommen können.
Simulatoren sind im Grunde 3D-Umgebungen, die reale Orte darstellen sollen, die ein Roboter oder eine KI möglicherweise navigieren oder verstehen muss. Aber anders als beispielsweise ein modernes Konsolenspiel sind Trainingssimulatoren alles andere als fotorealistisch und es mangelt ihnen oft an Details, Variationen oder Interaktivität.
Objaverse, wie es umständlich, aber irgendwie gefällig heißt, zielt darauf ab, dies mit seiner Sammlung von über 800.000 (und wachsend) 3D-Modellen mit allen Arten von Metadaten zu verbessern. Die vertretenen Dinge reichen von Lebensmitteln über Tische und Stühle bis hin zu Geräten und Gadgets. Jedes relativ gewöhnliche Objekt, das Sie vielleicht in einem Haus, Büro oder Restaurant erwarten, ist hier vertreten.
Es soll veraltete Objektbibliotheken wie ShapeNet ersetzen, eine alte Standby-Datenbank mit etwa 50.000 weniger detaillierten Modellen. Wenn die einzige „Lampe“, die Ihre KI je gesehen hat, eine generische ohne Muster oder Farbe ist, wie können Sie dann erwarten, dass sie eine funky geschliffene Glaslampe oder eine mit einer völlig anderen Form erkennt? Objaverse enthält Variationen gemeinsamer Objekte, damit das Modell lernen kann, was sie trotz ihrer Unterschiede ausmacht.
Sicher, es wird wahrscheinlich nicht notwendig sein, dass Ihr KI-Assistent ein Bücherregal als „mittelalterlich“ identifiziert oder nicht, aber er sollte auf jeden Fall den Unterschied zwischen einer geschälten und einer ungeschälten Banane kennen. Aber man weiß nie, was wichtig sein könnte.
Die Verwendung fotorealistischer Bilder (erfasst per Fotogrammetrie, ist klar) bringt auch ein Maß an Vielfalt und Realismus, das im Nachhinein offensichtlich ist. Sicher, alle Betten sehen ungefähr gleich aus, aber was ist mit ungemachten Betten? Alle anders!
Es ist auch hilfreich, Objekte zu haben, die auch dazu animieren, ihre „Hauptsache“ zu tun, wenn Sie so wollen. Zu wissen, wie ein Kühlschrank, Schrank, Buch, Laptop oder Garagentor geschlossen aussieht, ist eine Sache, offen eine andere, aber wie kommt es von A nach B? Es klingt einfach, aber wenn KI-Modelle diese Informationen nicht erhalten, werden sie sie wahrscheinlich nicht erfinden oder intuitiv verstehen.
Sie können mehr über die Eigenschaften und Details dieses riesigen Datensatzes lesen in dem AI2-Papier, das es beschreibt. Und wenn Sie ein Forscher sind, Sie können es jetzt kostenlos über Hugging Face verwenden.