Nvidia beschäftigt sich mit Weltmodellen – KI-Modellen, die sich von den mentalen Modellen der Welt inspirieren lassen, die Menschen auf natürliche Weise entwickeln.
Auf der CES 2025 in Las Vegas gab das Unternehmen bekannt, dass es eine Familie von Weltmodellen offen zugänglich macht, die „physikbewusste“ Videos vorhersagen und generieren können. Nvidia nennt diese Familie Cosmos World Foundation Models, kurz Cosmos WFMs.
Die Modelle, die für bestimmte Anwendungen feinabgestimmt werden können, sind in den API- und NGC-Katalogen von Nvidia, GitHub und der KI-Entwicklungsplattform Hugging Face verfügbar.
„Nvidia stellt die erste Welle von Cosmos WFMs für physikbasierte Simulation und synthetische Datengenerierung zur Verfügung“, schrieb das Unternehmen in einem Blogbeitrag an Tech. „Forscher und Entwickler können die Cosmos-Modelle unabhängig von ihrer Unternehmensgröße unter Nvidias freizügiger Open-Model-Lizenz, die eine kommerzielle Nutzung ermöglicht, frei nutzen.“
Es gibt eine Reihe von Modellen in der Cosmos WFM-Familie, die in drei Kategorien unterteilt sind: Nano für Anwendungen mit geringer Latenz und Echtzeit, Super für „hochleistungsfähige Basismodelle“ und Ultra für maximale Qualitäts- und Wiedergabetreue.
Die Größe der Modelle reicht von 4 bis 14 Milliarden Parametern, wobei Nano das kleinste und Ultra das größte ist. Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger Parametern.
Im Rahmen von Cosmos WFM veröffentlicht Nvidia außerdem ein „Upsampling-Modell“, einen für Augmented Reality optimierten Videodecoder, Leitplankenmodelle zur Gewährleistung einer verantwortungsvollen Nutzung sowie fein abgestimmte Modelle für Anwendungen wie die Generierung von Sensordaten für die Entwicklung autonomer Fahrzeuge . Diese sowie die anderen Cosmos WFM-Modelle wurden auf 9.000 Billionen Token aus 20 Millionen Stunden realer menschlicher Interaktionen, Umwelt-, Industrie-, Robotik- und Fahrdaten trainiert, sagte Nvidia. (In der KI stellen „Tokens“ Teile von Rohdaten dar – in diesem Fall Videomaterial.)
Nvidia würde nicht sagen, woher diese Trainingsdaten stammen, aber zumindest ein Bericht – und Klage — behauptet dass das Unternehmen ohne Erlaubnis auf urheberrechtlich geschützten YouTube-Videos trainierte.
Als er um einen Kommentar gebeten wurde, sagte ein Nvidia-Sprecher gegenüber Tech, dass Cosmos „nicht darauf ausgelegt ist, geschützte Werke zu kopieren oder zu verletzen.“
„Cosmos lernt genauso wie Menschen lernen“, sagte der Sprecher. „Um Cosmos beim Lernen zu unterstützen, haben wir Daten aus verschiedenen öffentlichen und privaten Quellen gesammelt und sind zuversichtlich, dass unsere Datennutzung sowohl dem Wortlaut als auch dem Geist des Gesetzes entspricht. Fakten darüber, wie die Welt funktioniert – was die Cosmos-Modelle lernen – unterliegen nicht dem Urheberrecht und unterliegen nicht der Kontrolle eines einzelnen Autors oder Unternehmens.“
Abgesehen von der Tatsache, dass Modelle wie Cosmos nicht wirklich so lernen, wie Menschen lernen, behaupten Urheberrechtsexperten, dass Behauptungen wie die von Nvidia Unterstützung finden Fair-Use-Rechtsdoktrinmöglicherweise einer gerichtlichen Überprüfung nicht standhalten. Ob sich diese Unternehmen durchsetzen, wird weitgehend davon abhängen, wie die Gerichte über die faire Nutzung entscheiden, die die Verwendung urheberrechtlich geschützter Werke zur Schaffung von etwas Neuem erlaubt, solange sie transformativ ist, und auf die KI-Schulung zutrifft.
Nvidia behauptete, dass Cosmos WFM-Modelle mit Text- oder Videobildern „kontrollierbare, qualitativ hochwertige“ synthetische Daten generieren können, um das Training von Modellen für Robotik, selbstfahrende Autos und mehr zu unterstützen.
„Die Suite offener Modelle von Nvidia Cosmos bedeutet, dass Entwickler die WFMs mit Datensätzen anpassen können, wie zum Beispiel Videoaufzeichnungen von autonomen Fahrzeugfahrten oder Robotern, die durch ein Lager navigieren“, schrieb Nvidia in einer Pressemitteilung. „Cosmos WFMs sind speziell für die physikalische KI-Forschung und -Entwicklung konzipiert und können physikbasierte Videos aus einer Kombination von Eingaben wie Text, Bild und Video sowie Robotersensoren oder Bewegungsdaten generieren.“
Nvidia sagte, dass Unternehmen wie Waabi, Wayve, Fortellix und Uber sich bereits dazu verpflichtet haben, Cosmos WFMs für verschiedene Anwendungsfälle zu testen, von der Videosuche und Kuration bis hin zum Aufbau von KI-Modellen für selbstfahrende Fahrzeuge.
„Generative KI wird die Zukunft der Mobilität vorantreiben und erfordert sowohl umfangreiche Daten als auch sehr leistungsstarke Rechenleistung“, sagte Dara Khosrowshahi, CEO von Uber, in einer Erklärung. „Durch die Zusammenarbeit mit Nvidia sind wir zuversichtlich, dass wir dazu beitragen können, den Zeitplan für sichere und skalierbare autonome Fahrlösungen für die Branche zu beschleunigen.“
Wichtig zu beachten ist, dass Nvidias Weltmodelle nicht „Open Source“ im engeren Sinne sind. Um einer weithin akzeptierten Definition von „Open-Source“-KI zu entsprechen, muss ein KI-Modell genügend Informationen über sein Design bereitstellen, damit eine Person es „im Wesentlichen“ nachbilden und alle relevanten Details zu seinen Trainingsdaten offenlegen kann, einschließlich der Herkunft und wie die Daten beschafft oder lizenziert werden können.
Nvidia hat weder Details zu den Cosmos WFM-Trainingsdaten veröffentlicht noch alle Tools zur Verfügung gestellt, die zum Nachbilden der Modelle von Grund auf erforderlich sind. Das ist wahrscheinlich der Grund, warum der Technologieriese die Modelle als „offen“ und nicht als „Open Source“ bezeichnet.
„Wir hoffen wirklich [Cosmos will] „Wir werden für die Welt der Robotik und der industriellen KI tun, was Llama … für Unternehmen getan hat“, sagte Nvidia-CEO Jensen Huang am Montag während einer Presseveranstaltung auf der Bühne.