Nvidia führt eine Reihe von Microservices für optimierte Inferenzen ein

Nvidia fuehrt eine Reihe von Microservices fuer optimierte Inferenzen ein

Auf seiner GTC-Konferenz hat Nvidia heute angekündigt Nvidia NIM, eine neue Softwareplattform, die die Bereitstellung benutzerdefinierter und vorab trainierter KI-Modelle in Produktionsumgebungen optimieren soll. NIM übernimmt die Softwarearbeit, die Nvidia rund um das Inferenzieren und Optimieren von Modellen geleistet hat, und macht sie leicht zugänglich, indem ein bestimmtes Modell mit einer optimierten Inferenz-Engine kombiniert und dann in einen Container gepackt wird, um es als Microservice zugänglich zu machen.

Normalerweise würden Entwickler Wochen – wenn nicht Monate – brauchen, um ähnliche Container auszuliefern, argumentiert Nvidia – und das vorausgesetzt, dass das Unternehmen überhaupt über interne KI-Talente verfügt. Mit NIM zielt Nvidia eindeutig darauf ab, ein Ökosystem aus KI-fähigen Containern zu schaffen, die ihre Hardware als Grundschicht nutzen und diese kuratierten Microservices als Kernsoftwareschicht für Unternehmen, die ihre KI-Roadmap beschleunigen möchten.

NIM unterstützt derzeit Modelle von NVIDIA, A121, Adept, Cohere, Getty Images und Shutterstock sowie offene Modelle von Google, Hugging Face, Meta, Microsoft, Mistral AI und Stability AI. Nvidia arbeitet bereits mit Amazon, Google und Microsoft zusammen, um diese NIM-Microservices jeweils auf SageMaker, Kubernetes Engine und Azure AI verfügbar zu machen. Sie werden auch in Frameworks wie Deepset, LangChain und LlamaIndex integriert.

Bildnachweis: Nvidia

„Wir glauben, dass die Nvidia-GPU der beste Ort ist, um Rückschlüsse auf diese Modelle zu ziehen […]und wir glauben, dass NVIDIA NIM das beste Softwarepaket und die beste Laufzeit ist, auf der Entwickler aufbauen können, damit sie sich auf die Unternehmensanwendungen konzentrieren können – und Nvidia einfach die Arbeit machen lassen, diese Modelle für sie zu produzieren „Dies ist eine effiziente, unternehmenstaugliche Art und Weise, sodass sie einfach den Rest ihrer Arbeit erledigen können“, sagte Manuvir Das, Leiter Enterprise Computing bei Nvidia, während einer Pressekonferenz vor den heutigen Ankündigungen.“

Als Inferenz-Engine wird Nvidia den Triton Inference Server, TensorRT und TensorRT-LLM verwenden. Zu den über NIM verfügbaren Nvidia-Mikrodiensten gehören Riva für die Anpassung von Sprach- und Übersetzungsmodellen, cuOpt für Routing-Optimierungen und das Earth-2-Modell für Wetter- und Klimasimulationen.

Das Unternehmen plant, im Laufe der Zeit zusätzliche Funktionen hinzuzufügen, darunter beispielsweise die Bereitstellung des Nvidia RAG LLM-Operators als NIM, was die Entwicklung generativer KI-Chatbots, die benutzerdefinierte Daten abrufen können, erheblich vereinfachen soll.

Ohne ein paar Kunden- und Partnerankündigungen wäre dies keine Entwicklerkonferenz. Zu den aktuellen Nutzern von NIM gehören unter anderem Box, Cloudera, Cohesity, Datastax und Dropbox
und NetApp.

„Etablierte Unternehmensplattformen verfügen über eine Goldgrube an Daten, die in generative KI-Copiloten umgewandelt werden können“, sagte Jensen Huang, Gründer und CEO von NVIDIA. „Diese mit unserem Partner-Ökosystem entwickelten containerisierten KI-Microservices sind die Bausteine ​​für Unternehmen jeder Branche auf dem Weg zu KI-Unternehmen.“

tch-1-tech