OctoML, das gut finanzierte Startup für maschinelles Lernen, das Unternehmen bei der Optimierung und Bereitstellung ihrer Modelle unterstützt, hat heute ein umfassendes Update seines Produkts herausgebracht, das es Entwicklern erheblich erleichtern wird, ML-Modelle in ihre Anwendungen zu integrieren. Mit dieser neuen Version kann OctoML jetzt ML-Modelle in portable Softwarefunktionen umwandeln, mit denen Entwickler über eine konsistente API interagieren können. Dadurch wird es auch einfacher, diese Modelle in bestehende DevOps-Workflows zu integrieren.
Wie OctoML-Gründer und CEO Luis Ceze mir sagte, glaubt er, dass dies ein wichtiger Moment für das Unternehmen ist. Ceze gründete zusammen mit Tianqi Chen, Chief Technologist des Unternehmens, CPO Jason Knight, CTO Jared Roesch und Thierry Moreau, VP of Technology Partnerships, das Unternehmen, um Produkte herzustellen TVMein Open-Source-Compiler-Framework für maschinelles Lernen, mit dem ML-Ingenieure ihre Modelle für bestimmte Hardware optimieren können.
„WHenne wir gestartet OctoML, wir sagte: let ist machen TVM wie a sService“, sagte Ceze. „We gelernt a viel aus das aber dann es wurde klar as wir arbeitete mit mehr Kunden das KI/ML Einsatz ist immer noch zu schwer.“
Er stellte fest, dass mit der Verbesserung der Tools zur Datenerfassung und Erstellung von Modellen in den letzten Jahren die Kluft zwischen dem, was diese Modelle leisten können, und der tatsächlichen Integration in Anwendungen nur größer geworden ist. Indem Modelle im Wesentlichen in Funktionen umgewandelt werden, verschwindet diese Lücke meistens. Dieses neue System abstrahiert einen Großteil dieser Komplexität für Entwickler, was sicherlich dazu beitragen wird, mehr Modelle in die Produktion zu bringen. Derzeit schaffen es immerhin mehr als die Hälfte der trainierten ML-Modelle nie in die Produktion, je nachdem, wessen Zahlen Sie vertrauen.
Da OctoML bereits Tools anbietet, mit denen diese Modelle im Wesentlichen überall ausgeführt werden können, können viele dieser Entscheidungen darüber, wo ein Modell bereitgestellt werden soll, jetzt auch automatisiert werden. „WHut unterscheidet uns von jeder anderen Lösung das Fähigkeit zu erhalten das Modell zum Bereitstellung, integrieren Sie es in das Anwendung – und dann Lauf an irgendein endpoint“, sagte Ceze und merkte an, dass dies auch für die automatische Skalierung eine Wende darstellt, da es Ingenieuren ermöglicht, automatische Skalierungssysteme zu bauen, die das Modell nach Bedarf auf CPUs und Beschleuniger mit unterschiedlichen Leistungsmerkmalen verschieben können.
Die Models-as-Functions-Fähigkeit ist jedoch nur ein Teil der heutigen Ankündigungen des Unternehmens. Ebenfalls neu auf der Plattform ist ein neues Tool, das OctoML dabei unterstützt, maschinelles Lernen zu nutzen, um maschinelle Lernmodelle zu optimieren. Der Dienst kann Abhängigkeiten automatisch erkennen und auflösen sowie Modellcode bereinigen und optimieren. Es gibt auch eine neue lokale OctoML-Befehlszeilenschnittstelle und Unterstützung für den Triton-Inferenzserver von Nvidia, der jetzt mit dem neuen Model-as-Function-Dienst verwendet werden kann.
„Nvidia Triton ist eine leistungsstarke Abstraktion, die es Benutzern ermöglicht, mehrere Deep-Learning-Frameworks und Beschleunigungstechnologien sowohl für die CPU als auch für die Nvidia-GPU zu nutzen“, sagte Jared Roesch, CTO von OctoMl. „Durch die Kombination von Nvidia Triton mit OctoML ermöglichen wir es Benutzern außerdem, Triton-basierte Funktionen einfacher auszuwählen, zu integrieren und bereitzustellen. Der OctoML-Workflow erhöht den Benutzerwert von Triton-basierten Bereitstellungen durch die nahtlose Integration der OctoML-Beschleunigungstechnologie weiter, sodass Sie sowohl die Server- als auch die Modellebene optimal nutzen können.“
Mit Blick auf die Zukunft stellte Ceze fest, dass sich das Unternehmen, das seit 2020 von 20 auf über 140 Mitarbeiter angewachsen ist, darauf konzentrieren wird, seinen Service auf mehr Edge-Geräte, einschließlich Smartphones, und dank seiner Partnerschaft mit Qualcomm auf andere Snapdragon-basierte Geräte zu bringen.
„Ter zeitliche Koordinierung scheint Rechts Weil wie wir sich unterhalten zu Leute das sind bereitstellen zu das Wolke, jetzt sie alle Sag sie haben Pläne zu einsetzen an das Kante, auch“, sagte er.