Strong Compute möchte Ihr ML-Modelltraining beschleunigen – Tech

Strong Compute moechte Ihr ML Modelltraining beschleunigen – Tech

Das Training neuronaler Netze nimmt viel Zeit in Anspruch, selbst mit den schnellsten und teuersten Beschleunigern auf dem Markt. Es ist daher vielleicht keine Überraschung, dass eine Reihe von Start-ups versuchen, den Prozess auf Softwareebene zu beschleunigen und einige der derzeitigen Engpässe im Schulungsprozess zu beseitigen. Zum Starke Rechenleistung, ein in Sydney, Australien, ansässiges Startup, das kürzlich in die Winter 22-Klasse von Y Combinator aufgenommen wurde, dreht sich alles darum, diese Ineffizienzen im Trainingsprozess zu beseitigen. Auf diese Weise argumentiert das Team, dass es den Trainingsprozess um das 100-fache oder mehr beschleunigen kann.

„PyTorch ist wunderschön, genau wie TensorFlow. Diese Toolkits sind erstaunlich, aber die Einfachheit, die sie haben – und die einfache Implementierung, die sie haben – geht zu Lasten der Ineffizienz unter der Haube“, sagte CEO und Gründer von Strong Compute Ben Sandder zuvor das AR-Unternehmen mitbegründet hatte Meta (bevor Facebook diesen Namen verwendete).

Während es Unternehmen gibt, die sich darauf konzentrieren, die Modelle selbst zu optimieren, und Strong Compute dies auch tun wird, wenn seine Kunden dies wünschen, stellte Sand fest, dass dies die Ergebnisse beeinträchtigen kann. Stattdessen konzentriert sich das Team auf alles rund um das Modell. Das kann eine langsame Datenpipeline sein oder viele der Werte vorab berechnet werden, bevor das Training beginnt. Sand bemerkte auch, dass das Unternehmen einige der häufig verwendeten Bibliotheken für optimiert hat Datenerweiterung.

Das Unternehmen hat kürzlich Richard Pruss, einen ehemaligen Cisco-Chefingenieur, eingestellt, um sich auf die Beseitigung von Netzwerkengpässen in der Schulungspipeline zu konzentrieren, die schnell zu einer großen Latenz führen können. Aber natürlich kann auch die Hardware einen großen Unterschied machen, daher arbeitet Strong Compute mit seinen Kunden zusammen, um Modelle auch auf der richtigen Plattform auszuführen.

„„Strong Compute verkürzte unser Kernalgorithmus-Training von 30 Stunden auf fünf Minuten und trainierte Hunderte von Terabyte an Daten“, sagte Miles Penn, der CEO von MSchneider, das sich darauf spezialisiert hat, maßgeschneiderte Kleidung für seine Online-Kunden zu kreieren. „Deep-Learning-Ingenieure sind wahrscheinlich die wertvollste Ressource auf diesem Planeten, und Strong Compute hat es uns ermöglicht, 10-mal produktiver zu sein. Iterations- und Experimentierzeit ist der wichtigste Hebel für die ML-Produktivität, und ohne Strong Compute waren wir aufgeschmissen.“

Sand argumentiert, dass die großen Cloud-Anbieter keinen wirklichen Anreiz haben, das zu tun, was sein Unternehmen tut, da ihr Geschäftsmodell darauf beruht, dass die Menschen ihre Maschinen so lange wie möglich nutzen, was Y Combinator-Geschäftsführer Michael Seibel nur zustimmt. „Strong Compute zielt auf eine ernsthafte Fehlausrichtung der Anreize im Cloud-Computing ab, wo schnellere Ergebnisse, die von Kunden geschätzt werden, für Anbieter weniger profitabel sind“, sagte Seibel.

Bildnachweis: Ben Sand von Strong Compute (links) und Richard Pruss (rechts).

Derzeit bietet das Team seinen Kunden noch einen White-Glove-Service, obwohl Entwickler keinen allzu großen Unterschied bemerken sollten, da die Integration seiner Optimierungen ihren Workflow nicht wirklich verändern sollte. Das Versprechen, das Strong Compute hier macht, ist, dass es „Ihre Entwicklungszyklen verzehnfachen kann“. Mit Blick auf die Zukunft besteht die Idee darin, so viele Prozesse wie möglich zu automatisieren.

„KI-Unternehmen können sich weiterhin auf ihre Kunden, Daten und Kernalgorithmen konzentrieren, wo ihre Kern-IP und ihr Wert liegen, und die gesamte Konfigurations- und Betriebsarbeit Strong Compute überlassen“, sagte Sand. Dies gibt ihnen nicht nur die schnelle Iteration, die sie für den Erfolg benötigen, sondern stellt auch sicher, dass sich ihre Entwickler nur auf die Arbeit konzentrieren, die einen Mehrwert für das Unternehmen darstellt. Heute verbringen sie bis zu zwei Drittel ihrer Zeit mit der komplexen Systemadministrationsarbeit „ML Ops“, die in KI-Unternehmen weitgehend generisch ist und oft außerhalb ihres Fachgebiets liegt – es macht keinen Sinn, dies intern zu erledigen.“


Bonus: Hier ist ein Video von unserem eigenen Lucas Matney, der das Meta 2 AR-Headset von Sands letzter Firma im Jahr 2016 ausprobiert.

tch-1-tech