Runware nutzt benutzerdefinierte Hardware und erweiterte Orchestrierung für schnelle KI-Inferenz

Manchmal reicht eine Demo aus, um ein Produkt zu verstehen. Und das ist bei Runware der Fall. Wenn Sie rübergehen Runwares Websitegeben Sie eine Eingabeaufforderung ein und drücken Sie die Eingabetaste, um ein Bild zu generieren. Sie werden überrascht sein, wie schnell Runware das Bild für Sie generiert – es dauert weniger als eine Sekunde.

Runware ist ein Neuling in der KI-Inferenz- oder generativen KI-Startup-Landschaft. Das Unternehmen baut seine eigenen Server und optimiert die Softwareschicht auf diesen Servern, um Engpässe zu beseitigen und die Inferenzgeschwindigkeit für Bilderzeugungsmodelle zu verbessern. Das Startup hat sich bereits eine Finanzierung in Höhe von 3 Millionen US-Dollar von Speedrun von Andreessen Horowitz, Halo II von LakeStar und Lunar Ventures gesichert.

Das Unternehmen will das Rad nicht neu erfinden. Es will nur, dass es sich schneller dreht. Hinter den Kulissen stellt Runware eigene Server mit möglichst vielen GPUs auf demselben Motherboard her. Es verfügt über ein eigenes, maßgeschneidertes Kühlsystem und verwaltet seine eigenen Rechenzentren.

Wenn es darum geht, KI-Modelle auf seinen Servern auszuführen, hat Runware die Orchestrierungsschicht mit BIOS- und Betriebssystemoptimierungen optimiert, um die Kaltstartzeiten zu verbessern. Es wurden eigene Algorithmen entwickelt, die Interferenz-Workloads zuordnen.

Allein schon die Demo ist beeindruckend. Nun möchte das Unternehmen all diese Arbeit in Forschung und Entwicklung einbringen und daraus ein Geschäft machen.

Im Gegensatz zu vielen GPU-Hosting-Unternehmen vermietet Runware seine GPUs nicht auf Basis der GPU-Zeit. Stattdessen sind sie der Ansicht, dass Unternehmen dazu ermutigt werden sollten, ihre Arbeitsbelastung zu erhöhen. Aus diesem Grund bietet Runware eine Bildgenerierungs-API mit einer herkömmlichen Kostenstruktur pro API-Aufruf an. Es basiert auf beliebten KI-Modellen von Flux und Stable Diffusion.

„Wenn Sie sich Together AI, Replicate, Hugging Face – alle davon – ansehen, verkaufen sie Rechenleistung basierend auf der GPU-Zeit“, sagte Mitbegründer und CEO Flaviu Radulescu gegenüber Tech. „Wenn man die Zeit, die wir für die Erstellung eines Bildes benötigen, mit ihnen vergleicht. Und wenn Sie dann die Preise vergleichen, werden Sie sehen, dass wir viel günstiger und viel schneller sind.“

„Es wird für sie unmöglich sein, diese Leistung zu erreichen“, fügte er hinzu. „Gerade bei einem Cloud-Anbieter muss man in einer virtualisierten Umgebung laufen, was zusätzliche Verzögerungen mit sich bringt.“

Da Runware die gesamte Inferenzpipeline untersucht und Hardware und Software optimiert, hofft das Unternehmen, in naher Zukunft GPUs mehrerer Anbieter nutzen zu können. Dies war für mehrere Start-ups ein wichtiges Unterfangen, da Nvidia der klare Marktführer im GPU-Bereich ist, was bedeutet, dass Nvidia-GPUs tendenziell recht teuer sind.

„Im Moment verwenden wir nur Nvidia-GPUs. Aber das sollte eine Abstraktion der Softwareschicht sein“, sagte Radulescu. „Wir können den GPU-Speicher eines Modells sehr, sehr schnell ein- und ausschalten, was es uns ermöglicht, mehrere Kunden auf dieselben GPUs zu setzen.

„Wir sind also nicht wie unsere Konkurrenten. Sie laden einfach ein Modell in die GPU und dann führt die GPU eine ganz bestimmte Art von Aufgabe aus. In unserem Fall haben wir diese Softwarelösung entwickelt, die es uns ermöglicht, ein Modell im GPU-Speicher zu wechseln, während wir Inferenzen durchführen.“

Wenn AMD und andere GPU-Anbieter Kompatibilitätsebenen erstellen können, die mit typischen KI-Workloads funktionieren, ist Runware gut positioniert, um eine Hybrid-Cloud aufzubauen, die auf GPUs mehrerer Anbieter basiert. Und das wird sicherlich helfen, wenn man bei KI-Inferenz günstiger als die Konkurrenz bleiben will.

tch-1-tech