Lemurian Labs entwickelt ein neues Rechenparadigma, um die Kosten für die Ausführung von KI-Modellen zu senken

Man kann mit Recht sagen, dass Nvidia zur richtigen Zeit am richtigen Ort war und die Nachfrage nach seinen GPU-Chips dank des Ressourcenbedarfs generativer KI-Modelle so hoch ist wie nie zuvor – aber was wäre, wenn es einen Chip gäbe, der ähnliches bieten würde? Strom zu geringeren Kosten? Das ist, was Lemurian Labsein Frühphasen-Startup von Google-, Intel- und Nvidia-Alumni, versucht aufzubauen.

Sicherlich handelt es sich dabei um eine Art Mondschein-Idee, und es kostet viel Zeit und Geld, einen Chip auf den Markt zu bringen, aber es ist die Art von Vorstellung, die Investoren bereit sind, ein Risiko einzugehen, wenn sie von Gründern mit einem bestimmten Stammbaum kommt An. Heute gab das Startup eine Startkapitalinvestition in Höhe von 9 Millionen US-Dollar bekannt.

„Grundsätzlich besteht unser Ziel bei Lemurian darin, beschleunigtes Computing neu zu denken. Und der Grund, warum wir das tun wollen, ist, dass die bisherige Art und Weise, wie wir Computer betrieben haben, langsam zu Ende geht. Und es liegt nicht so sehr daran, dass es sich nicht um eine großartige Architektur oder kein großartiges Paradigma handelt, sondern vielmehr darum, dass die Physik der Halbleiter diesem Paradigma widerspricht“, sagte Jay Dawani, Mitbegründer und CEO von Lemurian, gegenüber Tech.

Ziel des Unternehmens ist es, einen neuen Chip zusammen mit Software zu entwickeln, um die Verarbeitung von KI-Workloads zugänglicher, effizienter, kostengünstiger und letztendlich umweltfreundlicher zu machen.

Als würde er einen Meisterkurs in Computerarchitektur abhalten, erklärt Lemurian, dass es beim Rechnen auf drei Dinge ankommt: „Da ist Mathematik, da ist das Gedächtnis und dann ist da noch Bewegung.“ Das Ziel sind Verbindungen. Daten werden also in Speichern gespeichert, die über eine Verbindung in eine Mathematikeinheit übertragen werden, wo sie manipuliert und dann wieder in den Speicher geschrieben werden. Das ist also der traditionelle Punkt in der Architektur: Daten müssen übertragen werden“, erklärte Dawani.

Lemurian möchte diesen Ansatz umkehren. Anstatt dafür zu sorgen, dass die Daten zu den Rechenressourcen wandern, soll die Rechenleistung zu den Daten wandern. „Was wir sagen, ist, dass wir diesen Abstand im Wesentlichen minimieren müssen, damit wir nicht wirklich Daten verschieben, sondern uns um die Datenverarbeitung herum bewegen“, sagte er.

Er sagt, dass GPUs im Wesentlichen für grafikbezogene Aufgaben entwickelt wurden, im Laufe der Zeit jedoch aufgrund ihrer reinen Verarbeitungsfähigkeiten eine Vielzahl anderer Rollen übernommen haben. „Weil man für etwas entwirft, aber auch versucht, etwas anderes zu tun, und wenn man versucht, alles zu tun, ist man nicht wirklich gut darin, alles zu tun. Und das ist wirklich die Achillesferse einer GPU. Und das versuchen wir zu beheben“, sagte Dawani.

Die Art und Weise, wie Lemurian darauf antworten möchte, besteht darin, die Mathematik auf dem Chip zu ändern, zweifellos ein riesiges Unterfangen. Wie Dawani erzählt, entschieden sich die Ingenieure in den frühen Tagen der Chipentwicklung für a Gleitkomma Ansatz, weil niemand einen logarithmischen Ansatz zum Laufen bringen konnte. Er behauptet, sein Unternehmen habe dieses Problem gelöst.

„Und das Schöne an einem logarithmischen Zahlensystem ist, dass es all diese teuren Multiplikationen und Divisionen in Additionen und Subtraktionen umwandelt, bei denen es sich in der Hardware um sehr kostenlose Operationen handelt. So sparen Sie Fläche und Energie und gewinnen an Geschwindigkeit. Und man gewinnt auch etwas an Genauigkeit oder Präzision“, was alles sehr attraktiv ist, wenn man versucht, die Verarbeitungskosten bei großen Sprachmodellen zu senken.

Wie haben sie das gemacht? „Wir sind tatsächlich auf die Erkenntnis gestoßen, dass man durch eine bestimmte Konstruktion und Erweiterung der Definition eines großen Zahlensystems tatsächlich eine exakte Lösung erstellen kann, die am Ende kleiner und genauer als Gleitkomma für die gleiche Anzahl von Bits ist ,“ er sagte.

„Und wenn man die Anzahl der Bits erhöht, wird der Dynamikbereich bei gleicher Anzahl von Bits immer besser, was wirklich sehr, sehr faszinierend ist. Das ist ein großer Teil dessen, was es uns ermöglicht, die von uns geschaffene Architektur zu erforschen, denn ohne das Zahlensystem unterliegt man den gleichen Einschränkungen.“

Sie verfolgen einen langsamen Ansatz und veröffentlichen zuerst den Software-Teil des Stacks, den sie hoffentlich im dritten Quartal des nächsten Jahres allgemein verfügbar machen werden. Die Hardware ist viel anspruchsvoller und wird Zeit und Geld kosten, um sie zu entwickeln, herzustellen und in der Produktion zu testen, aber das Ziel ist, dass dies in den kommenden Jahren geschieht.

Das Unternehmen beschäftigt derzeit 24 Mitarbeiter, größtenteils hochqualifizierte technische Ingenieure mit Erfahrung in dieser Art von Projekten. Das ist ein begrenzter Personenkreis, aber sein Ziel ist es, in den nächsten Monaten sechs weitere Leute einzustellen, und wenn alles gut geht und sie eine Serie A bekommen, werden im nächsten Jahr weitere 35 weitere eingestellt.

Die 9-Millionen-Dollar-Investition wurde von Oval Park Capital geleitet, an der sich unter anderem Good Growth Capital, Raptor Group und Alumni Ventures beteiligten.

Der Aufbau eines solchen Unternehmens und die Markteinführung des Chips stellen eine große und teure Herausforderung dar, aber wenn sie das schaffen, was sie beschreiben, könnte die Entwicklung generativer KI-Modelle (und was auch immer als nächstes kommt) viel billiger und effizienter werden.

tch-1-tech