BeginnEin neues in Palo Alto ansässiges Unternehmen, das von Stanford Informatic-Professor Stefano Ermon gegründet wurde, behauptet, ein neuartiges KI-Modell entwickelt zu haben, das auf der „Diffusion“ -Technologie basiert. Inception nennt es ein diffusionsbasiertes großes Sprachmodell oder kurz „DLM“.
Die generativen KI -Modelle, die jetzt die größte Aufmerksamkeit erhalten, können in zwei Arten weitgehend unterteilt werden: Großsprachenmodelle (LLMs) und Diffusionsmodelle. LLMs, aufgebaut auf dem Transformatorarchitekturwerden für die Textgenerierung verwendet. In der Zwischenzeit werden Diffusionsmodelle, die KI -Systeme wie Midjourney und OpenAIs Sora betreiben, hauptsächlich zum Erstellen von Bildern, Video und Audio verwendet.
Das Modell von Inception bietet die Funktionen herkömmlicher LLMs, einschließlich Codegenerierung und Fragen, jedoch mit deutlich schnelleren Leistung und reduzierten Rechenkosten, so das Unternehmen.
Ermon sagte Tech, dass er in seinem Stanford Labor schon lange untersucht habe, wie Diffusionsmodelle auf eine SMS anwenden können. Seine Forschung beruhte auf der Idee, dass traditionelle LLMs im Vergleich zur Diffusionstechnologie relativ langsam sind.
Mit LLMs „Sie erst dann das zweite Wort generieren, bis Sie das erste generiert haben, und Sie das dritte erst erzeugen können, wenn Sie die ersten beiden generieren“, sagte Ermon.
Ermon suchte nach einer Möglichkeit, einen Diffusionsansatz zum Text anzuwenden, da im Gegensatz zu LLMs, die nacheinander funktionieren, Diffusionsmodelle mit einer groben Schätzung der Daten beginnen, die sie generieren (z. B. ein Bild), und dann die Daten auf einmal in den Fokus zu bringen.
Ermon wurde mit Diffusionsmodellen angenommen, dass große Textblöcke parallel erzeugt und modifiziert wurden. Nach Jahren des Versuchs erzielten Ermon und ein Student von ihm einen großen Durchbruch, den sie in a detailliert beschrieben haben Forschungspapier Letztes Jahr veröffentlicht.
Ermon erkannte das Potenzial des Fortschritts im vergangenen Sommer an und tippte im vergangenen Sommer auf zwei ehemalige Studenten, Aditya Grover und Cornell Professor Volodymyr Kuleshov, um das Unternehmen mit der Leitung des Unternehmens zu tippte.
Während Ermon es ablehnte, die Finanzierung von Inception zu diskutieren, versteht Tech, dass der Mayfield -Fonds investiert hat.
Inception hat bereits mehrere Kunden gesichert, darunter unbenannte Fortune 100 -Unternehmen, indem sie ihren kritischen Bedarf an reduzierter KI -Latenz und erhöhter Geschwindigkeit begegnen, sagte Emron.
„Wir haben festgestellt, dass unsere Modelle den GPUs viel effizienter nutzen können“, sagte Ermon und bezog sich auf die Computerchips, die üblicherweise zum Ausführen von Modellen in der Produktion verwendet werden. „Ich denke, das ist eine große Sache. Dies wird die Art und Weise verändern, wie Menschen Sprachmodelle aufbauen. “
Inception bietet eine API sowie eine lokale Bereitstellungsoptionen für Premises und Edge-Geräte, Unterstützung für die Feinabstimmung der Modell und eine Reihe von DLMs außerhalb des Boxs für verschiedene Anwendungsfälle. Das Unternehmen behauptet, dass sein DLMs bis zu 10 -fach schneller als herkömmliche LLMs lief und gleichzeitig 10x weniger kosten.
„Unser ‚kleines‘ Codierungsmodell ist so gut wie [OpenAI’s] GPT-4O Mini mehr als zehnmal so schnell “, sagte ein Firmensprecher gegenüber Tech. „Unser ‚Mini‘-Modell übertrifft kleine Open-Source-Modelle wie [Meta’s] Lama 3.1 8b und erreicht mehr als 1.000 Token pro Sekunde. “
„Tokens“ ist Industriesprache für Rohdaten. Eintausend Token pro Sekunde ist Eine beeindruckende Geschwindigkeit in der Tatunter der Annahme, dass die Ansprüche von Inception behaupten.