Die Entwicklung und der Betrieb von KI wird immer kostspieliger. Die KI-Betriebskosten von OpenAI könnten erreichen 7 Milliarden US-Dollar in diesem Jahr, während der CEO von Anthropic dies kürzlich vorgeschlagen hat Kalkulation Über 10 Milliarden US-Dollar könnten bald eintreffen.
Es wird also nach Möglichkeiten gesucht, KI billiger zu machen.
Einige Forscher konzentrieren sich auf Techniken zur Optimierung bestehender Modellarchitekturen – also der Struktur und Komponenten, die Modelle zum Funktionieren bringen. Andere entwickeln neue Architekturen, von denen sie glauben, dass sie sich besser zu einem erschwinglichen Preis skalieren lassen.
Karan Goel gehört zum letzteren Lager. Beim Startup war er Mitbegründer von KartesieGoel arbeitet an sogenannten Zustandsraummodellen (SSMs), einer neueren, hocheffizienten Modellarchitektur, die große Datenmengen – Text, Bilder usw. – gleichzeitig verarbeiten kann.
„Wir glauben, dass neue Modellarchitekturen notwendig sind, um wirklich nützliche KI-Modelle zu erstellen“, sagte Goel gegenüber Tech. „Die KI-Branche ist ein wettbewerbsintensiver Bereich, sowohl kommerziell als auch Open Source, und die Entwicklung des besten Modells ist entscheidend für den Erfolg.“
Akademische Wurzeln
Bevor er zu Cartesia kam, war Goel Ph.D. Kandidat im KI-Labor von Stanford, wo er unter anderem unter der Aufsicht des Informatikers Christopher Ré arbeitete. Während seiner Zeit in Stanford lernte Goel Albert Gu kennen, einen Doktorandenkollegen. Kandidat im Labor, und die beiden skizzierten, was der SSM werden sollte.
Goel nahm schließlich eine Stelle bei Snorkel AI und dann bei Salesforce an, während Gu Assistenzprofessor an der Carnegie Mellon wurde. Aber Gu und Goel studierten weiterhin SSMs und veröffentlichten mehrere ausschlaggebend Forschungsarbeiten auf die Architektur.
Im Jahr 2023 beschlossen Gu und Goel – zusammen mit zwei ihrer ehemaligen Stanford-Kollegen, Arjun Desai und Brandon Yang –, ihre Kräfte zu bündeln, um Cartesia zu gründen, um ihre Forschung zu kommerzialisieren.
Cartesia, zu dessen Gründungsteam auch Ré gehört, steht hinter vielen Derivaten von Mamba, dem heute vielleicht beliebtesten SSM. Gu und Princeton-Professor Tri Dao haben Mamba im vergangenen Dezember als offenes Forschungsprojekt gestartet und verfeinern es in nachfolgenden Veröffentlichungen weiter.
Cartesia baut auf Mamba auf und trainiert zusätzlich seine eigenen SSMs. Wie alle SSMs geben Cartesias der KI so etwas wie einen Arbeitsspeicher, wodurch die Modelle schneller – und möglicherweise effizienter – in der Art und Weise, wie sie Rechenleistung nutzen, genutzt werden.
SSMs vs. Transformatoren
Die meisten KI-Apps von heute, von ChatGPT bis Sora, basieren auf Modellen mit einer Transformer-Architektur. Während ein Transformer Daten verarbeitet, fügt er Einträge zu einem sogenannten „verborgenen Zustand“ hinzu, um sich zu „merken“, was er verarbeitet hat. Wenn sich das Modell beispielsweise durch ein Buch arbeitet, könnten die verborgenen Zustandswerte Darstellungen von Wörtern im Buch sein.
Der verborgene Zustand ist einer der Gründe, warum Transformatoren so leistungsstark sind. Aber es ist auch die Ursache ihrer Ineffizienz. Um auch nur ein einziges Wort über ein Buch zu „sagen“, das ein Transformator gerade aufgenommen hat, müsste das Modell seinen gesamten verborgenen Zustand durchsuchen – eine Aufgabe, die so rechenintensiv ist wie das erneute Lesen des gesamten Buchs.
Im Gegensatz dazu komprimieren SSMs jeden vorherigen Datenpunkt zu einer Art Zusammenfassung von allem, was sie zuvor gesehen haben. Wenn neue Datenströme eingehen, wird der „Status“ des Modells aktualisiert und der SSM verwirft die meisten vorherigen Daten.
Das Ergebnis? SSMs können große Datenmengen verarbeiten und sind bei bestimmten Datengenerierungsaufgaben besser als Transformatoren. Mit Inferenzkosten So wie sie sind, ist das in der Tat ein attraktives Angebot.
Ethische Bedenken
Cartesia funktioniert wie ein gemeinschaftliches Forschungslabor und entwickelt SSMs in Partnerschaft sowohl mit externen Organisationen als auch intern. Sonic, das neueste Projekt des Unternehmens, ist ein SSM, der die Stimme einer Person klonen oder eine neue Stimme erzeugen und den Ton und die Kadenz in der Aufnahme anpassen kann.
Goel behauptet, dass Sonic, das über eine API und ein Web-Dashboard verfügbar ist, das schnellste Modell seiner Klasse ist. „Sonic ist ein Beweis dafür, wie sich SSMs bei Daten mit langem Kontext wie Audio auszeichnen und gleichzeitig die höchsten Leistungsmaßstäbe halten, wenn es um Stabilität und Genauigkeit geht“, sagte er.
Während Cartesia es geschafft hat, Produkte schnell auszuliefern, ist das Unternehmen auf viele der gleichen ethischen Fallstricke gestoßen, mit denen auch andere KI-Modellbauer zu kämpfen hatten.
Kartesie ausgebildet zumindest einige seiner SSMs auf The Pile, einem offenen Datensatz, der bekanntermaßen nicht lizenzierte urheberrechtlich geschützte Bücher enthält. Das argumentieren viele KI-Unternehmen faire Nutzung Die Doktrin schützt sie vor Verletzungsklagen. Aber das hat die Autoren nicht davon abgehalten, zu klagen Meta und Microsoftund andere, wegen angeblicher Ausbildung von Models auf The Pile.
Und Cartesia verfügt über kaum sichtbare Sicherheitsvorkehrungen für seinen Sonic-basierten Sprachkloner. Vor ein paar Wochen konnte ich mithilfe von Wahlkampfreden einen Klon der Stimme der ehemaligen Vizepräsidentin Kamala Harris erstellen (siehe unten). Für das Tool von Cartesia müssen Sie lediglich ein Kästchen ankreuzen, das angibt, dass Sie sich an die Nutzungsbedingungen des Startups halten.
Cartesia ist in dieser Hinsicht nicht unbedingt schlechter als andere Tools zum Klonen von Stimmen auf dem Markt. Mit Berichten über schlagende Stimmklone BanksicherheitskontrollenAllerdings ist die Optik nicht überragend.
Goel würde nicht sagen, dass Cartesia keine Modelle mehr auf The Pile trainiert. Aber er ging auf die Moderationsprobleme ein und teilte Tech mit, dass Cartesia über „automatisierte und manuelle Überprüfungssysteme“ verfügt und „an Systemen zur Sprachüberprüfung und Wasserzeichenierung arbeitet“.
„Wir haben spezielle Teams, die Aspekte wie technische Leistung, Missbrauch und Voreingenommenheit testen“, sagte Goel. „Wir bauen außerdem Partnerschaften mit externen Prüfern auf, um die Sicherheit und Zuverlässigkeit unserer Modelle zusätzlich unabhängig zu überprüfen … Wir sind uns bewusst, dass dies ein fortlaufender Prozess ist, der einer ständigen Verbesserung bedarf.“
Aufstrebendes Geschäft
Goel sagt, dass „Hunderte“ Kunden für den Sonic-API-Zugriff zahlen, Cartesias Haupteinnahmequelle, einschließlich der automatisierten Anruf-App Goodcall. Die API von Cartesia ist für bis zu 100.000 vorgelesene Zeichen kostenlos, wobei der teuerste Plan bei 299 US-Dollar pro Monat für 8 Millionen Zeichen liegt. (Cartesia bietet auch eine Enterprise-Stufe mit dediziertem Support und benutzerdefinierten Limits.)
Standardmäßig verwendet Cartesia Kundendaten, um seine Modelle zu trainieren – eine nicht ungewöhnliche Richtlinie, die jedoch bei datenschutzbewussten Benutzern wahrscheinlich nicht gut ankommt. Goal weist darauf hin, dass Benutzer sich bei Bedarf abmelden können und dass Cartesia benutzerdefinierte Aufbewahrungsrichtlinien für größere Organisationen anbietet.
Die Datenpraktiken von Cartesia scheinen dem Geschäft nicht zu schaden, zumindest nicht, solange Cartesia einen technischen Vorteil hat. Bob Summers, CEO von Goodcall, sagt, dass er sich für Sonic entschieden hat, weil es das einzige Spracherzeugungsmodell mit einem war Latenz unter 90 Millisekunden.
„[It] übertraf seine nächstbeste Alternative um den Faktor vier“, fügte Summers hinzu.
Heute wird Sonic für Spiele, Synchronisation und mehr verwendet. Goel glaubt jedoch, dass dies nur ein Bruchteil dessen ist, was SSMs leisten können.
Seine Vision sind Modelle, die auf jedem Gerät laufen und jede Datenmodalität – Texte, Bilder, Videos usw. – fast sofort verstehen und generieren. In einem kleinen Schritt in diese Richtung hat Cartesia diesen Sommer eine Betaversion von Sonic On-Device gestartet, einer Version von Sonic, die für die Ausführung auf Telefonen und anderen Mobilgeräten für Anwendungen wie Echtzeitübersetzung optimiert ist.
Neben Sonic On-Device veröffentlichte Cartesia Edge, eine Softwarebibliothek zur Optimierung von SSMs für verschiedene Hardwarekonfigurationen Renéein kompaktes Sprachmodell.
„Wir haben die große, langfristige Vision, das multimodale Basismodell der Wahl für jedes Gerät zu werden“, sagte Goel. „Unsere langfristige Roadmap umfasst die Entwicklung multimodaler KI-Modelle mit dem Ziel, Echtzeitinformationen zu schaffen, die über große Kontexte hinweg schlussfolgern können.“
Damit dies gelingt, muss Cartesia potenzielle Neukunden davon überzeugen, dass seine Architektur es wert ist, die Lernkurve in Kauf zu nehmen. Außerdem muss es anderen Anbietern, die mit Alternativen zum Transformator experimentieren, einen Schritt voraus sein.
Startups Zephyra, Mistralund AI21 Labs haben hybride Mamba-basierte Modelle trainiert. An anderer Stelle entwickelt Liquid AI unter der Leitung der Robotik-Koryphäe Daniela Rus eine eigene Architektur.
Goel behauptet jedoch, dass Cartesia mit 26 Mitarbeitern auf Erfolgskurs ist – unter anderem dank einer neuen Finanzspritze. Das Unternehmen schloss diesen Monat eine von Index Ventures angeführte Finanzierungsrunde in Höhe von 22 Millionen US-Dollar ab, wodurch sich die Gesamteinnahme von Cartesia auf 27 Millionen US-Dollar erhöhte.
Shardul Shah, Partner bei Index Ventures, geht davon aus, dass die Technologie von Cartesia eines Tages Apps für Kundenservice, Vertrieb und Marketing, Robotik, Sicherheit und mehr vorantreiben wird.
„Indem Cartesia die traditionelle Abhängigkeit von transformatorbasierten Architekturen in Frage gestellt hat, hat es neue Möglichkeiten eröffnet, Echtzeit-, kostengünstige und skalierbare KI-Anwendungen zu erstellen“, sagte er. „Der Markt verlangt nach schnelleren und effizienteren Modellen, die überall eingesetzt werden können – vom Rechenzentrum bis zu den Geräten. Die Technologie von Cartesia ist in der einzigartigen Lage, dieses Versprechen einzulösen und die nächste Welle der KI-Innovation voranzutreiben.“
A* Capital, Conviction, General Catalyst, Lightspeed und SV Angel beteiligten sich ebenfalls an der jüngsten Finanzierungsrunde des in San Francisco ansässigen Unternehmens Cartesia.