Sesamdie KI -Firma hinter dem eindrucksvoll realistischer Sprachassistenten Mayahat das Basis -KI -Modell veröffentlicht, wie es kürzlich versprochen hat.
Das Modell, das 1 Milliarde Parameter an Größe ist („Parameter“, die sich auf einzelne Komponenten des Modells beziehen), befindet sich unter einer Apache 2.0 -Lizenz, dh es kann kommerziell mit wenigen Einschränkungen verwendet werden. Das Modell wird als CSM-1B bezeichnet und generiert „RVQ-Audiocodes“ aus Text- und Audioeingängen, sodass lautet Sesambeschreibung auf der AI Dev Platform Umarmung des Gesichts.
RVQ bezieht sich auf „Restvektorquantisierung“, eine Technik zur Codierung von Audio in diskrete Token, die als Codes bezeichnet werden. RVQ wird verwendet In einer Reihe neuer KI -Audio -Technologieneinschließlich Googles Soundstream und METAs Encodec.
CSM-1B verwendet ein Modell aus der Lama-Familie von Meta als Rückgrat, gepaart mit einer Audio-Decoder-Komponente. Eine fein abgestimmte Variante von CSM macht Maya, sagt Sesam.
„Das hier offene Modell ist ein Modell der Basisgenerierung“, schreibt Sesam in CSM-1Bs Umarmtes Gesicht Und Github Repositorys. „Es ist in der Lage, eine Vielzahl von Stimmen zu produzieren, aber es wurde nicht mit einer bestimmten Stimme abgestimmt […] Das Modell verfügt aufgrund der Datenverunreinigung in den Trainingsdaten, aber es wird wahrscheinlich nicht gut abschneiden. “
Es ist unklar, mit welchem Daten-Sesam CSM-1B trainiert wurden. Das Unternehmen hat es nicht gesagt.
Das Modell hat keine wirklichen Schutzmaßnahmen, über die man sprechen kann, es ist erwähnenswert. Es ist eine „Ehrensystem“ -Station. Sesam fordert die Entwickler und Benutzer lediglich auf, das Modell nicht zu verwenden, um die Stimme einer Person ohne ihre Zustimmung nachzuahmen, irreführende Inhalte wie gefälschte Nachrichten zu erstellen oder sich mit „schädlichen“ oder „böswilligen“ Aktivitäten zu beteiligen.
Ich habe es versucht die Demo Auf Umarmung und Klonen meiner Stimme dauerte weniger als eine Minute. Von dort aus war es leicht, die Sprache in den Wunsch meines Herzens zu erzeugen, einschließlich um kontroverse Themen wie die Wahl und die russische Propaganda:
Sesam, der von Oculus Co-Creator Brendan Iribe mitbegründet wurde, wurde Ende Februar wegen seiner stellvertretenden Technologie viral, die dem unheimlichen Territorium nahe kommt. Der andere Assistent von Maya und Sesam, Meilen, atmen und sprechen mit Disfluencies und können während des Sprechens unterbrochen werden, ähnlich wie der Sprachmodus von Openai.
Sesam hat eine nicht genannte Kapitalmenge von Andreessen Horowitz, Spark Capital und Matrix Partners angehoben. Neben dem Bau von Sprachassistenten Tech sagt das Unternehmen auch die Prototyping -KI -Brille, die „den ganzen Tag getragen werden“, der mit seinen benutzerdefinierten Modellen ausgestattet wird.