Es gibt bereits eine lange Liste von Large Language Models (LLMs), die bereits im Umlauf sind, von GPT-4 von OpenAI über PaLM2 von Google bis hin zu LLaMA von Meta, um nur drei der bekannteren Beispiele zu nennen. Die Differenzierung zwischen LLMs wird durch Faktoren bestimmt, darunter die Kernarchitektur des Modells, die verwendeten Trainingsdaten, die angewendeten Modellgewichte und etwaige Feinabstimmungen für bestimmte Kontexte/Zwecke sowie die Entwicklungskosten (und das relative Budget, das der Modellhersteller ausgeben muss). auf diese Kosten) – all dies kann Einfluss darauf haben, wie diese Variante der generativen KI als Reaktion auf die Anfrage eines Benutzers in natürlicher Sprache funktioniert.
Tatsache ist, dass es unwahrscheinlich ist, dass diese ohnehin schon lange Liste von LLMs bald aufhört zu wachsen, wenn man bedenkt, mit wie vielen Variablen und Kontexten KI-Entwickler spielen können, um zu versuchen, für einen bestimmten Anwendungsfall die beste Leistung aus generativer Konversations-KI zu erzielen.
Ein weiterer Faktor, der die Ergebnisse beeinflusst, ist, wie sehr sich die LLM-Entwicklung auf die englische Sprache konzentriert hat – wobei dem Training von Modellen in anderen Sprachen weniger Aufmerksamkeit geschenkt wurde (normalerweise ist es billiger/einfacher, englischsprachige Daten für das Training zu beschaffen). Dies bedeutet, dass LLMs bei der Beantwortung von Anfragen in englischer Sprache wahrscheinlich eine bessere Leistung erbringen als bei Anfragen in anderen Sprachen. Modelle, die in nicht-englischen Sprachen geschult sind, stellen also wohl eine ziemlich bemerkenswerte Gelegenheit dar, diese Liste weiter auszubauen.
Treffen Sie sich zu diesem Zweck Lince Zero: Ein auf Spanischunterricht abgestimmtes LLM, das letzte Woche von einem in Madrid ansässigen KI-Startup veröffentlicht wurde Clibraindas glaubt, durch die Entwicklung von Modellen, die für spanischsprachige Personen optimiert sind, eine Lücke entdeckt zu haben, um in den Wettlauf um generative KI einzusteigen.
Es weist darauf hin, dass Spanisch nicht nur eine der am häufigsten gesprochenen Sprachen weltweit ist, sondern auch über eine beträchtliche Vielfalt an Dialekten und Varianten verfügt, da es in etwa 20 Ländern auf mehreren Kontinenten (und kulturellen Kontexten) gesprochen wird – was seiner Meinung nach das Wasser für die Leistung trübt von Mainstream-Modellen, auf die nicht so umfassend eingegangen wird spanisch.
Ein solcher Biggie, OpenAIs ChatGPT, beherrscht Spanisch. Wie andere auch. Aber Clibrain behauptet, dass sein vollständiger Fokus auf die Sprache es seinem bevorstehenden Basismodell ermöglichen wird, plus einer Reihe von domänentrainierten Modellen, die es auf der Basis des großen Modells entwickeln will, in der Lage sein werden, mehr spanische Sprachnuancen zu analysieren und zu verstehen als der durchschnittliche LLM, danke zum Training an einem speziellen Korpus spanischsprachiger Daten.
Die Veröffentlichung von Lince Zero ist der erste Schritt auf der ehrgeizigen Roadmap. Dieses LLM ist Es basiert weitgehend auf vorhandenen Open-Source-Technologien und kann daher noch nicht über ein eigenes Grundmodell verfügen. Aber es heißt, das kommt bald.
Mitbegründerin und CEO, Elena González-Blanco, bringt einen Bildungshintergrund in Linguistikforschung und Poesie in das Startup ein, kombiniert mit einem beruflichen Schwerpunkt auf KI (bzw IA (wie es auf Spanisch wiedergegeben wird) – einschließlich jahrelanger Arbeit an früheren Iterationen der NLP-Technologie (Natural Language Processing) und dem Sammeln von Branchenerfahrung im Insurtech- und Fintech-Bereich (bei Unternehmen wie Indra und Banco Santander).
Sie weist jedoch darauf hin, dass ihre jahrelange Tätigkeit in der Linguistikforschung einen besonders wichtigen Beitrag zum Projekt geleistet hat – indem sie es Clibrain ermöglicht hat, einzigartige Trainingsdaten zu beschaffen, um seine Modellbauambitionen jetzt zu unterstützen.
Wir setzen auf sprachliche Qualität
„Wir haben einen Korpus [of training data] Das ist einzigartig“, sagt sie. „Ich bin Linguist und habe, sagen wir, 15 Jahre Forschung im Bereich der Sprachgeschichte, der spanischen Sprache … viele Kontakte, die noch nicht für die Ausbildung genutzt wurden. Wir haben also einen einzigartigen Korpus [as a differentiator].“
„Wir glauben, dass es für uns eine äußerst interessante Chance gibt, denn in der KI-Welt passiert zwar viel, aber der spanischsprachige Markt befindet sich auf einer völlig zweiten Ebene“, sagt sie auch gegenüber Tech. „Die Qualität dessen, was wir bauen – sprachlich – ist deutlich anders. Der Punkt ist also nicht [to build] ein riesiges Modell – aber ein sehr hochwertiges Modell.“
Die erste Modellveröffentlichung von Clibrain, die Lince Zero-Modell heißt (und unter einer Open-Source-Lizenz veröffentlicht wird), ist ein 7-Milliarden-Parameter-Vorgeschmack auf ein leistungsstärkeres (Grund-)Modell (40-Milliarden-Parameter), das in der Pipeline ist – was einfach so sein wird namens Lince (ein Wort, das auf Englisch Luchs bedeutet; auch bekannt als eine Anspielung auf Spaniens berühmte, aber selten zu sehende Wildkatze).
Wie Sie an den Parameterzahlen erkennen können, sind diese LLMs bei weitem nicht die größten Modelle auf dem Markt. Aber wie González-Blanco argumentiert, ist Clibrain davon überzeugt, dass die Modellgröße nicht per se das entscheidende Merkmal sein wird, wenn es darum geht, einen Leistungsvorteil durch ein verbessertes Verständnis der spanischen Sprache zu erzielen – vielmehr zählt die Qualität der sprachlichen Details (und es hofft, ihm einen Vorsprung auf den spanischen Märkten zu verschaffen). Im Wesentlichen geht man also davon aus, dass es eine Menge spanischsprachiger Benutzer geben wird, die bereit sind, ein wenig auf modernste generative KI-Fähigkeiten (und/oder Leistung) zu verzichten, um ein höheres Maß an muttersprachlichem Sprachverständnis zu erreichen.
Und in dieser Hinsicht kann man mit Fug und Recht sagen, dass Dinge, die bei der Übersetzung verloren gehen, eine Menge irritierender Reibungen erzeugen können. Unter der Annahme, dass Lince wirklich einen sprachlichen Vorsprung bei spanischen Suchanfragen liefern und aufrechterhalten kann, könnte es (zumindest) für einen Teil der fast einer halben Milliarde spanischer Muttersprachler weltweit, die am Ende diese Art von KI nutzen könnten, auf der Spur sein Werkzeug.
Natürlich ist es nicht das erste Unternehmen, das den Wert der Optimierung für eine bestimmte Sprache erkennt. Mittlerweile gibt es eine Reihe von LLMs, die nicht für die englische Sprache optimiert sind, wie zum Beispiel Baidus chinesisches Sprachmodell Ernie. Oder dieses LLM-Modellfamilie, die auf Deutsch abgestimmt wird. Auch der südkoreanische Technologieriese Naver arbeitet an auf Koreanisch trainierten generativen KI-Modellen. Und es ist eine sichere Wette, dass es mehr LLMs geben wird, die sich an Gemeinschaften von Nicht-Englisch-Sprechern richten – zumindest für die weiter verbreiteten Sprachen.
Clibrain ist auch nicht das erste Konversations-KI-Modell, das sich auf Spanisch konzentriert – das MarIA-Projekt des Barcelona Supercomputing Centre, das bereits 2021 eingeführt wurde, behauptete, das erste „massive“ KI-System in spanischer Sprache zu sein. Aber Clibrain argumentiert, dass es MarIA übertroffen und das bisher technologisch „fortschrittlichste“ Modell mit Fokus auf den spanischsprachigen Markt geschaffen hat.
Laut González-Blanco entspricht die Leistung von Lince Zero GPT-3, während sie sagt, dass die Leistung von MarIA GPT-2 entspricht. (Obwohl das Benchmarking der sprachlichen Leistung von LLMs an und für sich ein hochmodernes Geschäft ist. Allerdings ermutigt Clibrain in dieser Hinsicht Spanischsprecher, sich anzusehen, was es aufgebaut hat, und mit der Generierung von Feedback zu beginnen.)
Im Gegensatz zu Lince Zero wird das kommende (Vollfett-)Modell von Lince nicht Open Source sein. Stattdessen wird das proprietäre Modell über eine API zahlenden Kunden zur Verfügung gestellt, die sich an ein Modell anschließen möchten, das auf einem Datenkorpus auf Spanisch trainiert wurde. Das Startup wird den Zugriff auch durch die Einbettung des Modells in drei Kommunikations- und Produktivitäts-Apps ermöglichen, die es ebenfalls anbietet (CliChat, CliCall und CliBot).
Die Entwicklung wird ebenfalls fortgesetzt und es ist beabsichtigt, in Zukunft weitere proprietäre Modelle anzubieten – darunter multimodale Modelle, die auf Bilder und Audio reagieren können, nicht nur auf Text. Es gibt also viel auf der Produkt-Roadmap, um das Team zu beschäftigen.
Während Clibrain auf eine Reihe von Open-Source-Technologien zurückgegriffen hat, um Lince Zero zu erstellen (Dokumentation dazu). Hugging Face-Modellkarte legt fest, dass es auf Falcon-7B basiert und mithilfe einer Kombination aus verfeinert wurde Alpaka Und Dolly Datensätze – ins Spanische übersetzt und auf 80.000 Beispiele „erweitert“) behauptet es, dass es nicht nur bestehende Architekturen nutzt – und wirbt damit für seine eigenen erfahrenen Ingenieurtalente im Bereich KI.
Das Startup wurde erst im April gegründet, ist also erst etwa drei Monate alt – was das rasante Tempo der Entwicklung im Bereich der generativen KI heutzutage zu unterstreichen scheint, mit so vielen umfangreichen Open-Source-Bibliotheken, auf die man zugreifen und die Kosten für das Modelltraining berechnen kann im Vergleich zu den letzten Jahren erheblich zurückgegangen. Aber es fing nicht ganz bei Null an, da es aus einem anderen Startup von González-Blanco (einem Autokreditunternehmen namens Clidrive) hervorgegangen war.
Sie erklärt, dass sie in diesem Unternehmen intern mit KI experimentiert hätten, aber zu dem Schluss gekommen seien, dass die Größe der Chance, ein auf die spanischen Märkte zugeschnittenes LLM zu entwickeln, die Gründung eines separaten Startups rechtfertige – und hier sind sie alle: A Multidisziplinäres Team von fast 30 Mitarbeitern mit einem Forschungs- und Entwicklungslabor, das sich auf generative KI konzentriert.
„Es war für uns wirklich sehr einfach, diese Forschungsgruppe aufzubauen und uns auf die Dinge zu konzentrieren, die wir bereits getan hatten“, fügt González-Blanco hinzu.
Die anderen (vier) Mitbegründer sind Pablo Fernández (Präsident), Pablo Molina (CTO), Paul Martz (CPO) und David Villalón (CAIO).
Die Mitbegründer haben bisher die Entwicklung vorangetrieben und dabei Mittel aus früheren Startup-Exits verwendet. Das bedeutet – vielleicht ungewöhnlich in diesen vom KI-Hype angeheizten Zeiten, in denen große Mengen an Investorengeldern umgeleitet werden, um KI-fokussierte Unternehmer anzusprechen –, dass Clibrain bisher weder über eine umfangreiche Investorenliste noch über eine umfangreiche Finanzierungsliste verfügt.
González-Blanco sagt, sie wollten sich auf die Entwicklung von Kernmodellen und die Markteinführung ihrer ersten Produkte konzentrieren und nicht auf die Beschaffung externer Mittel. Sie fügt jedoch hinzu, dass sie möglicherweise versuchen werden, eine größere Investitionsrunde aufzubringen, als die Gründer selbst aufbringen konnten, während sie die Lince-Produkt-Roadmap weiter vorantreiben.