AI2 entwickelt ein großes, für die Wissenschaft optimiertes Sprachmodell

Palme 2. GPT-4. Die Liste textgenerierender KI wächst praktisch von Tag zu Tag.

Die meisten dieser Modelle sind hinter APIs verborgen, sodass Forscher nicht genau erkennen können, was sie antreibt. Aber die Bemühungen der Community führen zunehmend zu Open-Source-KI, die genauso ausgefeilt, wenn nicht sogar noch ausgereifter ist als ihre kommerziellen Gegenstücke.

Die neueste dieser Bemühungen ist das Open Language Model, ein großes Sprachmodell, das irgendwann im Jahr 2024 vom gemeinnützigen Allen Institute for AI Research (AI2) veröffentlicht werden soll. Open Language Model, kurz OLMo, wird in Zusammenarbeit mit AMD entwickelt und das Large Unified Modern Infrastructure-Konsortium, das Supercomputing-Leistung für Schulung und Ausbildung bereitstellt, sowie Surge AI und MosaicML (die Daten und Trainingscode bereitstellen).

„Die Forschungs- und Technologiegemeinschaften brauchen Zugang zu offenen Sprachmodellen, um diese Wissenschaft voranzutreiben“, sagte Hanna Hajishirzi, leitende Direktorin der NLP-Forschung bei AI2, gegenüber Tech in einem E-Mail-Interview. „Mit OLMo arbeiten wir daran, die Lücke zwischen öffentlichen und privaten Forschungskapazitäten und -kenntnissen zu schließen, indem wir ein wettbewerbsfähiges Sprachmodell entwickeln.“

Man könnte sich – einschließlich dieses Reporters – fragen, warum AI2 das Bedürfnis verspürte, ein offenes Sprachmodell zu entwickeln, wenn es doch bereits mehrere zur Auswahl gibt (siehe blühenMetas Lama, usw.). Aus Hajishirzis Sicht waren die bisherigen Open-Source-Veröffentlichungen zwar wertvoll und sogar grenzüberschreitend, haben ihr Ziel jedoch in verschiedener Hinsicht verfehlt.

AI2 sieht OLMo als Plattform und nicht nur als Modell – als eines, das es der Forschungsgemeinschaft ermöglicht, jede von AI2 erstellte Komponente zu übernehmen und sie entweder selbst zu nutzen oder zu versuchen, sie zu verbessern. Alles, was AI2 für OLMo macht, wird laut Hajishirzi offen verfügbar sein, einschließlich einer öffentlichen Demo, eines Trainingsdatensatzes und einer API, und mit „sehr begrenzten“ Ausnahmen unter „geeigneter“ Lizenzierung dokumentiert.

„Wir bauen OLMo, um der KI-Forschungsgemeinschaft einen besseren Zugang zur direkten Arbeit an Sprachmodellen zu ermöglichen“, sagte Hajishirzi. „Wir glauben, dass die breite Verfügbarkeit aller Aspekte von OLMo es der Forschungsgemeinschaft ermöglichen wird, das, was wir schaffen, zu nutzen und daran zu arbeiten, es zu verbessern. Unser oberstes Ziel ist es, gemeinsam das beste offene Sprachmodell der Welt zu entwickeln.“

Das andere Unterscheidungsmerkmal von OLMo ist laut Noah Smith, Senior Director der NLP-Forschung bei AI2, der Fokus darauf, dem Modell zu ermöglichen, Lehrbücher und wissenschaftliche Arbeiten besser zu nutzen und zu verstehen als beispielsweise Code. Es gab andere Versuche dazu, wie den berüchtigten von Meta Galactica Modell. Aber Hajishirzi glaubt, dass die Arbeit von AI2 im akademischen Bereich und die von ihm für die Forschung entwickelten Tools, wie Semantic Scholar, dazu beitragen werden, OLMo „einzigartig geeignet“ für wissenschaftliche und akademische Anwendungen zu machen.

„Wir glauben, dass OLMo das Potenzial hat, etwas wirklich Besonderes auf diesem Gebiet zu sein, insbesondere in einer Landschaft, in der viele das Interesse an generativen KI-Modellen ausnutzen, um davon zu profitieren“, sagte Smith. „Die einzigartige Fähigkeit von AI2, als externe Experten zu agieren, gibt uns die Möglichkeit, nicht nur mit unserem eigenen erstklassigen Fachwissen zu arbeiten, sondern auch mit den stärksten Köpfen der Branche zusammenzuarbeiten. Daher glauben wir, dass unser rigoroser, dokumentierter Ansatz die Voraussetzungen für den Aufbau der nächsten Generation sicherer und effektiver KI-Technologien schaffen wird.“

Das ist sicherlich ein schönes Gefühl. Aber wie sieht es mit den heiklen ethischen und rechtlichen Fragen rund um die Ausbildung – und Veröffentlichung – generativer KI aus? Die Debatte dreht sich um die Rechte von Inhaltseigentümern (und anderen betroffenen Interessengruppen), und unzählige drängende Fragen müssen noch vor Gericht geklärt werden.

Um Bedenken auszuräumen, plant das OLMo-Team, mit der Rechtsabteilung von AI2 und noch zu bestimmenden externen Experten zusammenzuarbeiten und an „Kontrollpunkten“ im Modellbildungsprozess anzuhalten, um Fragen des Datenschutzes und der Rechte an geistigem Eigentum neu zu bewerten.

„Wir hoffen, dass wir durch einen offenen und transparenten Dialog über das Modell und seine beabsichtigte Verwendung besser verstehen können, wie wir Voreingenommenheit und Toxizität abmildern und ein Licht auf offene Forschungsfragen innerhalb der Community werfen können, was letztendlich zu einem der stärksten verfügbaren Modelle führt.“ “, sagte Smith.

Wie sieht es mit der Möglichkeit eines Missbrauchs aus? Modelle, die von vornherein oft giftig und voreingenommen sind, sind anfällig für schlechte Akteure, die darauf abzielen, Desinformation zu verbreiten und bösartigen Code zu generieren.

Hajishirzi sagte, dass AI2 eine Kombination aus Lizenzierung, Modelldesign und selektivem Zugriff auf die zugrunde liegenden Komponenten nutzen werde, um „den wissenschaftlichen Nutzen zu maximieren und gleichzeitig das Risiko einer schädlichen Nutzung zu verringern“. Um die Richtlinien zu leiten, verfügt OLMo über einen Ethikprüfungsausschuss mit internen und externen Beratern (AI2 würde nicht genau sagen, wer), die während des gesamten Modellerstellungsprozesses Feedback geben.

Wir werden sehen, inwieweit das einen Unterschied macht. Im Moment ist noch viel offen – einschließlich der meisten technischen Spezifikationen des Modells. (AI2 gab bekannt, dass es rund 70 Milliarden Parameter haben wird, wobei es sich bei den Parametern um die Teile des Modells handelt, die aus historischen Trainingsdaten gelernt wurden.) Das Training soll auf dem Supercomputer von LUMI in Finnland beginnen – dem schnellsten Supercomputer Europas (Stand Januar 2019). kommende Monate.

AI2 lädt Mitarbeiter ein, zum Modellentwicklungsprozess beizutragen und ihn zu kritisieren. Interessenten können sich an die OLMo-Projektorganisatoren wenden Hier.

tch-1-tech