Nach mehr als einem Jahr der Planung und Schulung hat ein von Freiwilligen geleitetes Projekt ein Open-Source-Sprachmodell hervorgebracht, von dem sie behaupten, dass es so leistungsfähig ist wie GPT-3 von OpenAI, aber kostenlos und offen für jedermann (sofern er über die Rechenleistung verfügt). . Das Modell mit dem Namen Bloom ist in Open Source verfügbar, zusammen mit dem Code und den Datensätzen, die zu seiner Erstellung verwendet wurden. Das in Brooklyn ansässige KI-Startup Hugging Face hat eine kostenlose Web-App veröffentlicht, mit der jeder Bloom ausprobieren kann, ohne sie herunterladen zu müssen.
Bloom ist die Idee von BigScience, einem internationalen, von der Community betriebenen Projekt mit dem Ziel, große natürliche Sprachmodelle für die Forschung allgemein verfügbar zu machen. Große Sprachmodelle, kurz „LLMs“, können Texte mit menschenähnlichen Nuancen übersetzen, zusammenfassen und schreiben – mehr oder weniger. (Siehe GPT-3.) Aber ihre Erstellung war in der Vergangenheit kostspielig, sodass sie von Forschern ferngehalten und fest in den Händen von großen Technologieunternehmen wie Meta, Google und Microsoft gehalten wurden.
Das ändert sich endlich, teilweise dank der Bemühungen von BigScience. Die mehr als 1.000 freiwilligen Forscher der Gruppe – unterstützt von Ethikern, Philosophen, Rechtswissenschaftlern und Ingenieuren von Start-ups und großen Technologieunternehmen gleichermaßen – haben monatelang an Bloom gearbeitet, das mit LLMs von Firmen wie OpenAI und DeepMind von Alphabet konkurriert. Bloom ist eines der größten Open-Source-Modelle, das in mehreren Sprachen funktioniert, und wurde entwickelt, um in einer Reihe von Forschungsanwendungen eingesetzt zu werden, z. B. beim Extrahieren von Informationen aus historischen Texten.
„Bloom ist in der Lage, Text in 46 natürlichen Sprachen und Dialekten und 13 Programmiersprachen zu generieren“, heißt es in einem Blogbeitrag, der vor der Veröffentlichung mit Tech geteilt wurde. „Obwohl es nie für eine dieser spezifischen Aufgaben trainiert wurde, kann Bloom gebeten werden, Zusammenfassungen oder Übersetzungen von Texten zu erstellen, Code aus Anweisungen auszugeben und Anweisungen zu folgen, um originelle Aufgaben wie das Schreiben von Rezepten, das Extrahieren von Informationen aus einem Nachrichtenartikel oder das Verfassen von Texten auszuführen Sätze, die ein neu definiertes erfundenes Wort verwenden … Blooms Leistung wird sich weiter verbessern, während der Workshop weiter experimentiert und auf Bloom aufsetzt.“
Die Unterstützer von BigScience hoffen auch, dass Bloom neue Untersuchungen anregen wird, um die Probleme zu bekämpfen, die alle LLMs plagen, einschließlich Voreingenommenheit und Toxizität. LLMs neigen dazu Unwahrheiten aussprechen und zeigen Vorurteile gegenüber Religionen, Geschlechtern, Rassen und Menschen mit Behinderungen. Sie kämpfen auch mit den Grundprinzipien des Schreibens, wechseln oft das Thema eines Gesprächs ohne Übergang und wiederholen sich endlos – oder widersprechen sich sogar.
„[Bloom] zeigt die anhaltende Leistungsfähigkeit von Open Source und Open Science selbst für teure, große Basismodelle“, sagte Richard Socher, CEO von You.com und ehemaliger Chefwissenschaftler bei Salesforce, per E-Mail gegenüber Tech. Socher hat nichts mit BigScience zu tun. „Es zeigt auch, dass in der KI keine Organisation sehr lange einen großen Vorteil hat. Sobald eine Organisation zeigt, dass etwas machbar ist, werden die gleichen Fähigkeiten sechs bis zwölf Monate später an anderen Orten erscheinen.“
Bescheidenen Anfängen
Die Ursprünge von BigScience liegen in Diskussionen vor Jahren zwischen Thomas Wolf, Chief Science Officer von Hugging Face, GENCIs Stéphane Requena und IDRIS“ Pierre-François Lavallée. Die Gründer stellten sich die Entwicklung von Software, Datensätzen, LLMs und Tools vor, um die sozialen Auswirkungen von KI zu untersuchen, die erst in den letzten Jahren von der Forschungsgemeinschaft verstärkt beachtet wurden.
Bald darauf wurden Lenkungsausschüsse gebildet, um die Mitglieder von BigScience – die aus mehr als 60 Ländern und 250 Institutionen stammten – wissenschaftlich und allgemein zu beraten, gemeinsame Aufgaben zu entwerfen und Workshops, Hackathons und öffentliche Veranstaltungen zu organisieren. Verschiedene Arbeitsgruppen wurden mit der Bewältigung von Herausforderungen wie Data Governance, dem Beweis von Theoremen in der Mathematik und Archivierungsstrategien sowie Datenschutz und Einwilligung nach Aufklärung und anderen rechtlichen Fragen beauftragt.
Bloom ist die Summe ihrer Arbeit. Es wurde mit öffentlich (durch Zuschüsse) finanzierter Rechenzeit im Wert von 7 Millionen US-Dollar auf dem Supercomputer Jean Zay in der Nähe von Paris, Frankreich, trainiert, der zu den leistungsstärksten Maschinen der Welt zählt.
EIN robust Diskussion ist laufend in akademische Kreise über die CO2-Auswirkungen des KI-Trainings; Rechenzentren sind nicht besonders umweltfreundlich. Aber BigScience sagt, dass Jean Zay dank seines einzigartigen Kühlsystems und seiner Kernkraftquelle in der Lage war, Bloom mit einem CO2-Fußabdruck zu trainieren, der einem Flug von Paris nach New York entspricht.
Wie alle Sprachmodelle ist Bloom im Wesentlichen ein statistisches Werkzeug zur Vorhersage von Wörtern. Gefüttert mit einer enormen Anzahl von Beispielen aus einem 1,6 Terabyte großen Trainingsdatensatz lernte Bloom, wie wahrscheinlich Wörter vorkommen, basierend auf Mustern, einschließlich des semantischen Kontexts des umgebenden Textes. Wenn beispielsweise eine typische E-Mail mit dem Fragment „Looking forward …“ endet, könnte Bloom sie mit „… to listen back“ vervollständigen.
Ein Ziel der BigScience-Arbeitsgruppen war es, ausreichend repräsentative Daten zu sammeln, um Bloom zu trainieren. Aufgrund systematischer Verzerrungen in öffentlichen Datenquellen haben nicht-englischsprachige LLMs traditionell nicht so gut abgeschnitten wie ihre englischsprachigen Kollegen. Der 341-Milliarden-Wörter-Datensatz, der zum Trainieren von Bloom verwendet wird, stützt sich auf Bücher, wissenschaftliche Veröffentlichungen, Radiotranskriptionen, Podcasts und Websites und zielt darauf ab, verschiedene kulturelle Kontexte in verschiedenen Sprachen zu codieren, darunter Suaheli, Katalanisch, Bengali und Vietnamesisch.
Die BigScience-Gruppen haben fast zwei Drittel des Datensatzes aus 500 Quellen handverlesen und Vorschläge von Community-Gruppen eingeholt, darunter die afrikanische Community für die Verarbeitung natürlicher Sprache Masakhane, LatinX in AI und Machine Learning Tokyo. Sie redigierten aus Datenschutzgründen und filterten nach Qualität, indem sie beispielsweise versuchten, eine Überrepräsentation von Pornoseiten zu reduzieren, die tendenziell sexistische Assoziationen enthalten.
Bloom ist nicht völlig frei von Vorurteilen – kein LLM ist es. Aber die Hoffnung ist, dass es Forschern durch die Aufrechterhaltung der Transparenz rund um die Trainingsdaten leichter fällt, Blooms Vorhersagen und Entscheidungsfindung auf den Grund zu gehen.
Groß
Mit 176 Milliarden Parametern hat Bloom ungefähr die Größe von GPT-3. Parameter beim maschinellen Lernen sind die aus Trainingsdaten gelernten Teile des LLM und korrelieren tendenziell mit der Effektivität des Modells bei einer Aufgabe wie dem Generieren von Text.
Im Allgemeinen erfordern Modelle mit höheren Parametern mehr Rechenleistung zum Trainieren. Ein 2020 lernen aus AI21-Labors die Ausgaben für die Entwicklung eines texterzeugenden Modells mit nur 1,5 Milliarden Parametern auf bis zu 1,6 Millionen Dollar festgesetzt; Bloom trainierte drei Monate lang auf 384 Nvidia A100-GPUs. Diese Tatsache hat es der Community erschwert, große, hochmoderne Sprachmodelle wie Microsofts und Nvidias Megatron-Turing Natural Language Generation (MT-NLG) mit 530 Milliarden Parametern zu verwenden.
BigScience behauptet, dass rForscher haben die Möglichkeit, Bloom für weniger als 40 US-Dollar pro Stunde bei einem Cloud-Anbieter zu nutzen. Aber einUm auch diese Zugangsbarriere zu beseitigen, plant die Organisation die Veröffentlichung kleinerer, weniger hardwareintensiver Versionen von Bloom und entwickelt ein verteiltes System, mit dem Labore das Modell auf ihren Servern gemeinsam nutzen können. Auch eine API ist in Arbeit.
Bloom schließt sich einem aufkeimenden Ökosystem von hochleistungsfähigen Open-Source-LLMs mit breitem kommerziellem und Forschungseinsatz an. Im Februar veröffentlichte die offene KI-Forschungsgruppe EleutherAI GPT-NeoX-20B, das damals andere öffentliche Sprachmodelle in mehreren Benchmarks übertraf. Monate später veröffentlichte Meta Open Source OPT-175B, von dem das Unternehmen behauptete, es sei das erste Sprachmodell mit 175 Milliarden Parametern, das der KI-Community zur Verfügung gestellt wurde.
Sie wurden gut genutzt – Unternehmen haben dies bereits getan entstanden rund um die Modelle von EleutherAI. Einige Forscher befürchten jedoch Missbrauch. An der University of Maryland entdeckten Forscher, dass es für LLMs möglich ist, falsche Nachrichten und Cybersicherheitsberichte zu generieren überzeugend genug, um Experten zu täuschen. Andere Papier Co-Autor von Forschern bei Meta untersucht den möglichen Schaden, der durch LLMs entstehen könnte, die schlechte Ratschläge geben, insbesondere medizinische oder psychologische Prognosen.
Viele Unternehmen, die Zugriff auf LLMs über eine API wie OpenAI anbieten, wenden Filter an, um problematischen Text auszusortieren. Aber Open-Source-Modelle haben offensichtlich keinen solchen Schutz.
In Anbetracht des Missbrauchspotenzials wird Bloom mit einer Dokumentation geliefert, die seine Fähigkeiten und Einschränkungen umreißt. Die Verwendung erfordert die Zustimmung zu einer legalen Lizenz, die die Forscher verpflichtet, das Modell nicht für böswillige Zwecke zu verwenden. BigScience plant, die Anwendung des Modells zu überwachen und die Lizenz und Dokumentation bei Bedarf anzupassen.
„Wir planen, weitere Sprachen hinzuzufügen, das Modell kleiner zu machen, damit es bei gleicher Leistung einfacher zu verwenden ist, und wir werden die Bemühungen der Community unterstützen, es zu erweitern“, fährt der Blogbeitrag fort. „Bloom ist eine lebendige Familie von Modellen, die wachsen wird, kein One-and-Done-Modell.“