Das erste Open-Source-Äquivalent von OpenAIs ChatGPT ist da, aber viel Glück beim Ausführen auf Ihrem Laptop – oder überhaupt.
Diese Woche veröffentlichte Philip Wang, der Entwickler, der für das Reverse-Engineering von Closed-Source-KI-Systemen einschließlich Metas Make-A-Video verantwortlich ist, PaLM + RLHF, ein Textgenerierungsmodell, das sich ähnlich wie ChatGPT verhält. Das System kombiniert Palmeein großes Sprachmodell von Google, und eine Technik namens Reinforcement Learning with Human Feedback – kurz RLHF –, um ein System zu schaffen, das so ziemlich jede Aufgabe erfüllen kann, die ChatGPT kann, einschließlich des Verfassens von E-Mails und des Vorschlagens von Computercode.
Aber PaLM + RLHF ist nicht vortrainiert. Das heißt, das System wurde nicht mit den Beispieldaten aus dem Internet trainiert, die erforderlich sind, damit es tatsächlich funktioniert. Durch das Herunterladen von PaLM + RLHF wird nicht auf magische Weise eine ChatGPT-ähnliche Erfahrung installiert – dazu müssten Gigabyte an Text kompiliert werden, aus dem das Modell lernen kann, und Hardware gefunden werden, die stark genug ist, um die Trainingslast zu bewältigen.
Wie ChatGPT ist PaLM + RLHF im Wesentlichen ein statistisches Tool zur Vorhersage von Wörtern. Wenn es mit einer enormen Anzahl von Beispielen aus Trainingsdaten gefüttert wird – z. B. Posts von Reddit, Nachrichtenartikel und E-Books – lernt PaLM + RLHF, wie wahrscheinlich Wörter vorkommen, basierend auf Mustern wie dem semantischen Kontext des umgebenden Textes.
ChatGPT und PaLM + RLHF teilen eine spezielle Sauce in Reinforcement Learning with Human Feedback, einer Technik, die darauf abzielt, Sprachmodelle besser an den Wünschen der Benutzer auszurichten. RLHF beinhaltet das Training eines Sprachmodells – im Fall von PaLM + RLHF PaLM – und die Feinabstimmung anhand eines Datensatzes, der Eingabeaufforderungen (z. B. „Erkläre einem Sechsjährigen maschinelles Lernen“), gepaart mit dem, was menschliche Freiwillige von dem Modell erwarten, enthält zu sagen (z. B. „Machine Learning is a form of AI…“). Die oben genannten Eingabeaufforderungen werden dann in das fein abgestimmte Modell eingespeist, das mehrere Antworten generiert, und die Freiwilligen ordnen alle Antworten von der besten bis zur schlechtesten. Schließlich werden die Rankings verwendet, um ein „Belohnungsmodell“ zu trainieren, das die Antworten des ursprünglichen Modells nimmt und sie nach Präferenz sortiert, wobei nach den besten Antworten auf eine bestimmte Eingabeaufforderung gefiltert wird.
Es ist ein teurer Prozess, die Trainingsdaten zu sammeln. Und das Training selbst ist nicht billig. PaLM hat eine Größe von 540 Milliarden Parametern, wobei „Parameter“ sich auf die Teile des Sprachmodells beziehen, die aus den Trainingsdaten gelernt wurden. Ein 2020 lernen die Kosten für die Entwicklung eines textgenerierenden Modells mit nur 1,5 Milliarden Parametern auf bis zu 1,6 Millionen US-Dollar festgesetzt. Und um das Open-Source-Modell Bloom mit 176 Milliarden Parametern zu trainieren, dauerte es drei Monate mit 384 Nvidia A100-GPUs; Ein einzelner A100 kostet Tausende von Dollar.
Das Ausführen eines trainierten Modells der Größe von PaLM + RLHF ist ebenfalls nicht trivial. Bloom benötigt einen dedizierten PC mit etwa acht A100-GPUs. Cloud-Alternativen sind teuer, mit Mathematik auf der Rückseite finden Die Kosten für den Betrieb von OpenAIs textgenerierendem GPT-3 – das rund 175 Milliarden Parameter hat – auf einem einzigen Amazon Web Service belaufen sich auf rund 87.000 US-Dollar pro Jahr.
Sebastian Raschka, ein KI-Forscher, weist in einem LinkedIn darauf hin Post über PaLM + RLHF, dass sich die Skalierung der erforderlichen Entwicklungsworkflows ebenfalls als Herausforderung erweisen könnte. „Selbst wenn Ihnen jemand 500 GPUs zum Trainieren dieses Modells zur Verfügung stellt, müssen Sie sich immer noch mit der Infrastruktur befassen und ein Software-Framework haben, das damit umgehen kann“, sagte er. „Es ist offensichtlich möglich, aber im Moment ist es ein großer Aufwand (natürlich entwickeln wir Frameworks, um das einfacher zu machen, aber es ist noch nicht trivial).“
Das ist alles, um zu sagen, dass PaLM + RLHF ChatGPT heute nicht ersetzen wird – es sei denn, ein gut finanziertes Unternehmen (oder eine Person) macht sich die Mühe, es zu schulen und öffentlich verfügbar zu machen.
Bessere Neuigkeiten sind, dass mehrere andere Bemühungen zur Replikation von ChatGPT in rasantem Tempo voranschreiten, darunter eine, die von einer Forschungsgruppe namens CarperAI. In Partnerschaft mit der offenen KI-Forschungsorganisation EleutherAI und den Startups Scale AI und Hugging Face plant CarperAI die Veröffentlichung des ersten betriebsbereiten, ChatGPT-ähnlichen KI-Modells, das mit menschlichem Feedback trainiert wurde.
LAION, die gemeinnützige Organisation, die den ursprünglichen Datensatz für das Training von Stable Diffusion bereitgestellt hat, ist es ebenfalls Speerspitze ein Projekt zur Replikation von ChatGPT mit den neuesten maschinellen Lerntechniken. LAION hat das ehrgeizige Ziel, einen „Assistenten der Zukunft“ zu bauen – einen, der nicht nur E-Mails und Anschreiben schreibt, sondern „sinnvolle Arbeit leistet, APIs nutzt, Informationen dynamisch recherchiert und vieles mehr“. Es ist in den frühen Stadien. Sondern ein GitHub Seite mit Ressourcen für das Projekt ist vor wenigen Wochen live gegangen.