Eine der am weitesten verbreiteten Techniken, um KI-Modelle effizienter zu machen, die Quantisierung, hat Grenzen – und die Branche könnte sich diesen schnell nähern.
Im Zusammenhang mit KI bezieht sich Quantisierung auf die Verringerung der Anzahl der Bits – der kleinsten Einheiten, die ein Computer verarbeiten kann –, die zur Darstellung von Informationen erforderlich sind. Betrachten Sie diese Analogie: Wenn jemand nach der Uhrzeit fragt, würden Sie wahrscheinlich „Mittag“ sagen – und nicht „oh zwölfhundert, eine Sekunde und vier Millisekunden“. Das ist Quantisierung; Beide Antworten sind richtig, aber eine ist etwas präziser. Wie viel Präzision Sie tatsächlich benötigen, hängt vom Kontext ab.
KI-Modelle bestehen aus mehreren Komponenten, die quantisiert werden können – insbesondere Parametern, den internen Variablen, die Modelle verwenden, um Vorhersagen oder Entscheidungen zu treffen. Dies ist praktisch, wenn man bedenkt, dass Modelle bei der Ausführung Millionen von Berechnungen durchführen. Quantisierte Modelle mit weniger Bits, die ihre Parameter darstellen, sind mathematisch und daher rechnerisch weniger anspruchsvoll. (Um es klarzustellen: Dies ist ein anderer Prozess als das „Destillieren“, bei dem es um eine aufwändigere und selektivere Beschneidung von Parametern geht.)
Die Quantisierung kann jedoch mehr Kompromisse mit sich bringen als bisher angenommen.
Das immer kleiner werdende Modell
Laut a Studie Laut Forschern von Harvard, Stanford, MIT, Databricks und Carnegie Mellon schneiden quantisierte Modelle schlechter ab, wenn die ursprüngliche, nicht quantisierte Version des Modells über einen langen Zeitraum mit vielen Daten trainiert wurde. Mit anderen Worten: Ab einem bestimmten Punkt kann es tatsächlich besser sein, einfach ein kleineres Modell zu trainieren, als ein großes Modell herunterzukochen.
Das könnte schlechte Nachrichten für KI-Unternehmen bedeuten, die extrem große Modelle trainieren (was bekanntermaßen die Antwortqualität verbessert) und sie dann quantifizieren, um ihre Bereitstellung kostengünstiger zu machen.
Die Auswirkungen zeigen sich bereits. Vor ein paar Monaten, Entwickler Und Akademiker berichteten, dass die Quantisierung des Llama-3-Modells von Meta im Vergleich zu anderen Modellen tendenziell „schädlicher“ sei, möglicherweise aufgrund der Art und Weise, wie es trainiert wurde.
„Meiner Meinung nach ist und bleibt der größte Kostenfaktor für alle in der KI die Schlussfolgerung, und unsere Arbeit zeigt, dass ein wichtiger Weg, ihn zu reduzieren, nicht für immer funktionieren wird“, sagt Tanishq Kumar, ein Harvard-Mathematikstudent und Erstautor des Buches Papier, sagte Tech.
Entgegen der landläufigen Meinung ist die Inferenzierung von KI-Modellen – das Ausführen eines Modells, etwa wenn ChatGPT eine Frage beantwortet – insgesamt oft teurer als das Modelltraining. Bedenken Sie zum Beispiel, dass Google einen ausgegeben hat geschätzt 191 Millionen US-Dollar für die Ausbildung eines seiner Flaggschiff-Gemini-Modelle – sicherlich eine stolze Summe. Wenn das Unternehmen jedoch ein Modell verwenden würde, um nur 50-Wörter-Antworten auf die Hälfte aller Google-Suchanfragen zu generieren, würde es Geld ausgeben rund 6 Milliarden Dollar pro Jahr.
Große KI-Labore haben Trainingsmodelle auf der Grundlage riesiger Datensätze eingeführt, in der Annahme, dass die „Skalierung“ – also die Erhöhung der im Training verwendeten Daten- und Rechenmenge – zu einer immer leistungsfähigeren KI führen wird.
Beispielsweise hat Meta Llama 3 mit einem Satz von 15 Billionen Token trainiert. (Token stellen Rohdatenbits dar; 1 Million Token entspricht etwa 750.000 Wörtern.) Die vorherige Generation, Llama 2, wurde mit „nur“ 2 Billionen Token trainiert.
Es gibt Hinweise darauf, dass eine Ausweitung letztlich zu sinkenden Erträgen führt; Anthropic und Google angeblich Kürzlich wurden enorme Modelle trainiert, die hinter den internen Benchmark-Erwartungen zurückblieben. Es gibt jedoch kaum Anzeichen dafür, dass die Branche bereit ist, sich sinnvoll von diesen festgefahrenen Skalierungsansätzen zu lösen.
Wie genau genau?
Gibt es eine Möglichkeit, die Modelle weniger anfällig für Verschlechterungen zu machen, wenn Labore zögern, Modelle anhand kleinerer Datensätze zu trainieren? Möglicherweise. Kumar sagt, dass er und Co-Autoren herausgefunden haben, dass das Training von Modellen mit „niedriger Präzision“ sie robuster machen kann. Haben Sie einen Moment Geduld mit uns, während wir ein wenig eintauchen.
„Präzision“ bezieht sich hier auf die Anzahl der Ziffern, die ein numerischer Datentyp genau darstellen kann. Datentypen sind Sammlungen von Datenwerten, die normalerweise durch eine Reihe möglicher Werte und zulässiger Operationen angegeben werden. Der Datentyp FP8 verwendet beispielsweise nur 8 Bit zur Darstellung von a Gleitkommazahl.
Heutzutage werden die meisten Modelle mit 16-Bit oder „halber Präzision“ trainiert und nach dem Training auf 8-Bit-Präzision quantisiert. Bestimmte Modellkomponenten (z. B. seine Parameter) werden auf Kosten einer gewissen Genauigkeit in ein Format mit geringerer Genauigkeit konvertiert. Stellen Sie sich das so vor, als würden Sie auf ein paar Dezimalstellen genau rechnen, dann aber auf die nächste Zehntel aufrunden, wodurch Sie oft das Beste aus beiden Welten erhalten.
Hardwareanbieter wie Nvidia drängen auf eine geringere Präzision bei der quantisierten Modellinferenz. Der neue Blackwell-Chip des Unternehmens unterstützt 4-Bit-Präzision, insbesondere einen Datentyp namens FP4; Nvidia bezeichnet dies als einen Segen für Rechenzentren mit begrenztem Speicher und geringer Leistung.
Eine extrem niedrige Quantisierungsgenauigkeit ist jedoch möglicherweise nicht wünschenswert. Laut Kumar kann es bei Genauigkeiten unter 7 oder 8 Bit zu einem merklichen Qualitätsverlust kommen, es sei denn, das Originalmodell ist in Bezug auf die Parameteranzahl unglaublich groß.
Wenn Ihnen das alles ein wenig technisch erscheint, machen Sie sich keine Sorgen – das ist es auch. Aber die Erkenntnis ist einfach, dass KI-Modelle nicht vollständig verstanden sind und bekannte Abkürzungen, die bei vielen Arten von Berechnungen funktionieren, hier nicht funktionieren. Man würde doch nicht „Mittag“ sagen, wenn jemand fragt, wann er einen 100-Meter-Lauf begonnen hat, oder? Ganz so offensichtlich ist das natürlich nicht, aber die Idee ist dieselbe:
„Der Kernpunkt unserer Arbeit ist, dass es Einschränkungen gibt, die man nicht naiv umgehen kann“, schloss Kumar. „Wir hoffen, dass unsere Arbeit der Diskussion Nuancen verleiht, die häufig nach immer geringeren Präzisionsstandards für Training und Schlussfolgerungen sucht.“
Kumar räumt ein, dass die Studie von ihm und seinen Kollegen relativ klein angelegt war – sie planen, sie in Zukunft mit mehr Modellen zu testen. Aber er glaubt, dass zumindest eine Erkenntnis zutreffen wird: Es gibt kein kostenloses Mittagessen, wenn es darum geht, die Inferenzkosten zu senken.
„Bit-Präzision ist wichtig, und sie ist nicht kostenlos“, sagte er. „Man kann es nicht für immer reduzieren, ohne dass die Models darunter leiden. Modelle haben eine endliche Kapazität. Anstatt also zu versuchen, eine Billiarde Token in ein kleines Modell unterzubringen, wird meiner Meinung nach viel mehr Aufwand in die sorgfältige Datenkuratierung und -filterung gesteckt, sodass nur Daten höchster Qualität in kleinere Modelle gesteckt werden. Ich bin optimistisch, dass neue Architekturen, die bewusst darauf abzielen, das Training mit geringer Präzision stabil zu machen, in Zukunft wichtig sein werden.“