Zu viele Modelle | Tech

Wie viele KI-Modelle sind zu viele? Es hängt davon ab, wie man es betrachtet, aber 10 pro Woche sind wahrscheinlich etwas viel. Ungefähr so ​​viele haben wir in den letzten Tagen auf dem Markt gesehen, und es wird immer schwieriger zu sagen, ob und wie diese Modelle im Vergleich zueinander abschneiden, sofern dies jemals möglich war. Also, was ist der Punkt?

Wir befinden uns an einem seltsamen Punkt in der Entwicklung der KI, obwohl es natürlich schon die ganze Zeit ziemlich seltsam war. Wir sehen eine Zunahme großer und kleiner Modelle, von Nischenentwicklern bis hin zu großen, gut finanzierten Entwicklern.

Lassen Sie uns einfach die Liste dieser Woche durchgehen, ja? Ich habe versucht, zusammenzufassen, was jedes Modell auszeichnet.

  • LLaMa-3: Metas neuestes „offenes“ Flaggschiff-Modell für große Sprachen. (Der Begriff „offen“ ist derzeit umstritten, aber dieses Projekt wird von der Community trotzdem häufig genutzt.)
  • Mistral 8×22: Im Großen und Ganzen ein Modell einer „Expertenmischung“ von einem französischen Unternehmen, das die Offenheit, die es einst an den Tag legte, gescheut hat.
  • Stabile Diffusion 3 Turbo: Ein aktualisiertes SD3, das zur neuen API des offenen Stability passt. „Turbo“ aus der Modellnomenklatur von OpenAI zu übernehmen, ist etwas seltsam, aber in Ordnung.
  • Adobe Acrobat AI Assistant: „Sprechen Sie mit Ihren Dokumenten“ vom 800-Pfund-Dokumentengorilla. Ich bin mir ziemlich sicher, dass dies größtenteils ein ist Wrapper für ChatGPT.
  • Reka-Kern: Von einem kleinen Team, das früher bei Big AI beschäftigt war, ein von Grund auf entwickeltes multimodales Modell, das zumindest nominell mit den großen Hunden konkurrenzfähig ist.
  • Ideen2: Ein offeneres multimodales Modell, das auf den neueren, kleineren Mistral- und Google-Modellen aufbaut.
  • OLMo-1.7-7B: Eine größere Version des LLM von AI2, eine der offensten auf dem Markt und ein Sprungbrett für ein zukünftiges Modell im Maßstab 70B.
  • Pfahl-T5: Eine Version des alten Reliable T5 Das Modell wurde anhand der Codedatenbank „Pie“ verfeinert. Derselbe T5, den Sie kennen und lieben, aber mit besserer Codierung.
  • Kohärenter Kompass: Ein „Einbettungsmodell“ (wenn Sie es noch nicht wissen, machen Sie sich keine Sorgen), das sich auf die Integration mehrerer Datentypen konzentriert, um mehr Anwendungsfälle abzudecken.
  • Stellen Sie sich Flash vor: Metas neuestes Bilderzeugungsmodell, das auf einer neuen Destillationsmethode basiert, um die Diffusion zu beschleunigen, ohne die Qualität übermäßig zu beeinträchtigen.
  • Grenzenlos: „Eine personalisierte KI, die auf dem basiert, was Sie gesehen, gesagt oder gehört haben. ICHEs ist eine Web-App, eine Mac-App, eine Windows-App und ein Wearable.“ 😬

Das sind 11, weil einer angekündigt wurde, während ich dies schrieb. Und das sind nicht alle Modelle, die diese Woche veröffentlicht oder in der Vorschau gezeigt wurden! Es sind nur die, die wir gesehen und besprochen haben. Wenn wir die Bedingungen für die Aufnahme ein wenig lockern würden, gäbe es Dutzende: einige fein abgestimmte bestehende Modelle, einige Kombinationen wie Idefics 2, einige experimentelle oder Nischenmodelle und so weiter. Ganz zu schweigen von den neuen Tools dieser Woche zum Erstellen (Fackelmelodie) und im Kampf gegen (Glasur 2.0) generative KI!

Was sollen wir von dieser nicht enden wollenden Lawine halten? Wir können sie nicht alle „bewerten“. Wie können wir Ihnen, unseren Lesern, helfen, all diese Dinge zu verstehen und auf dem Laufenden zu bleiben?

Die Wahrheit ist, dass Sie nicht mithalten müssen. Einige Modelle wie ChatGPT und Gemini haben sich zu kompletten Webplattformen entwickelt, die mehrere Anwendungsfälle und Zugangspunkte abdecken. Andere große Sprachmodelle wie LLaMa oder OLMo erfüllen zwar technisch gesehen eine gemeinsame Grundarchitektur, erfüllen jedoch nicht die gleiche Rolle. Sie sollen als Service oder Komponente im Hintergrund leben und nicht als Markenname im Vordergrund stehen.

Bei diesen beiden Dingen herrscht absichtlich Verwirrung, da die Entwickler der Modelle ein wenig von der Fanfare übernehmen möchten, die mit großen KI-Plattform-Releases wie Ihrem GPT-4V oder Gemini Ultra verbunden ist. Jeder möchte, dass Sie denken, dass seine Freilassung wichtig ist. Und obwohl es für jemanden wahrscheinlich wichtig ist, sind Sie es mit ziemlicher Sicherheit nicht.

Betrachten Sie es im Sinne einer anderen breiten, vielfältigen Kategorie wie Autos. Als sie erfunden wurden, kaufte man einfach „ein Auto“. Wenig später konnte man dann zwischen einem großen Auto, einem Kleinwagen und einem Traktor wählen. Heutzutage werden jedes Jahr Hunderte von Autos auf den Markt gebracht, aber Sie müssen wahrscheinlich nicht einmal eines von zehn davon kennen, denn neun von zehn sind kein Auto, das Sie brauchen, oder gar ein Auto, wie Sie den Begriff verstehen. Ebenso bewegen wir uns von der großen/kleinen/Traktor-Ära der KI in die Ära der Verbreitung, und selbst KI-Spezialisten können nicht mit allen auf den Markt kommenden Modellen Schritt halten und sie testen.

Die andere Seite dieser Geschichte ist, dass wir uns bereits in dieser Phase befanden, lange bevor ChatGPT und die anderen großen Modelle herauskamen. Vor sieben oder acht Jahren lasen deutlich weniger Leute darüber, aber wir haben es trotzdem behandelt, weil es sich eindeutig um eine Technologie handelte, die auf ihren Durchbruch wartete. Ständig kamen Papiere, Modelle und Forschungsergebnisse heraus, und auf Konferenzen wie SIGGRAPH und NeurIPS tauschten Ingenieure für maschinelles Lernen ihre Notizen aus und bauten auf der Arbeit der anderen auf. Hier ist eine visuelle Verständnisgeschichte, die ich 2011 geschrieben habe!

Diese Aktivität ist immer noch jeden Tag im Gange. Aber da KI zu einem großen Geschäft geworden ist – derzeit wohl das größte in der Technologiebranche –, haben diese Entwicklungen etwas mehr Gewicht erhalten, da die Leute neugierig sind, ob eine davon einen ebenso großen Sprung gegenüber ChatGPT darstellen könnte wie ChatGPT gegenüber seinen Vorgängern.

Die einfache Wahrheit ist, dass keines dieser Modelle einen so großen Schritt darstellen wird, da der Fortschritt von OpenAI auf einer grundlegenden Änderung der Architektur für maschinelles Lernen basierte, die inzwischen jedes andere Unternehmen übernommen hat und die nicht ersetzt wurde. Inkrementelle Verbesserungen wie ein oder zwei Punkte besser bei einem synthetischen Benchmark oder eine geringfügig überzeugendere Sprache oder Bildsprache sind alles, worauf wir uns vorerst freuen können.

Bedeutet das, dass keines dieser Modelle von Bedeutung ist? Auf jeden Fall tun sie das. Ohne 2.1, 2.2, 2.2.1 usw. kommt man nicht von Version 2.0 auf 3.0. Und manchmal sind diese Fortschritte sinnvoll, beheben schwerwiegende Mängel oder decken unerwartete Schwachstellen auf. Wir versuchen, die interessanten Themen abzudecken, aber das ist nur ein Bruchteil der Gesamtzahl. Wir arbeiten derzeit an einem Stück, in dem alle Modelle gesammelt werden, die unserer Meinung nach ML-Neugierigen bekannt sein sollten, und es handelt sich um etwa ein Dutzend.

Machen Sie sich keine Sorgen: Wenn etwas Großes kommt, wissen Sie es, und das nicht nur, weil Tech darüber berichtet. Es wird für Sie genauso offensichtlich sein wie für uns.



tch-1-tech