Inflection, ein gut finanziertes KI-Startup mit dem Ziel, „persönliche KI für alle“ zu entwickeln, hat das große Sprachmodell, das seinen Pi-Konversationsagenten antreibt, enthüllt. Es ist schwer, die Qualität dieser Dinge in irgendeiner Weise zu bewerten, geschweige denn objektiv und systematisch, aber ein wenig Wettbewerb ist eine gute Sache.
Flexion-1, wie das Modell genannt wird, hat ungefähr die Größe und Fähigkeiten von GPT-3.5 (auch bekannt als ChatGPT) – gemessen an der Rechenleistung, die zum Trainieren verwendet wird. Das Unternehmen behauptet, dass es mit anderen Modellen dieser Stufe konkurrenzfähig oder überlegen sei, und untermauert dies mit einem „technischen Memo“, in dem einige Benchmarks beschrieben werden, die es mit seinen Modellen GPT-3.5, LLaMA, Chinchilla und PaLM-540B durchgeführt hat.
Den von ihnen veröffentlichten Ergebnissen zufolge schneidet Inflection-1 bei verschiedenen Messgrößen tatsächlich gut ab, etwa bei Prüfungsaufgaben für die Mittel- und Oberstufe (z. B. Biologie 101) und bei „gesunden Menschenverstand“-Benchmarks (z. B. „Wenn Jack den Ball auf das Dach wirft“) , und Jill wirft ihn wieder nach unten, wo ist der Ball?“). Es fällt vor allem bei der Codierung zurück, wo GPT-3.5 es deutlich übertrifft und zum Vergleich GPT-4 die Konkurrenz übertrifft; Es ist bekannt, dass das größte Modell von OpenAI dort einen enormen Qualitätssprung gemacht hat, daher ist das keine Überraschung.
Inflection weist darauf hin, dass man damit rechnet, Ergebnisse für ein größeres Modell zu veröffentlichen, das mit GPT-4 und PaLM-2(L) vergleichbar ist, aber zweifellos wartet man, bis die Ergebnisse eine Veröffentlichung wert sind. Auf jeden Fall ist Inflection-2 oder Inflection-1-XL oder was auch immer im Ofen, aber noch nicht ganz durchgebacken.
Bisher hat die Community die KI-Modelle noch nicht offiziell in das Machine-Learning-Äquivalent der Box-Gewichtsklassen unterteilt, aber die Konzepte passen recht gut zueinander. Man erwartet nicht, dass ein Fliegengewichtler gegen einen Schwergewichtler antritt, es handelt sich praktisch um unterschiedliche Sportarten. Das Gleiche gilt für KI-Modelle: Ein kleines Modell ist nicht so leistungsfähig wie ein großes Modell, aber das kleine Modell läuft effizient auf einem Telefon, während das große Modell ein Rechenzentrum erfordert. Es ist eine Sache von Äpfeln zu Birnen.
Es ist noch zu früh, so etwas zu versuchen, da das Feld noch vergleichsweise jung ist und es keinen wirklichen Konsens darüber gibt, welche Größen und Formen von KI-Modellen als Federmodell gelten sollten.
Letztendlich liegt der Beweis für den Pudding bei den meisten dieser Modelle natürlich in der Verkostung, und bis Inflection sein Modell einer breiten Nutzung und unabhängigen Bewertung zugänglich macht, sind alle seine gepriesenen Benchmarks mit Vorsicht zu genießen. Wenn Sie Pi eine Chance geben möchten, können Sie das einfach tun füge es hinzu in einer Ihrer Messaging-Apps oder Chatten Sie hier online mit ihm.