Anthropic behauptet, sein neuestes Modell sei das beste seiner Klasse

Anthropic behauptet sein neuestes Modell sei das beste seiner Klasse

OpenAI-Konkurrent Anthropic veröffentlicht ein leistungsstarkes neues generatives KI-Modell namens Claude 3.5 Sonnet. Aber es ist eher ein inkrementeller Schritt als ein monumentaler Sprung nach vorne.

Claude 3.5 Sonnet kann sowohl Texte als auch Bilder analysieren und Texte generieren und ist Anthropics bisher leistungsstärkstes Modell – zumindest auf dem Papier. In mehreren KI-Benchmarks für Lesen, Codierung, Mathematik und Sehen übertrifft Claude 3.5 Sonnet das Modell, das es ersetzt, Claude 3 Sonnet. Und schlägt Anthropics bisheriges Flaggschiffmodell Claude 3 Opus.

Benchmarks sind nicht unbedingt das nützlichste Maß für den Fortschritt der KI, zum Teil, weil viele von ihnen esoterische Randfälle testen, die für den Durchschnittsmenschen nicht anwendbar sind, wie etwa das Beantworten von Fragen zu Gesundheitsprüfungen. Aber was es auch wert ist, Claude 3.5 Sonett gerade so übertrifft konkurrierende führende Modelle, darunter das kürzlich von OpenAI eingeführte GPT-4o, bei einigen der von Anthropic getesteten Benchmarks.

Neben dem neuen Modell veröffentlicht Anthropic auch das, was es Artifacts nennt. Dabei handelt es sich um einen Arbeitsbereich, in dem Benutzer Inhalte – z. B. Code und Dokumente – bearbeiten und ergänzen können, die von Anthropics Modellen generiert werden. Artifacts befindet sich derzeit in der Vorschauphase und wird in naher Zukunft neue Funktionen erhalten, beispielsweise Möglichkeiten zur Zusammenarbeit mit größeren Teams und zum Speichern von Wissensdatenbanken, sagt Anthropic.

Fokus auf Effizienz

Claude 3.5 Sonnet ist etwas leistungsfähiger als Claude 3 Opus, und Anthropic sagt, dass das Modell neben Konzepten wie Humor auch nuancierte und komplexe Anweisungen besser versteht. (KI ist notorisch unlustigallerdings.) Aber was für Entwickler, die mit Claude Apps erstellen, die schnelle Antworten erfordern (z. B. Chatbots für den Kundenservice), vielleicht noch wichtiger ist: 3.5 Sonnet ist schneller. Es ist etwa doppelt so schnell wie 3 Opus, behauptet Anthropic.

Das Sehen – das Analysieren von Fotos – ist laut Anthropic ein Bereich, in dem Claude 3.5 Sonnet im Vergleich zu 3 Opus große Fortschritte macht. 3.5 Sonnet kann Diagramme und Grafiken genauer interpretieren und Text aus „unvollkommenen“ Bildern transkribieren, beispielsweise aus Bildern mit Verzerrungen und visuellen Artefakten.

Michael Gerstenhaber, Produktleiter bei Anthropic, sagt, dass die Verbesserungen das Ergebnis von architektonischen Optimierungen und neuen Trainingsdaten sind, darunter auch KI-generierte Daten. Welche Daten genau? Gerstenhaber wollte es nicht verraten, deutete aber an, dass Claude 3.5 Sonnet einen Großteil seiner Stärke aus diesen Trainingsdatensätzen bezieht.

Bildnachweise: Anthropisch

„Was zählt für [businesses] ist, ob KI ihnen hilft, ihre Geschäftsanforderungen zu erfüllen, und nicht, ob KI bei einem Benchmark wettbewerbsfähig ist“, sagte Gerstenhaber gegenüber Tech. „Und aus dieser Perspektive glaube ich, dass Claude 3.5 Sonnet allen anderen verfügbaren Produkten um eine Stufe voraus sein wird – und auch allen anderen in der Branche.“

Die Geheimhaltung der Trainingsdaten könnte aus Wettbewerbsgründen erfolgen. Sie könnte aber auch dazu dienen, Anthropic vor rechtlichen Herausforderungen zu schützen – insbesondere Herausforderungen im Zusammenhang mit faire Nutzung. Die Gerichte müssen noch entscheiden, ob Anbieter wie Anthropic und seine Konkurrenten wie OpenAI, Google, Amazon usw. das Recht haben, mit öffentlichen Daten, einschließlich urheberrechtlich geschützter Daten, zu trainieren, ohne die Ersteller dieser Daten zu entschädigen oder zu benennen.

Wir wissen also nur, dass Claude 3.5 Sonnet wie die vorherigen Modelle von Anthropic anhand von viel Text und Bildern sowie mithilfe des Feedbacks menschlicher Tester trainiert wurde. Ziel war, das Modell an die Absichten der Benutzer anzupassen und so hoffentlich die Ausgabe schädlicher oder anderweitig problematischer Texte zu verhindern.

Anthropisches Claude 3.5 Sonett
Bildnachweise: Anthropisch

Was wissen wir sonst noch? Nun, das Kontextfenster von Claude 3.5 Sonett – die Menge an Text, die das Modell analysieren kann, bevor neuer Text generiert wird – beträgt 200.000 Token, genauso wie bei 3 Sonett. Token sind unterteilte Rohdatenbits, wie die Silben „fan“, „tas“ und „tic“ im Wort „fantastic“; 200.000 Token entsprechen etwa 150.000 Wörtern.

Und wir wissen, dass Claude 3.5 Sonnet heute verfügbar ist. Kostenlose Benutzer des Webclients von Anthropic und der Claude iOS-App können kostenlos darauf zugreifen; Abonnenten der kostenpflichtigen Pläne Claude Pro und Claude Team von Anthropic erhalten 5x höhere Ratenbegrenzungen. 3.5 Sonnet ist auch live auf der API von Anthropic und verwalteten Plattformen wie Amazon Bedrock und Vertex AI von Google Cloud.

„Claude 3.5 Sonnet stellt wirklich einen großen Schritt in Richtung Intelligenz ohne Einbußen bei der Geschwindigkeit dar und bereitet uns auf zukünftige Veröffentlichungen der gesamten Claude-Modellfamilie vor“, sagte Gerstenhaber.

Claude 3.5 Sonnet steuert auch Artifacts, das ein spezielles Fenster im Claude-Webclient öffnet, wenn ein Benutzer das Modell auffordert, Inhalte wie Codeausschnitte, Textdokumente oder Website-Designs zu generieren. Gerstenhaber erklärt: „Artefakte sind die Modellausgabe, die generierte Inhalte beiseite legt und es Ihnen als Benutzer ermöglicht, diese Inhalte zu iterieren. Nehmen wir an, Sie möchten Code generieren – das Artefakt wird in die Benutzeroberfläche eingefügt, und dann können Sie mit Claude sprechen und das Dokument iterieren, um es zu verbessern, damit Sie den Code ausführen können.“

Das größere Bild

Welche Bedeutung hat also das Sonett von Claude 3,5 im weiteren Kontext der Anthropologie – und des KI-Ökosystems?

Claude 3.5 Sonnet zeigt, dass inkrementelle Fortschritte das sind, was wir derzeit an der Modellfront erwarten können, sofern es keinen großen Forschungsdurchbruch gibt. In den letzten Monaten gab es Flaggschiff-Veröffentlichungen von Google (Gemini 1.5 Pro) und OpenAI (GPT-4o), die in Bezug auf Benchmarks und qualitative Leistung nur geringfügige Fortschritte gebracht haben. Aufgrund der Starrheit der heutigen Modellarchitekturen und der immensen Rechenleistung, die zum Trainieren erforderlich ist, gab es jedoch schon seit geraumer Zeit keinen Sprung mehr, der dem von GPT-3 auf GPT-4 gleichkommt.

Während Anbieter generativer KI ihre Aufmerksamkeit auf die Datenkuratierung und -lizenzierung richten, anstatt neue skalierbare Architekturen zu entwickeln, gibt es Anzeichen dafür, dass Investoren werden vorsichtig des längeren als erwarteten Weges zum ROI für generative KI. Anthropic ist gegen diesen Druck einigermaßen immunisiert, da es sich in der beneidenswerten Position befindet, Amazons (und in geringerem Maße Googles) Versicherung gegen OpenAI zu sein. Aber der Umsatz des Unternehmens, der voraussichtlich knapp 1 Milliarde Dollar bis Ende 2024 ist ein Fraktion von OpenAI – und ich bin sicher, dass die Unterstützer von Anthropic diese Tatsache nicht vergessen werden.

Trotz eines wachsenden Kundenstamms, zu dem bekannte Marken wie Bridgewater, Brave, Slack und DuckDuckGo gehören, mangelt es Anthropic noch immer an einem gewissen Unternehmensgütesiegel. Bezeichnenderweise war es OpenAI – und nicht Anthropic –, mit dem PwC kürzlich eine Partnerschaft eingegangen ist, um generative KI-Angebote an Unternehmen weiterzuverkaufen.

Anthropic verfolgt also einen strategischen und altbewährten Ansatz, um Fortschritte zu erzielen, und investiert Entwicklungszeit in Produkte wie Claude 3.5 Sonnet, um eine etwas bessere Leistung zu Rohstoffpreisen zu erzielen. 3.5 Sonnet kostet dasselbe wie 3 Sonnet: 3 USD pro Million Token, die in das Modell eingespeist werden, und 15 USD pro Million Token, die vom Modell generiert werden.

Gerstenhaber hat dies in unserem Gespräch angesprochen. „Wenn Sie eine Anwendung erstellen, sollte der Endbenutzer nicht wissen müssen, welches Modell verwendet wird oder wie ein Ingenieur die Anwendung für seine Erfahrung optimiert hat“, sagte er, „aber der Ingenieur könnte die Tools zur Verfügung haben, um die Anwendung entlang der zu optimierenden Vektoren zu optimieren, und die Kosten sind sicherlich einer davon.“

Claude 3.5 Sonnet löst das Halluzinationsproblem nicht. Es macht mit ziemlicher Sicherheit Fehler. Aber es könnte attraktiv genug sein, um Entwickler und Unternehmen dazu zu bewegen, auf die Plattform von Anthropic umzusteigen. Und das ist es, was für Anthropic letztendlich zählt.

Zu diesem Zweck hat Anthropic seine Aktivitäten auf Werkzeuge wie experimentelle Lenk-KImit dem Entwickler die internen Funktionen ihrer Modelle „steuern“ können; Integrationen, um seinen Modellen Aktionen innerhalb von Apps zu ermöglichen; und Werkzeuge gebaut oben drauf seiner Modelle wie das bereits erwähnte Artifacts-Erlebnis. Außerdem hat das Unternehmen einen Instagram-Mitbegründer als Produktleiter eingestellt. Und es hat die Verfügbarkeit seiner Produkte erweitert, zuletzt indem es Claude nach Europa gebracht und Büros in London und Dublin eröffnet hat.

Insgesamt scheint Anthropic zu der Überzeugung gelangt zu sein, dass der Aufbau eines Ökosystems rund um Modelle – und nicht einfach isolierter Modelle – der Schlüssel zur Kundenbindung ist, da sich die Fähigkeitslücke zwischen den Modellen immer weiter schließt.

Dennoch betonte Gerstenhaber, dass in naher Zukunft größere und bessere Modelle – wie etwa Claude 3.5 Opus – auf dem Markt seien, die über Funktionen wie Websuche und die Fähigkeit zum Merken von Einstellungen verfügten.

„Ich habe nicht gesehen Deep Learning ist noch nicht an eine Wand gestoßenund ich überlasse es den Forschern, über die Mauer zu spekulieren, aber ich denke, es ist noch ein bisschen früh, um diesbezüglich Schlussfolgerungen zu ziehen, insbesondere wenn man sich das Innovationstempo ansieht“, sagte er. „Es gibt eine sehr schnelle Entwicklung und sehr schnelle Innovation, und ich habe keinen Grund zu der Annahme, dass sich das verlangsamen wird.“

Wir werden sehen.

tch-1-tech