Arthur, ein Startup zur Überwachung maschinellen Lernens, hat dieses Jahr vom Interesse an generativer KI profitiert und Tools entwickelt, die Unternehmen dabei helfen sollen, effektiver mit LLMs zu arbeiten. Heute wird es veröffentlicht Arthur Bankein Open-Source-Tool, das Benutzern hilft, das beste LLM für einen bestimmten Datensatz zu finden.
Adam Wenchel, CEO und Mitbegründer von Arthur, sagt, dass das Unternehmen großes Interesse an generativer KI und LLMs gesehen hat und daher große Anstrengungen in die Entwicklung von Produkten gesteckt hat.
Er sagt, dass Unternehmen heute, und zugegebenermaßen ist es weniger als ein Jahr seit der Veröffentlichung von ChatGPT, keine organisierte Möglichkeit haben, die Wirksamkeit eines Tools im Vergleich zu einem anderen zu messen, und deshalb haben sie Arthur Bench entwickelt.
„Arthur Bench löst eines der kritischen Probleme, die wir bei jedem Kunden hören, nämlich [with all of the model choices]welches für Ihre spezielle Anwendung am besten geeignet ist“, sagte Wenchel gegenüber Tech.
Es verfügt über eine Reihe von Tools, mit denen Sie die Leistung methodisch testen können. Der eigentliche Wert besteht jedoch darin, dass Sie damit testen und messen können, wie die Arten von Eingabeaufforderungen, die Ihre Benutzer für Ihre bestimmte Anwendung verwenden würden, im Vergleich zu verschiedenen LLMs funktionieren.
„Sie könnten möglicherweise 100 verschiedene Eingabeaufforderungen testen und dann sehen, wie zwei verschiedene LLMs – wie Anthropic im Vergleich zu OpenAI – auf die Art von Eingabeaufforderungen reagieren, die Ihre Benutzer wahrscheinlich verwenden werden“, sagte Wenchel. Darüber hinaus sagt er, dass Sie dies in großem Maßstab tun und eine bessere Entscheidung darüber treffen können, welches Modell für Ihren speziellen Anwendungsfall am besten geeignet ist.
Arthur Bench wird heute als Open-Source-Tool veröffentlicht. Es wird auch eine SaaS-Version für Kunden geben, die sich nicht mit der komplexen Verwaltung der Open-Source-Version auseinandersetzen möchten oder größere Testanforderungen haben und bereit sind, dafür zu zahlen. Aber vorerst konzentriere man sich laut Wenchel auf das Open-Source-Projekt.
Das neue Tool folgt dem Veröffentlichung von Arthur Shield im Mai eine Art LLM-Firewall, die Halluzinationen in Modellen erkennen und gleichzeitig vor toxischen Informationen und privaten Datenlecks schützen soll.