Giskard ist ein französisches Startup, das an einem Open-Source-Testframework für große Sprachmodelle arbeitet. Es kann Entwickler vor dem Risiko von Vorurteilen, Sicherheitslücken und der Fähigkeit eines Modells, schädliche oder toxische Inhalte zu generieren, warnen.
Während um KI-Modelle ein großer Hype herrscht, werden auch ML-Testsysteme schnell zu einem heißen Thema, da die Regulierung in der EU mit dem KI-Gesetz und in anderen Ländern bald durchgesetzt wird. Unternehmen, die KI-Modelle entwickeln, müssen nachweisen, dass sie eine Reihe von Regeln einhalten und Risiken mindern, damit sie keine hohen Geldstrafen zahlen müssen.
Giskard ist ein KI-Startup, das sich der Regulierung verschrieben hat, und eines der ersten Beispiele für ein Entwicklertool, das sich speziell auf effizientere Tests konzentriert.
„Ich habe zuvor bei Dataiku gearbeitet, insbesondere im Bereich NLP-Modellintegration. Und ich konnte sehen, dass es, als ich für das Testen verantwortlich war, beide Dinge gab, die nicht gut funktionierten, wenn man sie auf praktische Fälle anwenden wollte, und dass es sehr schwierig war, die Leistung der Lieferanten untereinander zu vergleichen.“ Alex Combessie, Mitbegründer und CEO von Giskard, hat es mir erzählt.
Das Test-Framework von Giskard besteht aus drei Komponenten. Zunächst hat das Unternehmen veröffentlicht eine Open-Source-Python-Bibliothek die in ein LLM-Projekt integriert werden können – und insbesondere in Retrieval-Augmented Generation (RAG)-Projekte. Es erfreut sich bereits großer Beliebtheit auf GitHub und ist mit anderen Tools im ML-Ökosystem kompatibel, beispielsweise Hugging Face, MLFlow, Weights & Biases, PyTorch, Tensorflow und Langchain.
Nach der Ersteinrichtung hilft Ihnen Giskard bei der Erstellung einer Testsuite, die regelmäßig auf Ihrem Modell verwendet wird. Diese Tests decken ein breites Spektrum an Themen ab, wie z. B. Leistung, Halluzinationen, Fehlinformationen, nicht sachliche Ergebnisse, Vorurteile, Datenlecks, die Generierung schädlicher Inhalte und sofortige Injektionen.
„Und es gibt mehrere Aspekte: Da ist der Leistungsaspekt, der einem Datenwissenschaftler als Erstes in den Sinn kommt. Aber immer mehr spielt der ethische Aspekt eine Rolle, sowohl aus Sicht des Markenimages als auch jetzt aus regulatorischer Sicht“, sagte Combessie.
Entwickler können die Tests dann in die Pipeline für kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD) integrieren, sodass Tests jedes Mal ausgeführt werden, wenn es eine neue Iteration auf der Codebasis gibt. Wenn etwas nicht stimmt, erhalten Entwickler beispielsweise einen Scan-Bericht in ihrem GitHub-Repository.
Tests werden basierend auf dem Endanwendungsfall des Modells angepasst. Unternehmen, die an RAG arbeiten, können Giskard Zugriff auf Vektordatenbanken und Wissensrepositorys gewähren, damit die Testsuite so relevant wie möglich ist. Wenn Sie beispielsweise einen Chatbot erstellen, der Ihnen Informationen zum Klimawandel auf der Grundlage des neuesten Berichts des IPCC liefern kann und ein LLM von OpenAI verwenden, prüfen Giskard-Tests, ob das Modell Fehlinformationen über den Klimawandel generieren kann, was widersprüchlich ist , usw.
Das zweite Produkt von Giskard ist ein KI-Qualitätshub, der Ihnen hilft, ein großes Sprachmodell zu debuggen und es mit anderen Modellen zu vergleichen. Dieses Qualitätszentrum ist Teil von Giskard’s Premium-Angebot. Das Startup hofft, in Zukunft eine Dokumentation erstellen zu können, die beweist, dass ein Modell den Vorschriften entspricht.
„Wir fangen an, den AI Quality Hub an Unternehmen wie die Banque de France und L’Oréal zu verkaufen – um ihnen bei der Fehlerbehebung und Fehlerursachensuche zu helfen. In Zukunft werden wir hier alle regulatorischen Funktionen unterbringen“, sagte Combessie.
Das dritte Produkt des Unternehmens heißt LLMon. Es handelt sich um ein Echtzeit-Überwachungstool, das LLM-Antworten auf die häufigsten Probleme (Toxizität, Halluzination, Faktenprüfung usw.) auswerten kann, bevor die Antwort an den Benutzer zurückgesendet wird.
Derzeit arbeitet es mit Unternehmen zusammen, die die APIs und LLMs von OpenAI als Grundmodell verwenden, das Unternehmen arbeitet jedoch an Integrationen mit Hugging Face, Anthropic usw.
Anwendungsfälle regulieren
Es gibt verschiedene Möglichkeiten, KI-Modelle zu regulieren. Basierend auf Gesprächen mit Menschen im KI-Ökosystem ist noch unklar, ob das KI-Gesetz für grundlegende Modelle von OpenAI, Anthropic, Mistral und anderen gelten wird oder nur für angewandte Anwendungsfälle.
Im letzteren Fall scheint Giskard besonders gut positioniert zu sein, um Entwickler vor potenziellem Missbrauch von mit externen Daten angereicherten LLMs (oder, wie KI-Forscher es nennen, Retrieval-Augmented Generation, RAG) zu warnen.
Derzeit arbeiten 20 Personen für Giskard. „Wir sehen bei den LLM-Kunden eine klare Marktanpassung, daher werden wir die Größe des Teams ungefähr verdoppeln, um das beste LLM-Antivirenprogramm auf dem Markt zu sein“, sagte Combessie.