Das KI-Startup Mistral hat gestartet eine neue API für die Inhaltsmoderation.
Die API, die dieselbe API ist, die die Moderation in der Chatbot-Plattform Le Chat von Mistral unterstützt, kann auf bestimmte Anwendungen und Sicherheitsstandards zugeschnitten werden, sagt Mistral. Es basiert auf einem fein abgestimmten Modell (Ministral 8B), das darauf trainiert ist, Texte in einer Reihe von Sprachen, darunter Englisch, Französisch und Deutsch, in eine von neun Kategorien zu klassifizieren: Sexuell, Hass und Diskriminierung, Gewalt und Drohungen, gefährlicher und krimineller Inhalt , Selbstverletzung, Gesundheit, Finanzen, Recht und persönlich identifizierbare Informationen.
Die Moderations-API kann entweder auf Roh- oder Konversationstext angewendet werden, sagt Mistral.
„In den letzten Monaten haben wir in der Industrie und in der Forschungsgemeinschaft eine wachsende Begeisterung für neue KI-basierte Moderationssysteme festgestellt, die dazu beitragen können, die Moderation anwendungsübergreifend skalierbarer und robuster zu machen“, schrieb Mistral in einem Blogbeitrag. „Unser Klassifikator für die Inhaltsmoderation nutzt die relevantesten Richtlinienkategorien für wirksame Leitplanken und führt einen pragmatischen Ansatz zur Modellsicherheit ein, indem er modellbedingte Schäden wie unqualifizierte Beratung und personenbezogene Daten angeht.“
KI-gestützte Moderationssysteme sind theoretisch nützlich. Aber sie sind auch anfällig für die gleichen Vorurteile und technischen Mängel, die andere KI-Systeme plagen.
Einige Modelle, die darauf trainiert sind, Toxizität zu erkennen, betrachten beispielsweise Phrasen im African American Vernacular English (AAVE), der von einigen schwarzen Amerikanern verwendeten informellen Grammatik, als unverhältnismäßig „giftig“. Beiträge in sozialen Medien über Menschen mit Behinderungen werden laut Studien auch häufig von häufig verwendeten öffentlichen Stimmungs- und Toxizitätserkennungsmodellen als negativer oder toxischer eingestuft gefunden.
Mistral behauptet, dass sein Moderationsmodell sehr genau sei – gibt aber auch zu, dass es sich noch in der Entwicklung befindet. Bemerkenswert ist, dass das Unternehmen die Leistung seiner API nicht mit anderen beliebten Moderations-APIs wie der Perspective API von Jigsaw und der Moderations-API von OpenAI verglichen hat.
„Wir arbeiten mit unseren Kunden zusammen, um skalierbare, leichte und anpassbare Moderationstools zu entwickeln und zu teilen“, sagte das Unternehmen, „und werden weiterhin mit der Forschungsgemeinschaft zusammenarbeiten, um Sicherheitsfortschritte im breiteren Bereich beizutragen.“