Französisches KI-Startup Mistral hat sein erstes Modell herausgebracht, das sowohl Bilder als auch Text verarbeiten kann.
Das Modell mit 12 Milliarden Parametern namens Pixtral 12B ist etwa 24 GB groß. Die Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger Parametern.
Das neue Modell basiert auf einem der Textmodelle von Mistral, Nemo 12B, und kann Fragen zu einer beliebigen Anzahl von Bildern beliebiger Größe beantworten, wobei entweder Bild-URLs oder Bilder angegeben werden, die mit Base64, dem Binär-zu-Text-Kodierungsschema, kodiert sind. Ähnlich wie andere multimodale Modelle wie die Claude-Familie von Anthropic und GPT-4o von OpenAI sollte Pixtral 12B – zumindest theoretisch – in der Lage sein, Aufgaben wie das Beschriften von Bildern und das Zählen der Anzahl von Objekten in einem Foto auszuführen.
Verfügbar über einen Torrent-Link auf GitHub Und Umarmendes Gesichtdie Entwicklungsplattform für KI und maschinelles Lernen, Pixtral 12B, kann vermutlich unter der Standard-Entwicklerlizenz von Mistral heruntergeladen, optimiert und verwendet werden, für die für kommerzielle Anwendungen eine kostenpflichtige Lizenz erforderlich ist, nicht jedoch für Forschungs- und akademische Zwecke.
Mistral hat allerdings noch nicht klargestellt, welche Lizenz genau für Pixtral 12B gilt. Das Startup bietet einige – aber nicht alle – Modelle ohne Einschränkungen unter einer Apache 2.0-Lizenz an. Wir haben uns an die PR von Mistral gewandt, um weitere Informationen zu erhalten, und werden diesen Beitrag aktualisieren, wenn wir eine Antwort erhalten.
Der Autor konnte Pixtral 12B leider nicht ausprobieren – zum Zeitpunkt der Veröffentlichung gab es noch keine funktionierenden Webdemos. In einem Beitrag auf X schrieb Sophia Yang, Leiterin der Entwicklerabteilung von Mistral, sagte Pixtral 12B wird bald zum Testen auf Mistrals Chatbot- und API-Serving-Plattformen Le Chat und Le Platforme verfügbar sein.
Es ist unklar, welche Bilddaten Mistral zur Entwicklung von Pixtral 12B verwendet haben könnte.
Die meisten generativen KI-Modelle, einschließlich anderer Modelle von Mistralwerden anhand riesiger Mengen öffentlicher Daten aus dem gesamten Web trainiert, die häufig urheberrechtlich geschützt sind. Einige Modellanbieter argumentieren, dass „Fair Use“-Rechte sie dazu berechtigen, beliebig öffentliche Daten, aber viele Urheberrechtsinhaber sind damit anderer Meinung und haben Klagen gegen größere Anbieter wie OpenAI und Midjourney eingereicht, um dieser Praxis ein Ende zu setzen.
Pixtral 12B kommt, nachdem Mistral eine von General Catalyst geleitete Finanzierungsrunde über 645 Millionen US-Dollar abgeschlossen hat, die das Unternehmen mit 6 Milliarden US-Dollar bewertet hat. Mistral ist erst ein Jahr alt und befindet sich in Minderheitsbesitz von Microsoft. Viele in der KI-Community sehen es als Europas Antwort auf OpenAI. Die Strategie des jüngeren Unternehmens bestand bisher darin, kostenlose „offene“ Modelle zu veröffentlichen, für verwaltete Versionen dieser Modelle Gebühren zu erheben und Unternehmenskunden Beratungsdienste anzubieten.