Chinesische Firmen veröffentlichen weiterhin KI-Modelle, die mit den Fähigkeiten von Systemen konkurrieren, die von OpenAI und anderen in den USA ansässigen KI-Unternehmen entwickelt wurden.
Diese Woche, MiniMaxein von Alibaba und Tencent unterstütztes Startup, das hat erzogen Risikokapital in Höhe von rund 850 Millionen US-Dollar und einem Wert von mehr als 2,5 Milliarden US-Dollar. debütierte drei neue Modelle: MiniMax-Text-01, MiniMax-VL-01 und T2A-01-HD. MiniMax-Text-01 ist ein Nur-Text-Modell, während MiniMax-VL-01 sowohl Bilder als auch Text verstehen kann. T2A-01-HD hingegen erzeugt Audio – insbesondere Sprache.
MiniMax behauptet, dass MiniMax-Text-01, das 456 Milliarden Parameter groß ist, bei Benchmarks wie MATH und SimpleQA, die die Fähigkeit eines Modells messen, mathematische Probleme und Fakten zu beantworten, besser abschneidet als Modelle wie das kürzlich von Google vorgestellte Gemini 2.0 Flash. basierte Fragen. Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger Parametern.
Was MiniMax-VL-01 betrifft, sagt MiniMax, dass es mit Claude 3.5 Sonnet von Anthropic bei Auswertungen konkurriert, die ein multimodales Verständnis erfordern, wie etwa ChartQA, das Modelle mit der Beantwortung graph- und diagrammbezogener Fragen beauftragt (z. B. „Was ist der Spitzenwert des?“) orange Linie in diesem Diagramm?“). Zugegeben, MiniMax-VL-01 übertrifft Gemini 2.0 Flash bei vielen dieser Tests nicht ganz. GPT-4o von OpenAI und Llama 3.1 von Meta übertrafen es ebenfalls in mehreren Punkten.
Bemerkenswert ist, dass MiniMax-Text-01 ein extrem großes Kontextfenster hat. Der Kontext oder das Kontextfenster eines Modells bezieht sich auf Eingaben (z. B. Text), die ein Modell berücksichtigt, bevor es eine Ausgabe (zusätzlichen Text) generiert. Mit einem Kontextfenster von 4 Millionen Token kann MiniMax-Text-01 etwa 3 Millionen Wörter auf einmal analysieren – oder etwas mehr als fünf Exemplare von „Krieg und Frieden“.
Was den Kontext betrifft (kein Wortspiel beabsichtigt): Das Kontextfenster von MiniMax-Text-01 ist ungefähr 31-mal so groß wie das von GPT-4o und Llama 3.1.
Das letzte MiniMax-Modell, das diese Woche veröffentlicht wurde, T2A-01-HD, ist ein für Sprache optimierter Audiogenerator. T2A-01-HD kann eine synthetische Stimme mit einstellbarer Kadenz, Klangfarbe und Tenor in rund 17 verschiedenen Sprachen, darunter Englisch und Chinesisch, erzeugen und eine Stimme aus nur 10 Sekunden einer Audioaufnahme klonen.
MiniMax hat keine Benchmark-Ergebnisse zum Vergleich des T2A-01-HD mit anderen Modellen zur Audioerzeugung veröffentlicht. Aber für die Ohren dieses Reporters klingen die Ausgänge des T2A-01-HD auf Augenhöhe mit den Audiomodellen von Meta und Startups wie PlayAI.
Mit Ausnahme von T2A-01-HD, das ausschließlich über die API von MiniMax und die Hailuo-KI-Plattform verfügbar ist, können die neuen Modelle von MiniMax von GitHub und der KI-Entwicklungsplattform Hugging Face heruntergeladen werden.
Nur weil die Modelle „offen“ verfügbar sind, heißt das jedoch nicht, dass sie in bestimmten Aspekten nicht gesperrt sind. MiniMax-Text-01 und MiniMax-VL-01 sind nicht wirklich Open Source in dem Sinne, dass MiniMax nicht die Komponenten (z. B. Trainingsdaten) veröffentlicht hat, die erforderlich sind, um sie von Grund auf neu zu erstellen. Darüber hinaus unterliegen sie der restriktiven Lizenz von MiniMax, die es Entwicklern verbietet, die Modelle zur Verbesserung konkurrierender KI-Modelle zu verwenden, und erfordert, dass Plattformen mit mehr als 100 Millionen monatlich aktiven Benutzern eine spezielle Lizenz von MiniMax anfordern.
MiniMax wurde 2021 von ehemaligen Mitarbeitern von SenseTime, einem der größten KI-Unternehmen Chinas, gegründet. Zu den Projekten des Unternehmens gehören Apps wie Talkie, eine KI-gestützte Rollenspielplattform nach dem Vorbild der Charakter-KI, und Text-zu-Video-Modelle, die MiniMax in Hailuo veröffentlicht hat.
Einige Produkte von MiniMax sind Gegenstand kleinerer Kontroversen geworden.
Talkie, das im Dezember aus nicht näher bezeichneten „technischen“ Gründen aus dem App Store von Apple entfernt wurde, enthält KI-Avatare von Persönlichkeiten des öffentlichen Lebens, darunter Donald Trump, Taylor Swift, Elon Musk und LeBron James, von denen offenbar keiner ihrer Veröffentlichung zugestimmt hat die App.
Im Dezember, Broadcast-Magazin gemeldet dass die Videogeneratoren von MiniMax die Logos britischer Fernsehsender reproduzieren können, was darauf hindeutet, dass die Modelle von MiniMax auf Inhalte dieser Sender trainiert wurden. Und MiniMax soll es auch sein verklagt wird von iQiyi, einem chinesischen Video-Streaming-Dienst, der MiniMax vorwirft, illegal an den urheberrechtlich geschützten Aufnahmen von iQiyi gearbeitet zu haben.
Die neuen Modelle von MiniMax kommen Tage, nachdem die scheidende Biden-Regierung strengere Exportregeln und Beschränkungen für KI-Technologien für chinesische Unternehmen vorgeschlagen hat. Unternehmen in China waren bereits daran gehindert, fortschrittliche KI-Chips zu kaufen, aber wenn die neuen Regeln wie geschrieben in Kraft treten, werden Unternehmen mit strengeren Obergrenzen sowohl für die Halbleitertechnologie als auch für die Modelle konfrontiert, die zum Starten hochentwickelter KI-Systeme erforderlich sind.
Am Mittwoch die Biden-Regierung angekündigt Zusätzliche Maßnahmen konzentrierten sich darauf, hochentwickelte Chips von China fernzuhalten. Chipgießereien und Verpackungsunternehmen, die bestimmte Chips exportieren möchten, unterliegen umfassenderen Lizenzanforderungen, es sei denn, sie wenden eine größere Kontrolle und Sorgfaltspflicht an, um zu verhindern, dass ihre Produkte chinesische Kunden erreichen.