Das chinesische KI -Labor Deepseek könnte diese Woche den Großteil der Aufmerksamkeit der Tech -Branche erregen. Aber einer der besten inländischen Konkurrenten, Alibaba, sitzt nicht müßig vorbei.
Alibabas Qwen -Team am Montag freigegeben Eine neue Familie von AI-Modellen, Qwen2.5-VL, die eine Reihe von Text- und Bildanalyseaufgaben ausführen kann. Die Modelle können Dateien analysieren, Videos verstehen und Objekte in Bildern zählen sowie einen PC steuern – ähnlich dem kürzlich gestarteten Operator des Modells von OpenAI.
Gemäß dem Benchmarking des QWEN-Teams schlägt das beste QWEN2.5-VL-Modell OpenAs GPT-4O, das Claude 3.5-Sonett von Anthropic und Googles Gemini 2.0 Flash in einer Reihe von Videoverständnissen, Mathematik, Dokumentenanalyse und Fragestellungen.
Qwen2.5-VL, das in Alibaba’s getestet werden kann Qwen Chat App und zu herunterladen Von der AI-Dev-Plattform umarmt das Gesicht, kann Diagramme und Grafiken analysieren, Daten aus Scans von Rechnungen und Formularen extrahieren und mehrstig lange Videos „verstehen“, so das QWEN-Team. Qwen2.5-VL can also recognize “IPs from film and TV series, as well as a wide variety of products,” per Team – Dies schließt darauf hin, dass die Modelle möglicherweise teilweise in urheberrechtlich geschützten Werken geschult worden sein.
Qwen2.5-VL, der von einem chinesischen Unternehmen entwickelt wurde, hat bestimmte Beschränkungen zu den Themen, die er erläutert-zumindest im Qwen-Chat. Als ich das größte und fähigste Qwen2.5-VL-Modell, Qwen2.5-VL-72B, fragte, über „Xi Jinpings Fehler“ zu sprechen, warf Qwen Chat eine Fehlermeldung.
Chinas Internetregulierungsbehörde Benchmarks Viele Modelle, die im Land entwickelt wurden, um ihre Antworten zu gewährleisten, „verkörpern die sozialistischen Kernwerte“. Viele Chinesische KI -Systeme lehnen es ab, auf Themen zu reagieren, die den Zorn der Aufsichtsbehörden wie die Autonomie Taiwans erhöhen könnten.
Eine der interessanteren Funktionen von QWEN2.5-VL ist die Fähigkeit, mit Software zu interagieren-sowohl auf PCs als auch auf mobilen Geräten. Ein Video, das auf X von Philipp Schmid veröffentlicht wurde, ein technischer Vorsprung bei Hugging Face, Qwen2.5-VL startet die Booking.com-App für Android und die Buchung eines Fluges von Chongqing nach Peking.
Verpassen Sie nicht @Alibaba_qwen 2.5 VL! Trotz aller Deepseek -Hype hat Qwen gerade das beste offene Multimodal fallen! Qwen 2.5 VL ist ein Sehsprachmodell, das Ihren Computer steuern kann, ähnlich wie die @Openai Operator, strukturierte Informationen aus Diagrammen und mehr extrahieren !!
Tl; dr;
3️⃣… pic.twitter.com/geegvdl0ti– Philipp Schmid (@_Philschmid) 27. Januar 2025
Im folgenden Video steuert ein QWEN2.5-VL-Modell Apps auf einem Linux-Desktop-scheint aber nicht viel über das Schalten von Registerkarten hinaus zu erreichen. Vielleicht bezeichnenderweise zeigt Qwens Benchmarking Qwen2.5-VL-Wert auf Osworld, ein Benchmark, der versucht, eine echte Computerumgebung nachzuahmen.
LMAO QWEN 2.5 VL kann den Computergebrauch ausführen, und übernimmt den OpenAI -Bedienerkopf an! 🐐 pic.twitter.com/lwmecxznsu
– Vaibhav (VB) Srivastav (@reach_vb) 27. Januar 2025
Die beiden kleineren, weniger ausgefeilten Modelle in der QWEN2.5-VL-Serie QWEN2.5-VL-3B und QWEN2.5-VL-7B sind im Rahmen einer zulässigen Lizenz verfügbar. Das Flaggschiff QWEN2.5-VL-72B steht jedoch unter Alibabas benutzerdefinierter Lizenz, bei der Unternehmen und Entwickler mit mehr als 100 Millionen aktiven aktiven Benutzern die Berechtigung von Qwen/Alibaba anfordern, bevor das Modell kommerziell bereitgestellt wird.