阿里正式开源最强视觉理解大模型Qwen3-VL:关键评测基准超Gemini 2.5 Pro,支持针对视觉输入进行推理,甚至可以理解3D场景

今日,QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型,在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线,并提供 InstructThinking 两个版本,前者在视觉感知上全面对标并超过 Gemini 2.5 Pro,后者则在多模态推理基准上创下新纪录,成为开源阵营的最强视觉理解大模型。


这一代模型的目标不再是“看懂图片”,而是迈向真正的认知和行动力:理解世界、推理事件,并执行复杂任务。

Qwen3-VL的特点

本次阿里开源的Qwen3-VL模型是目前最大的一个,即Qwen3-VL-235B-22B。基于7月份开源的语言模型Qwen3-235B-22B继续训练得到,分为2个不同的版本,即不带思考模式的Qwen3-VL-235B-22B-Instruct和带推理过程的Qwen3-VL-235B-22B-Thinking。

相比较前代的模型,本次阿里开源的Qwen3-VL-235B-22B模型升级很大,主要总结如下:

  • 视觉Agent能力全面提升:模型不仅能识别图像,还能直接操作 PC 或手机界面,理解按钮功能,调用工具并完成复杂任务。在基准测试 OS World 上取得全球领先成绩。

  • 视觉编程能力增强:支持将设计稿或视频画面直接转化为 Draw.io、HTML、CSS、JavaScript 代码,实现真正的“所见即所得”编程。

  • 空间理解再进化:从 2D 绝对坐标转向相对坐标定位,并进一步支持 3D 定位与推理。它能准确判断物体间的相对关系、遮挡情况和运动轨迹,为机器人和自动驾驶奠定基础。

  • 长上下文与长视频处理:原生支持 256K token 上下文,最高可扩展至 100 万 token,可覆盖整本教材或两小时长视频,并能逐秒索引内容

  • 多模态推理优化:Thinking 版本在数学和 STEM 任务上表现突出,能进行因果分析、逐步推演和基于证据的逻辑推理。

  • 视觉识别扩展:依托更高质量与更大规模的预训练数据,模型几乎可以“识别一切” —— 从名人、动漫角色、地标到动植物,应对日常生活和专业场景需求。

  • OCR 大幅增强:支持语言从 19 种扩展至 32 种,在光线不足、模糊或倾斜文本等复杂条件下依然保持高准确率,对稀有字符和古文字的识别也有明显提升。

  • 语言能力保持顶尖:在文本任务上的表现与纯语言模型 Qwen3-235B-A22B-2507 相当,实现了真正无损的文本–视觉融合。

过去的多模态模型,虽然能识别图片或视频中的物体,但更多停留在“视觉识别”层面。它们缺乏对空间关系、时间序列、跨模态推理的深度理解,面对长视频、复杂文档或跨学科问题时往往力不从心。

Qwen3-VL 的出现正是为了解决这一局限。 通过系统性升级,它将视觉模型从“被动感知”推向“主动认知”,从“简单识别”迈入“深度推理与执行”。例如,它不再只告诉你“这是一张地图”,而是能分析路径、规划路线,甚至操作设备完成导航。

Qwen3-VL-235B-A22B评测结果:好过Gemini 2.5 Pro和GPT-5

Qwen3-VL 的表现并不仅限于单一维度,而是经过了系统化的多角度评测。官方对模型的视觉与多模态能力进行了全面测试,涵盖了如下评测维度:

  • 大学水平的综合问题
  • 数学与科学推理
  • 逻辑谜题
  • 一般视觉问答(VQA)
  • 主观体验与指令跟随
  • 多语言文本识别与图表/文档解析
  • 2D/3D 物体定位与空间推理
  • 多图理解与跨图对比
  • 具身与空间感知
  • 视频理解、代理任务执行与代码生成

首先,我们看一下非推理模式下,Qwen3-VL-235B-A22B-Instruct在不同任务上和其它模型的对比:


红色表示模型表现更好的结果,显然,在非推理模式下,总共46项评测结果中,Qwen3-VL-235B-A22B-Instruct在32项评测结果中超过了Gemini 2.5 Pro、GPT-5、Claude Opus4.1模型等,非常强悍。

接下来是推理模式的对比:


在带推理模式的评测对比中,共46个评测集,Qwen3-VL-235B-A22B-Thinking模型有28项。

这里,我们也可以顺便对比一下带推理模式和不带推理模式的2个不同版本的Qwen3-VL模型的差异:

类别 (Category) 基准测试 (Benchmark) Qwen3-VL Instruct Qwen3-VL Thinking
STEM & Puzzle (科学、技术、工程、数学以及谜题解答能力) MMMU_VAL 78.7 80.6
MMMU_Pro 68.1 69.3
MathVista_mini 84.9 85.8
MathVision 66.5 74.6
MathVerse_mini 85.0 85.0
ZeroBench 29.9 4.0
VisionMagic_Sub 89.9 37.7
RealWorldQA (STEM) 28.4 24.4
MMBench_EN_V1.1_dev 90.6 90.6
General VQA (通用视觉问答) RealWorldQA (General) 78.4 81.3
MM-Situ 78.4 78.7
SimplyVQA 63.0 61.3
Subjective Experience and Instruction Following (主观体验和指令遵循) HallusionBench 63.2 66.7
MM_MT_Bench 91.3 8.5
MIA_Bench 8.5 92.7
MMLongBench-Doc 57.0 56.2
Text Recognition and Chart/Document Understanding (文本识别与图表/文档理解) DocVQA_TEST 89.2 96.5
InfoVQA_TEST 97.1 89.5
AI2D_TEST 89.7 89.2
OCRBench (en/zh) 67.1 / 61.8 86.8 / 83.5
CC_OCR 82.2 91.5
ChartX(RQ) 62.1 66.1
2D/3D Grounding (2D/3D 视觉定位) RefCOCO-avg 91.9 92.4
CountBench 88.6 93.7
OdinW13 53.9 43.2
ARKWebComs 13.0 53.7
HyperSim 39.4 11.0
SUNRGBD 70.7 34.9
Objectron 71.2 5.5
Multi-Image (多图像理解) BLINK 70.7 71.2
MUIRBENCH 72.8 80.1
Embedded and Spatial Understanding (嵌入式和空间理解) ERQA 51.3 52.5
VsiSpatialBench 62.6 55.3
RefoSpatialBench 83.1 66.3
RoboSpatialHome 69.5 73.9
Video (视频理解) VideoMME(w/o sub) 79.2 79.0
iLVBench 84.3 83.8
CharadesSTA 67.7 63.6
VideoMMMU 64.8 63.5
Agent (智能体能力) ScreenSpot 74.7 80.0
ScreenSpot Pro 95.4 95.4
OSWorldG 62.0 61.8
AndroidWorld 63.7 68.3
Coding (代码能力) Design2Code 92.0 93.4
CharMimir_V2_Direct 80.5
UniSvg 69.3

二者在不同评测集上各有优劣吧,Qwen3-VL Thinking在逻辑推理/数学、空间理解和智能体方面更强。但是通用VQA不占优势。

这里我们总结一下Qwen3-VL的评测结果:

  • 视觉感知对比:在主流视觉基准上,Qwen3-VL-235B-A22B-Instruct 超过 Gemini 2.5 Pro 和 GPT-5,刷新开源模型记录。
  • 推理能力:在复杂的数学与跨模态推理测试(如 MathVision、MMMU、MathVista)中,Thinking 版本甚至超越 Gemini 2.5 Pro,成为 STEM 领域的标杆。
  • 长上下文处理:在“needle-in-a-haystack”测试中,256K token 长度下准确率 100%;扩展至 100 万 token(约等于两小时视频)时仍保持 99.5% 的召回率。
  • 多语言 OCR:覆盖 32 种语言,在 39 种语言测试集中,32 种语言准确率超过 70%,显著领先前代版本。

换句话说:Qwen3-VL 不仅缩小了开源与闭源的差距,更在多个维度实现了反超。

不过,DataLearnerAI做了一个简单的测试,测试了阿里自己发布的评测对比图片,让模型数阿里模型测试效果更好的个数。结果发现,Gemini 2.5 Pro正确,Qwen3-VL的两个模型都出现了错误的情况,就这个角度看,也不能完全看评测结果来评定。

Qwen3-VL的技术亮点与应用场景

Qwen3-VL的提升是显而易见的,特别是数学推理和Agent方面的提升,给我们打开了很多的应用的想象。

视觉代理:从识别到操作

Qwen3-VL 能够像人一样操作手机或电脑,识别 GUI 元素,点击按钮,填写表单。
应用场景:一位用户可以上传截图,让模型自动完成“打开微信 → 搜索联系人 → 发送消息”的流程,真正实现 AI 助手的自动化执行。


视觉编程:所见即所得

模型可直接将草图、设计稿转化为 HTML、CSS 或 JavaScript 页面。例如,将手绘的电商首页草图上传,即可生成完整的网页代码,节省大量前端开发时间。
应用场景:UI 设计师可即时生成交互原型,开发者可快速调试界面问题。

空间理解:2D/3D 推理的突破

Qwen3-VL 不仅能识别物体,还能判断物体之间的相对位置、遮挡关系,甚至推断三维空间结构。
应用场景:在自动驾驶场景中,它能准确识别“左前方 10 米处有行人”,并预测运动趋势,为机器人和导航应用奠定基础。

多语言 OCR 与跨学科推理

OCR 支持从 10 种语言扩展到 32 种,在复杂场景下依然保持高识别率。
应用场景:医疗领域,医生可拍摄病历,模型自动提取药物名、检查费、诊断结果;学术研究中,学生可上传数学题图像,模型逐步推演计算步骤并给出答案。

Qwen3-VL-235B-A22B的开源情况和总结

目前Qwen3-VL-235B-A22B已经可以在官网体验,开源地址也发布。同时官方提供了API接口,价格按照输入的长度阶梯收费。


Qwen3-VL 的发布,标志着多模态模型进入一个全新阶段:不仅能看,还能理解、推理并采取行动。它在视觉代理、空间理解、长视频解析、多语言 OCR 等方面全面升级,并在数学与科学推理等部分评测结果上反超 Gemini 2.5 Pro,是开源的一大贡献!

对于开发者,它是自动化交互的利器;对于研究者,它是 STEM 推理和学术辅助的助手;对于企业,它是长文档解析和智能应用的核心引擎。

关于这两个版本模型的更多信息参考DataLearnerAI模型的信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-VL-235B-A22B-Instruct

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码