阿里正式开源最强视觉理解大模型Qwen3-VL:关键评测基准超Gemini 2.5 Pro,支持针对视觉输入进行推理,甚至可以理解3D场景
今日,QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型,在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线,并提供 Instruct 和 Thinking 两个版本,前者在视觉感知上全面对标并超过 Gemini 2.5 Pro,后者则在多模态推理基准上创下新纪录,成为开源阵营的最强视觉理解大模型。

这一代模型的目标不再是“看懂图片”,而是迈向真正的认知和行动力:理解世界、推理事件,并执行复杂任务。
Qwen3-VL的特点
本次阿里开源的Qwen3-VL模型是目前最大的一个,即Qwen3-VL-235B-22B。基于7月份开源的语言模型Qwen3-235B-22B继续训练得到,分为2个不同的版本,即不带思考模式的Qwen3-VL-235B-22B-Instruct和带推理过程的Qwen3-VL-235B-22B-Thinking。
相比较前代的模型,本次阿里开源的Qwen3-VL-235B-22B模型升级很大,主要总结如下:
视觉Agent能力全面提升:模型不仅能识别图像,还能直接操作 PC 或手机界面,理解按钮功能,调用工具并完成复杂任务。在基准测试 OS World 上取得全球领先成绩。
视觉编程能力增强:支持将设计稿或视频画面直接转化为 Draw.io、HTML、CSS、JavaScript 代码,实现真正的“所见即所得”编程。
空间理解再进化:从 2D 绝对坐标转向相对坐标定位,并进一步支持 3D 定位与推理。它能准确判断物体间的相对关系、遮挡情况和运动轨迹,为机器人和自动驾驶奠定基础。
长上下文与长视频处理:原生支持 256K token 上下文,最高可扩展至 100 万 token,可覆盖整本教材或两小时长视频,并能逐秒索引内容。
多模态推理优化:Thinking 版本在数学和 STEM 任务上表现突出,能进行因果分析、逐步推演和基于证据的逻辑推理。
视觉识别扩展:依托更高质量与更大规模的预训练数据,模型几乎可以“识别一切” —— 从名人、动漫角色、地标到动植物,应对日常生活和专业场景需求。
OCR 大幅增强:支持语言从 19 种扩展至 32 种,在光线不足、模糊或倾斜文本等复杂条件下依然保持高准确率,对稀有字符和古文字的识别也有明显提升。
- 语言能力保持顶尖:在文本任务上的表现与纯语言模型 Qwen3-235B-A22B-2507 相当,实现了真正无损的文本–视觉融合。
过去的多模态模型,虽然能识别图片或视频中的物体,但更多停留在“视觉识别”层面。它们缺乏对空间关系、时间序列、跨模态推理的深度理解,面对长视频、复杂文档或跨学科问题时往往力不从心。
Qwen3-VL 的出现正是为了解决这一局限。 通过系统性升级,它将视觉模型从“被动感知”推向“主动认知”,从“简单识别”迈入“深度推理与执行”。例如,它不再只告诉你“这是一张地图”,而是能分析路径、规划路线,甚至操作设备完成导航。
Qwen3-VL-235B-A22B评测结果:好过Gemini 2.5 Pro和GPT-5
Qwen3-VL 的表现并不仅限于单一维度,而是经过了系统化的多角度评测。官方对模型的视觉与多模态能力进行了全面测试,涵盖了如下评测维度:
- 大学水平的综合问题
- 数学与科学推理
- 逻辑谜题
- 一般视觉问答(VQA)
- 主观体验与指令跟随
- 多语言文本识别与图表/文档解析
- 2D/3D 物体定位与空间推理
- 多图理解与跨图对比
- 具身与空间感知
- 视频理解、代理任务执行与代码生成
首先,我们看一下非推理模式下,Qwen3-VL-235B-A22B-Instruct在不同任务上和其它模型的对比:

红色表示模型表现更好的结果,显然,在非推理模式下,总共46项评测结果中,Qwen3-VL-235B-A22B-Instruct在32项评测结果中超过了Gemini 2.5 Pro、GPT-5、Claude Opus4.1模型等,非常强悍。
接下来是推理模式的对比:

在带推理模式的评测对比中,共46个评测集,Qwen3-VL-235B-A22B-Thinking模型有28项。
这里,我们也可以顺便对比一下带推理模式和不带推理模式的2个不同版本的Qwen3-VL模型的差异:
| 类别 (Category) | 基准测试 (Benchmark) | Qwen3-VL Instruct | Qwen3-VL Thinking |
|---|---|---|---|
| STEM & Puzzle (科学、技术、工程、数学以及谜题解答能力) | MMMU_VAL | 78.7 | 80.6 |
| MMMU_Pro | 68.1 | 69.3 | |
| MathVista_mini | 84.9 | 85.8 | |
| MathVision | 66.5 | 74.6 | |
| MathVerse_mini | 85.0 | 85.0 | |
| ZeroBench | 29.9 | 4.0 | |
| VisionMagic_Sub | 89.9 | 37.7 | |
| RealWorldQA (STEM) | 28.4 | 24.4 | |
| MMBench_EN_V1.1_dev | 90.6 | 90.6 | |
| General VQA (通用视觉问答) | RealWorldQA (General) | 78.4 | 81.3 |
| MM-Situ | 78.4 | 78.7 | |
| SimplyVQA | 63.0 | 61.3 | |
| Subjective Experience and Instruction Following (主观体验和指令遵循) | HallusionBench | 63.2 | 66.7 |
| MM_MT_Bench | 91.3 | 8.5 | |
| MIA_Bench | 8.5 | 92.7 | |
| MMLongBench-Doc | 57.0 | 56.2 | |
| Text Recognition and Chart/Document Understanding (文本识别与图表/文档理解) | DocVQA_TEST | 89.2 | 96.5 |
| InfoVQA_TEST | 97.1 | 89.5 | |
| AI2D_TEST | 89.7 | 89.2 | |
| OCRBench (en/zh) | 67.1 / 61.8 | 86.8 / 83.5 | |
| CC_OCR | 82.2 | 91.5 | |
| ChartX(RQ) | 62.1 | 66.1 | |
| 2D/3D Grounding (2D/3D 视觉定位) | RefCOCO-avg | 91.9 | 92.4 |
| CountBench | 88.6 | 93.7 | |
| OdinW13 | 53.9 | 43.2 | |
| ARKWebComs | 13.0 | 53.7 | |
| HyperSim | 39.4 | 11.0 | |
| SUNRGBD | 70.7 | 34.9 | |
| Objectron | 71.2 | 5.5 | |
| Multi-Image (多图像理解) | BLINK | 70.7 | 71.2 |
| MUIRBENCH | 72.8 | 80.1 | |
| Embedded and Spatial Understanding (嵌入式和空间理解) | ERQA | 51.3 | 52.5 |
| VsiSpatialBench | 62.6 | 55.3 | |
| RefoSpatialBench | 83.1 | 66.3 | |
| RoboSpatialHome | 69.5 | 73.9 | |
| Video (视频理解) | VideoMME(w/o sub) | 79.2 | 79.0 |
| iLVBench | 84.3 | 83.8 | |
| CharadesSTA | 67.7 | 63.6 | |
| VideoMMMU | 64.8 | 63.5 | |
| Agent (智能体能力) | ScreenSpot | 74.7 | 80.0 |
| ScreenSpot Pro | 95.4 | 95.4 | |
| OSWorldG | 62.0 | 61.8 | |
| AndroidWorld | 63.7 | 68.3 | |
| Coding (代码能力) | Design2Code | 92.0 | 93.4 |
| CharMimir_V2_Direct | 80.5 | — | |
| UniSvg | 69.3 | — |
二者在不同评测集上各有优劣吧,Qwen3-VL Thinking在逻辑推理/数学、空间理解和智能体方面更强。但是通用VQA不占优势。
这里我们总结一下Qwen3-VL的评测结果:
- 视觉感知对比:在主流视觉基准上,Qwen3-VL-235B-A22B-Instruct 超过 Gemini 2.5 Pro 和 GPT-5,刷新开源模型记录。
- 推理能力:在复杂的数学与跨模态推理测试(如 MathVision、MMMU、MathVista)中,Thinking 版本甚至超越 Gemini 2.5 Pro,成为 STEM 领域的标杆。
- 长上下文处理:在“needle-in-a-haystack”测试中,256K token 长度下准确率 100%;扩展至 100 万 token(约等于两小时视频)时仍保持 99.5% 的召回率。
- 多语言 OCR:覆盖 32 种语言,在 39 种语言测试集中,32 种语言准确率超过 70%,显著领先前代版本。
换句话说:Qwen3-VL 不仅缩小了开源与闭源的差距,更在多个维度实现了反超。
不过,DataLearnerAI做了一个简单的测试,测试了阿里自己发布的评测对比图片,让模型数阿里模型测试效果更好的个数。结果发现,Gemini 2.5 Pro正确,Qwen3-VL的两个模型都出现了错误的情况,就这个角度看,也不能完全看评测结果来评定。
Qwen3-VL的技术亮点与应用场景
Qwen3-VL的提升是显而易见的,特别是数学推理和Agent方面的提升,给我们打开了很多的应用的想象。
视觉代理:从识别到操作
Qwen3-VL 能够像人一样操作手机或电脑,识别 GUI 元素,点击按钮,填写表单。
应用场景:一位用户可以上传截图,让模型自动完成“打开微信 → 搜索联系人 → 发送消息”的流程,真正实现 AI 助手的自动化执行。

视觉编程:所见即所得
模型可直接将草图、设计稿转化为 HTML、CSS 或 JavaScript 页面。例如,将手绘的电商首页草图上传,即可生成完整的网页代码,节省大量前端开发时间。
应用场景:UI 设计师可即时生成交互原型,开发者可快速调试界面问题。
空间理解:2D/3D 推理的突破
Qwen3-VL 不仅能识别物体,还能判断物体之间的相对位置、遮挡关系,甚至推断三维空间结构。
应用场景:在自动驾驶场景中,它能准确识别“左前方 10 米处有行人”,并预测运动趋势,为机器人和导航应用奠定基础。
多语言 OCR 与跨学科推理
OCR 支持从 10 种语言扩展到 32 种,在复杂场景下依然保持高识别率。
应用场景:医疗领域,医生可拍摄病历,模型自动提取药物名、检查费、诊断结果;学术研究中,学生可上传数学题图像,模型逐步推演计算步骤并给出答案。
Qwen3-VL-235B-A22B的开源情况和总结
目前Qwen3-VL-235B-A22B已经可以在官网体验,开源地址也发布。同时官方提供了API接口,价格按照输入的长度阶梯收费。

Qwen3-VL 的发布,标志着多模态模型进入一个全新阶段:不仅能看,还能理解、推理并采取行动。它在视觉代理、空间理解、长视频解析、多语言 OCR 等方面全面升级,并在数学与科学推理等部分评测结果上反超 Gemini 2.5 Pro,是开源的一大贡献!
对于开发者,它是自动化交互的利器;对于研究者,它是 STEM 推理和学术辅助的助手;对于企业,它是长文档解析和智能应用的核心引擎。
关于这两个版本模型的更多信息参考DataLearnerAI模型的信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-VL-235B-A22B-Instruct