阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

今日，QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型，在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线，并提供 Instruct 和 Thinking 两个版本，前者在视觉感知上全面对标并超过 Gemini 2.5 Pro，后者则在多模态推理基准上创下新纪录，成为开源阵营的最强视觉理解大模型。

这一代模型的目标不再是“看懂图片”，而是迈向真正的认知和行动力：理解世界、推理事件，并执行复杂任务。

Qwen3-VL的特点

本次阿里开源的Qwen3-VL模型是目前最大的一个，即Qwen3-VL-235B-22B。基于7月份开源的语言模型Qwen3-235B-22B继续训练得到，分为2个不同的版本，即不带思考模式的Qwen3-VL-235B-22B-Instruct和带推理过程的Qwen3-VL-235B-22B-Thinking。

相比较前代的模型，本次阿里开源的Qwen3-VL-235B-22B模型升级很大，主要总结如下：

视觉Agent能力全面提升：模型不仅能识别图像，还能直接操作 PC 或手机界面，理解按钮功能，调用工具并完成复杂任务。在基准测试 OS World 上取得全球领先成绩。
视觉编程能力增强：支持将设计稿或视频画面直接转化为 Draw.io、HTML、CSS、JavaScript 代码，实现真正的“所见即所得”编程。
空间理解再进化：从 2D 绝对坐标转向相对坐标定位，并进一步支持 3D 定位与推理。它能准确判断物体间的相对关系、遮挡情况和运动轨迹，为机器人和自动驾驶奠定基础。
长上下文与长视频处理：原生支持 256K token 上下文，最高可扩展至 100 万 token，可覆盖整本教材或两小时长视频，并能逐秒索引内容。
多模态推理优化：Thinking 版本在数学和 STEM 任务上表现突出，能进行因果分析、逐步推演和基于证据的逻辑推理。
视觉识别扩展：依托更高质量与更大规模的预训练数据，模型几乎可以“识别一切” —— 从名人、动漫角色、地标到动植物，应对日常生活和专业场景需求。
OCR 大幅增强：支持语言从 19 种扩展至 32 种，在光线不足、模糊或倾斜文本等复杂条件下依然保持高准确率，对稀有字符和古文字的识别也有明显提升。
语言能力保持顶尖：在文本任务上的表现与纯语言模型 Qwen3-235B-A22B-2507 相当，实现了真正无损的文本–视觉融合。

过去的多模态模型，虽然能识别图片或视频中的物体，但更多停留在“视觉识别”层面。它们缺乏对空间关系、时间序列、跨模态推理的深度理解，面对长视频、复杂文档或跨学科问题时往往力不从心。

Qwen3-VL 的出现正是为了解决这一局限。 通过系统性升级，它将视觉模型从“被动感知”推向“主动认知”，从“简单识别”迈入“深度推理与执行”。例如，它不再只告诉你“这是一张地图”，而是能分析路径、规划路线，甚至操作设备完成导航。

Qwen3-VL-235B-A22B评测结果：好过Gemini 2.5 Pro和GPT-5

Qwen3-VL 的表现并不仅限于单一维度，而是经过了系统化的多角度评测。官方对模型的视觉与多模态能力进行了全面测试，涵盖了如下评测维度：

大学水平的综合问题
数学与科学推理
逻辑谜题
一般视觉问答（VQA）
主观体验与指令跟随
多语言文本识别与图表/文档解析
2D/3D 物体定位与空间推理
多图理解与跨图对比
具身与空间感知
视频理解、代理任务执行与代码生成

首先，我们看一下非推理模式下，Qwen3-VL-235B-A22B-Instruct在不同任务上和其它模型的对比：

红色表示模型表现更好的结果，显然，在非推理模式下，总共46项评测结果中，Qwen3-VL-235B-A22B-Instruct在32项评测结果中超过了Gemini 2.5 Pro、GPT-5、Claude Opus4.1模型等，非常强悍。

接下来是推理模式的对比：

在带推理模式的评测对比中，共46个评测集，Qwen3-VL-235B-A22B-Thinking模型有28项。

这里，我们也可以顺便对比一下带推理模式和不带推理模式的2个不同版本的Qwen3-VL模型的差异：

类别 (Category)	基准测试 (Benchmark)	Qwen3-VL Instruct	Qwen3-VL Thinking
STEM & Puzzle (科学、技术、工程、数学以及谜题解答能力)	MMMU_VAL	78.7	80.6
	MMMU_Pro	68.1	69.3
	MathVista_mini	84.9	85.8
	MathVision	66.5	74.6
	MathVerse_mini	85.0	85.0
	ZeroBench	29.9	4.0
	VisionMagic_Sub	89.9	37.7
	RealWorldQA (STEM)	28.4	24.4
	MMBench_EN_V1.1_dev	90.6	90.6
General VQA (通用视觉问答)	RealWorldQA (General)	78.4	81.3
	MM-Situ	78.4	78.7
	SimplyVQA	63.0	61.3
Subjective Experience and Instruction Following (主观体验和指令遵循)	HallusionBench	63.2	66.7
	MM_MT_Bench	91.3	8.5
	MIA_Bench	8.5	92.7
	MMLongBench-Doc	57.0	56.2
Text Recognition and Chart/Document Understanding (文本识别与图表/文档理解)	DocVQA_TEST	89.2	96.5
	InfoVQA_TEST	97.1	89.5
	AI2D_TEST	89.7	89.2
	OCRBench (en/zh)	67.1 / 61.8	86.8 / 83.5
	CC_OCR	82.2	91.5
	ChartX(RQ)	62.1	66.1
2D/3D Grounding (2D/3D 视觉定位)	RefCOCO-avg	91.9	92.4
	CountBench	88.6	93.7
	OdinW13	53.9	43.2
	ARKWebComs	13.0	53.7
	HyperSim	39.4	11.0
	SUNRGBD	70.7	34.9
	Objectron	71.2	5.5
Multi-Image (多图像理解)	BLINK	70.7	71.2
	MUIRBENCH	72.8	80.1
Embedded and Spatial Understanding (嵌入式和空间理解)	ERQA	51.3	52.5
	VsiSpatialBench	62.6	55.3
	RefoSpatialBench	83.1	66.3
	RoboSpatialHome	69.5	73.9
Video (视频理解)	VideoMME(w/o sub)	79.2	79.0
	iLVBench	84.3	83.8
	CharadesSTA	67.7	63.6
	VideoMMMU	64.8	63.5
Agent (智能体能力)	ScreenSpot	74.7	80.0
	ScreenSpot Pro	95.4	95.4
	OSWorldG	62.0	61.8
	AndroidWorld	63.7	68.3
Coding (代码能力)	Design2Code	92.0	93.4
	CharMimir_V2_Direct	80.5	—
	UniSvg	69.3	—

二者在不同评测集上各有优劣吧，Qwen3-VL Thinking在逻辑推理/数学、空间理解和智能体方面更强。但是通用VQA不占优势。

这里我们总结一下Qwen3-VL的评测结果：

视觉感知对比：在主流视觉基准上，Qwen3-VL-235B-A22B-Instruct 超过 Gemini 2.5 Pro 和 GPT-5，刷新开源模型记录。
推理能力：在复杂的数学与跨模态推理测试（如 MathVision、MMMU、MathVista）中，Thinking 版本甚至超越 Gemini 2.5 Pro，成为 STEM 领域的标杆。
长上下文处理：在“needle-in-a-haystack”测试中，256K token 长度下准确率 100%；扩展至 100 万 token（约等于两小时视频）时仍保持 99.5% 的召回率。
多语言 OCR：覆盖 32 种语言，在 39 种语言测试集中，32 种语言准确率超过 70%，显著领先前代版本。

换句话说：Qwen3-VL 不仅缩小了开源与闭源的差距，更在多个维度实现了反超。

不过，DataLearnerAI做了一个简单的测试，测试了阿里自己发布的评测对比图片，让模型数阿里模型测试效果更好的个数。结果发现，Gemini 2.5 Pro正确，Qwen3-VL的两个模型都出现了错误的情况，就这个角度看，也不能完全看评测结果来评定。

Qwen3-VL的技术亮点与应用场景

Qwen3-VL的提升是显而易见的，特别是数学推理和Agent方面的提升，给我们打开了很多的应用的想象。

视觉代理：从识别到操作

Qwen3-VL 能够像人一样操作手机或电脑，识别 GUI 元素，点击按钮，填写表单。
应用场景：一位用户可以上传截图，让模型自动完成“打开微信 → 搜索联系人 → 发送消息”的流程，真正实现 AI 助手的自动化执行。

视觉编程：所见即所得

模型可直接将草图、设计稿转化为 HTML、CSS 或 JavaScript 页面。例如，将手绘的电商首页草图上传，即可生成完整的网页代码，节省大量前端开发时间。
应用场景：UI 设计师可即时生成交互原型，开发者可快速调试界面问题。

空间理解：2D/3D 推理的突破

Qwen3-VL 不仅能识别物体，还能判断物体之间的相对位置、遮挡关系，甚至推断三维空间结构。
应用场景：在自动驾驶场景中，它能准确识别“左前方 10 米处有行人”，并预测运动趋势，为机器人和导航应用奠定基础。

多语言 OCR 与跨学科推理

OCR 支持从 10 种语言扩展到 32 种，在复杂场景下依然保持高识别率。
应用场景：医疗领域，医生可拍摄病历，模型自动提取药物名、检查费、诊断结果；学术研究中，学生可上传数学题图像，模型逐步推演计算步骤并给出答案。

Qwen3-VL-235B-A22B的开源情况和总结

目前Qwen3-VL-235B-A22B已经可以在官网体验，开源地址也发布。同时官方提供了API接口，价格按照输入的长度阶梯收费。

Qwen3-VL 的发布，标志着多模态模型进入一个全新阶段：不仅能看，还能理解、推理并采取行动。它在视觉代理、空间理解、长视频解析、多语言 OCR 等方面全面升级，并在数学与科学推理等部分评测结果上反超 Gemini 2.5 Pro，是开源的一大贡献！

对于开发者，它是自动化交互的利器；对于研究者，它是 STEM 推理和学术辅助的助手；对于企业，它是长文档解析和智能应用的核心引擎。

关于这两个版本模型的更多信息参考DataLearnerAI模型的信息卡：https://www.datalearner.com/ai-models/pretrained-models/Qwen3-VL-235B-A22B-Instruct