GLM-4.6V

多模态大模型

GLM-4.6V 106B-A12B

发布时间: 2025-12-08

GitHub Hugging Face 在线体验

模型参数（Parameters）

1080.0

最高上下文长度（Context Length）

128K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

128K tokens

最长输出结果

暂无数据

模型类型

多模态大模型

发布时间

2025-12-08

模型预文件大小

暂无数据

推理模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License - 免费商用授权

GitHub 源码

https://github.com/zai-org/GLM-V

Hugging Face

https://huggingface.co/zai-org/GLM-4.6V

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

GLM-4.6V - Z.AI Developer Document

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

接口价格

暂无公开的 API 定价信息。

GLM-4.6V模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

智谱AI

查看发布机构详情

GLM-4.6V 106B-A12B模型解读

概览与定位

GLM-4.6V 是 Zhipu AI（Z.ai）面向视觉-语言任务的新迭代多模态大模型系列，相对 GLM-4.5V 进行了全面升级。官方介绍显示，该系列在训练阶段将上下文规模扩展至 128K，并首次引入原生的 Function Calling，用于跨“视觉感知”与“可执行动作”的闭环，多用于真实业务场景中的多模态 Agent。参见 Z.ai 开发者文档与 Hugging Face 模型卡。

架构与技术规格

该版本在公开页面被标注为约 106–108B 参数规模的多模态模型（组织页显示 108B；新闻稿与简介多以“106B-A12B”表述，对应稀疏 MoE 架构下约 12B 激活参数规模）。训练期间上下文为 128K（训练设置），适配长文档与多文档场景。详见 Hugging Face 与文档。

模态与核心能力

该模型支持图像+文本输入、文本输出，强调多模态文档理解（版面结构、图表、表格、图形联合解析）、前端界面复刻与视觉编辑，以及在生成过程中进行跨模态的内容组织。引入原生 Function Calling 后，可将视觉输入直接作为工具参数参与调用，支持在视觉-检索-执行链路中的工具使用闭环。详见官方文档。

性能与基准

官方展示其在同等参数量级上的多模态理解达到领先水平（SoTA @ similar scale），并给出若干基准与示例；具体得分以模型卡/文档附图为准。参见模型卡。

应用与限制

推荐应用包括多模态文档理解、UI 还原与编辑、图表/检索-增强内容生产，以及需要视觉驱动工具使用的业务型 Agent。模型卡同时提示若干局限（如纯文本 QA 仍有改进空间、复杂提示下可能出现重复思考等），详见模型卡。

获取方式与许可

权重已在 Hugging Face 发布，许可为 MIT；推理可使用 vLLM 或 SGLang，开发者文档与示例代码已提供。参见 Hugging Face、文档与 GLM-V GitHub。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯