Kimi K2 0905

聊天大模型

Kimi K2-Instruct-0905

发布时间: 2025-09-05

716

GitHub Hugging Face 在线体验

模型参数（Parameters）

10000.0

最高上下文长度（Context Length）

256K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

256K tokens

最长输出结果

4096 tokens

模型类型

聊天大模型

发布时间

2025-09-05

模型预文件大小

1.01TB

推理模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License - 免费商用授权

GitHub 源码

暂无GitHub开源地址

Hugging Face

https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905

在线体验

https://www.kimi.com/

官方介绍与博客

官方论文

暂无官方论文

DataLearnerAI博客

Moonshot AI发布Kimi K2-Instruct-0905：256K上下文长度加持，全面升级的开放式智能体模型

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	0.60 美元/ 100 万tokens	2.5 美元/ 100 万tokens

Kimi K2 0905模型在各大评测榜单的评分

综合评估

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

HLE thinking + 使用工具

21.70

21 / 72

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

SWE-bench Verified normal

69.20

26 / 68

SWE-bench Verified thinking + 使用工具

69.20

26 / 68

SWE-Bench Pro - Public normal

27.67

5 / 5

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

AIME2025 thinking + 使用工具

75.20

56 / 95

IMO-ProofBench normal

7.10

13 / 16

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

Terminal-Bench normal

44.50

6 / 35

Terminal-Bench thinking + 使用工具

44.50

6 / 35

发布机构

Moonshot AI

查看发布机构详情

Kimi K2-Instruct-0905模型解读

在 2025 年 7 月 11 日推出开放权重的 Kimi K2系列之后，Moonshot AI 又在 9 月 5 日发布了更新版本——Kimi K2-Instruct-0905。相较 7 月版本，这次升级把上下文长度从 128K 扩展到 256K，并在自主智能体（Agentic）编码与前端代码生成体验上大幅提升，属于一次非常有诚意的迭代：同样是 1 万亿总参数的稀疏 MoE 架构，但在真实开发与工具调用任务中表现更稳定、更可靠。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

[TOC]

Kimi K2 0905 的最大升级是“超长上下文”和工具调用

7 月份，Moonshot AI 发布了 Kimi K2 的开放权重版本，主打 1T MoE、32B 激活参数与面向工具使用的 “Agentic” 设计，当时上下文长度为 128K。该版本以编码与复杂任务分解见长，并引发社区讨论与媒体关注。但模型依然存在几个瓶颈：

上下文长度不足 → 对长周期任务支持有限
跨场景智能不稳 → 工具调用和复杂逻辑容易出错
前端体验欠佳 → 生成的 UI 代码常常偏“实用”而缺乏美学

本次版本把上下文直接提升至 256K，并针对工具调用逻辑与对话链路做了系统优化，目的是让模型在“长文理解—多步调用—结果整合—可执行输出”的闭环里更稳定。详情如下：

更强的 Agentic 编码智能
在代码修复、跨语言重构与大型仓库导航中，Kimi K2 0905 倾向先“读全局”，再主动规划步骤并调用工具（如 Bash、编辑器或外部 API），最后把“可执行变更”合并为最小补丁。这种流程在 SWE 系列中直接转化为更高的单次命中率与更少的回滚。

因为真实工程并非“写一段代码就完事”，而是端到端：定位问题 → 解析依赖 → 生成补丁 → 运行验证 → 迭代修正。Kimi K2 0905 在这条链路上更像“值班同事”，而不是“建议机器”。

前端开发体验的结构化提升
许多模型能让页面运行起来，但难以让页面足够美观。Kimi K2 0905 在 React / Vue 等框架的代码生成中更注重组件边界清晰、状态管理自然与一致的设计体系。这意味着在真实团队协作中，它生成的视图层更容易落地与复用，减少设计还原和返工成本。

更可靠的工具调用（Tool Calling）
此外，Kimi K2 0905 支持在一次对话中自主决定何时调用什么工具，并将工具结果写回推理上下文。官方示例展示了完整的“识别需求 → 解析参数 → 调用工具 → 合并回答”的管线，便于直接拼装成业务代理。

性能对比：Kimi K2 0905 在多项基准测试中提升明显

Moonshot AI 公布的评测数据表明，K2-Instruct-0905 在多个基准任务上均显著优于前代与竞品。

下表展示了Kimi K2 0905的评测结果：

基准任务	K2-0905	K2-0711	Qwen3-Coder	GLM-4.5	DeepSeek-V3.1	Claude-Sonnet-4	Claude-Opus-4
SWE-Bench verified	69.2 ± 0.63	65.8	69.6*	64.2*	66.0*	72.7*	72.5*
SWE-Bench Multilingual	55.9 ± 0.72	47.3	54.7*	52.7	54.5*	53.3*	-
Multi-SWE-Bench	33.5 ± 0.28	31.3	32.7	31.7	29.0	35.7	-
Terminal-Bench	44.5 ± 2.03	37.5	37.5*	39.9*	31.3*	36.4*	43.2*
SWE-Dev	66.6 ± 0.72	61.9	64.7	63.2	53.3	67.1	-

注：带 * 的数据为官方报告或公开排行榜结果。

数据来源：https://www.datalearner.com/compare/result?modelInputString=672,625,665,636,639&benchmarkInputString=35,46

这些数字意味着什么？首先，在多语言与真实开发任务（如 SWE-Bench Multilingual、SWE-Dev）上，0905 相比 0711 提升 4.7–8.6 个百分点；其次，在 Terminal-Bench 这类“命令行+环境操作”的综合任务中，0905 也较上一代有 提升 7.0 个百分点 的显著增幅。稳定性与跨场景泛化显著增强，是这次升级的直观结论。

更关键的是，**生态侧的“同步支持”**也在加速：Groq 宣布自 09/04 起在 GroqCloud 上线 0905，并给出了 256K 上下文、200+ Tokens/s 的推理速度和 1 美元/百万输入 tokens + 3 美元/百万输出 tokens 的价格区间，进一步印证了这次版本的定位——面向生产的高吞吐 Agent 模型。

Kimi K2 0905 依然完全开源

与 7 月份开源的 Kimi K2 一样，本次的 Kimi K2 0905 也完全开源，并提供免费商用授权。不过需要注意的是，Kimi K2 的开源协议并非传统的 MIT 协议，而是新增了一个额外义务：如果用于大型商用产品（>1 亿月活用户或 >2000 万美元月收入），必须在界面上显著展示『Kimi K2』。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯