Kimi K2-Instruct-0905
不支持
256K tokens
4096 tokens
聊天大模型
2025-09-05
1.01TB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 0.60 美元/ 100 万tokens | 2.5 美元/ 100 万tokens |
在 2025 年 7 月 11 日推出开放权重的 Kimi K2系列 之后,Moonshot AI 又在 9 月 5 日发布了更新版本——Kimi K2-Instruct-0905。相较 7 月版本,这次升级把上下文长度从 128K 扩展到 256K,并在自主智能体(Agentic)编码与前端代码生成体验上大幅提升,属于一次非常有诚意的迭代:同样是 1 万亿总参数的稀疏 MoE 架构,但在真实开发与工具调用任务中表现更稳定、更可靠。
关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905
[TOC]
7 月份,Moonshot AI 发布了 Kimi K2 的开放权重版本,主打 1T MoE、32B 激活参数与面向工具使用的 “Agentic” 设计,当时上下文长度为 128K。该版本以编码与复杂任务分解见长,并引发社区讨论与媒体关注。但模型依然存在几个瓶颈:
本次版本把上下文直接提升至 256K,并针对工具调用逻辑与对话链路做了系统优化,目的是让模型在“长文理解—多步调用—结果整合—可执行输出”的闭环里更稳定。详情如下:
更强的 Agentic 编码智能
在代码修复、跨语言重构与大型仓库导航中,Kimi K2 0905 倾向先“读全局”,再主动规划步骤并调用工具(如 Bash、编辑器或外部 API),最后把“可执行变更”合并为最小补丁。这种流程在 SWE 系列中直接转化为更高的单次命中率与更少的回滚。
因为真实工程并非“写一段代码就完事”,而是端到端:定位问题 → 解析依赖 → 生成补丁 → 运行验证 → 迭代修正。Kimi K2 0905 在这条链路上更像“值班同事”,而不是“建议机器”。
前端开发体验的结构化提升
许多模型能让页面运行起来,但难以让页面足够美观。Kimi K2 0905 在 React / Vue 等框架的代码生成中更注重组件边界清晰、状态管理自然与一致的设计体系。这意味着在真实团队协作中,它生成的视图层更容易落地与复用,减少设计还原和返工成本。
更可靠的工具调用(Tool Calling)
此外,Kimi K2 0905 支持在一次对话中自主决定何时调用什么工具,并将工具结果写回推理上下文。官方示例展示了完整的“识别需求 → 解析参数 → 调用工具 → 合并回答”的管线,便于直接拼装成业务代理。
Moonshot AI 公布的评测数据表明,K2-Instruct-0905 在多个基准任务上均显著优于前代与竞品。
下表展示了Kimi K2 0905的评测结果:
| 基准任务 | K2-0905 | K2-0711 | Qwen3-Coder | GLM-4.5 | DeepSeek-V3.1 | Claude-Sonnet-4 | Claude-Opus-4 |
|---|---|---|---|---|---|---|---|
| SWE-Bench verified | 69.2 ± 0.63 | 65.8 | 69.6* | 64.2* | 66.0* | 72.7* | 72.5* |
| SWE-Bench Multilingual | 55.9 ± 0.72 | 47.3 | 54.7* | 52.7 | 54.5* | 53.3* | - |
| Multi-SWE-Bench | 33.5 ± 0.28 | 31.3 | 32.7 | 31.7 | 29.0 | 35.7 | - |
| Terminal-Bench | 44.5 ± 2.03 | 37.5 | 37.5* | 39.9* | 31.3* | 36.4* | 43.2* |
| SWE-Dev | 66.6 ± 0.72 | 61.9 | 64.7 | 63.2 | 53.3 | 67.1 | - |
注:带 * 的数据为官方报告或公开排行榜结果。

这些数字意味着什么?首先,在多语言与真实开发任务(如 SWE-Bench Multilingual、SWE-Dev)上,0905 相比 0711 提升 4.7–8.6 个百分点;其次,在 Terminal-Bench 这类“命令行+环境操作”的综合任务中,0905 也较上一代有 提升 7.0 个百分点 的显著增幅。稳定性与跨场景泛化显著增强,是这次升级的直观结论。
更关键的是,**生态侧的“同步支持”**也在加速:Groq 宣布自 09/04 起在 GroqCloud 上线 0905,并给出了 256K 上下文、200+ Tokens/s 的推理速度和 1 美元/百万输入 tokens + 3 美元/百万输出 tokens 的价格区间,进一步印证了这次版本的定位——面向生产的高吞吐 Agent 模型。
与 7 月份开源的 Kimi K2 一样,本次的 Kimi K2 0905 也完全开源,并提供免费商用授权。不过需要注意的是,Kimi K2 的开源协议并非传统的 MIT 协议,而是新增了一个额外义务:如果用于大型商用产品(>1 亿月活用户或 >2000 万美元月收入),必须在界面上显著展示『Kimi K2』。
关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905
关注DataLearnerAI微信公众号,接受最新大模型资讯