Ki

Kimi K2 0905

聊天大模型

Kimi K2-Instruct-0905

发布时间: 2025-09-05

716
模型参数(Parameters)
10000.0
最高上下文长度(Context Length)
256K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

256K tokens

最长输出结果

4096 tokens

模型类型

聊天大模型

发布时间

2025-09-05

模型预文件大小

1.01TB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验

官方介绍与博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.60 美元/ 100 万tokens 2.5 美元/ 100 万tokens

Kimi K2 0905模型在各大评测榜单的评分

综合评估

共 1 项评测
HLE thinking + 使用工具
21.70
21 / 72

编程与软件工程

共 3 项评测
69.20
26 / 68
SWE-bench Verified thinking + 使用工具
69.20
26 / 68
27.67
5 / 5

数学推理

共 2 项评测
AIME2025 thinking + 使用工具
75.20
56 / 95
7.10
13 / 16

AI Agent - 工具使用

共 2 项评测
44.50
6 / 35
Terminal-Bench thinking + 使用工具
44.50
6 / 35

发布机构

Kimi K2-Instruct-0905模型解读

在 2025 年 7 月 11 日推出开放权重的 Kimi K2系列 之后,Moonshot AI 又在 9 月 5 日发布了更新版本——Kimi K2-Instruct-0905。相较 7 月版本,这次升级把上下文长度从 128K 扩展到 256K,并在自主智能体(Agentic)编码与前端代码生成体验上大幅提升,属于一次非常有诚意的迭代:同样是 1 万亿总参数的稀疏 MoE 架构,但在真实开发与工具调用任务中表现更稳定、更可靠。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

[TOC]

Kimi K2 0905 的最大升级是“超长上下文”和工具调用

7 月份,Moonshot AI 发布了 Kimi K2 的开放权重版本,主打 1T MoE、32B 激活参数与面向工具使用的 “Agentic” 设计,当时上下文长度为 128K。该版本以编码与复杂任务分解见长,并引发社区讨论与媒体关注。但模型依然存在几个瓶颈:

  • 上下文长度不足 → 对长周期任务支持有限
  • 跨场景智能不稳 → 工具调用和复杂逻辑容易出错
  • 前端体验欠佳 → 生成的 UI 代码常常偏“实用”而缺乏美学

本次版本把上下文直接提升至 256K,并针对工具调用逻辑与对话链路做了系统优化,目的是让模型在“长文理解—多步调用—结果整合—可执行输出”的闭环里更稳定。详情如下:

更强的 Agentic 编码智能
在代码修复、跨语言重构与大型仓库导航中,Kimi K2 0905 倾向先“读全局”,再主动规划步骤并调用工具(如 Bash、编辑器或外部 API),最后把“可执行变更”合并为最小补丁。这种流程在 SWE 系列中直接转化为更高的单次命中率与更少的回滚。

因为真实工程并非“写一段代码就完事”,而是端到端:定位问题 → 解析依赖 → 生成补丁 → 运行验证 → 迭代修正。Kimi K2 0905 在这条链路上更像“值班同事”,而不是“建议机器”。

前端开发体验的结构化提升
许多模型能让页面运行起来,但难以让页面足够美观。Kimi K2 0905 在 React / Vue 等框架的代码生成中更注重组件边界清晰、状态管理自然一致的设计体系。这意味着在真实团队协作中,它生成的视图层更容易落地与复用,减少设计还原和返工成本。

更可靠的工具调用(Tool Calling)
此外,Kimi K2 0905 支持在一次对话中自主决定何时调用什么工具,并将工具结果写回推理上下文。官方示例展示了完整的“识别需求 → 解析参数 → 调用工具 → 合并回答”的管线,便于直接拼装成业务代理。

性能对比:Kimi K2 0905 在多项基准测试中提升明显

Moonshot AI 公布的评测数据表明,K2-Instruct-0905 在多个基准任务上均显著优于前代与竞品。

下表展示了Kimi K2 0905的评测结果:

基准任务K2-0905K2-0711Qwen3-CoderGLM-4.5DeepSeek-V3.1Claude-Sonnet-4Claude-Opus-4
SWE-Bench verified69.2 ± 0.6365.869.6*64.2*66.0*72.7*72.5*
SWE-Bench Multilingual55.9 ± 0.7247.354.7*52.754.5*53.3*-
Multi-SWE-Bench33.5 ± 0.2831.332.731.729.035.7-
Terminal-Bench44.5 ± 2.0337.537.5*39.9*31.3*36.4*43.2*
SWE-Dev66.6 ± 0.7261.964.763.253.367.1-
注:带 * 的数据为官方报告或公开排行榜结果。





数据来源:https://www.datalearner.com/compare/result?modelInputString=672,625,665,636,639&benchmarkInputString=35,46



这些数字意味着什么?首先,在多语言与真实开发任务(如 SWE-Bench Multilingual、SWE-Dev)上,0905 相比 0711 提升 4.7–8.6 个百分点;其次,在 Terminal-Bench 这类“命令行+环境操作”的综合任务中,0905 也较上一代有 提升 7.0 个百分点 的显著增幅。稳定性与跨场景泛化显著增强,是这次升级的直观结论。

更关键的是,**生态侧的“同步支持”**也在加速:Groq 宣布自 09/04 起在 GroqCloud 上线 0905,并给出了 256K 上下文200+ Tokens/s 的推理速度和 1 美元/百万输入 tokens + 3 美元/百万输出 tokens 的价格区间,进一步印证了这次版本的定位——面向生产的高吞吐 Agent 模型

Kimi K2 0905 依然完全开源

与 7 月份开源的 Kimi K2 一样,本次的 Kimi K2 0905 也完全开源,并提供免费商用授权。不过需要注意的是,Kimi K2 的开源协议并非传统的 MIT 协议,而是新增了一个额外义务:如果用于大型商用产品(>1 亿月活用户或 >2000 万美元月收入),必须在界面上显著展示『Kimi K2』。

关于Kimi K2 0905的模型详情和开源地址参考DataLearnerAI模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-0905

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat