全球最强编程大模型升级:Anthropic发布Claude Sonnet 4.5!同时还有一波重磅工具更新:Claude Code支持保存状态等
就在刚才,Anthropic 正式推出了 Claude Sonnet 4.5——全球最强的编码模型。这款新模型不仅在软件开发能力上实现了断层领先,更在构建复杂 AI 代理、计算机操控以及数学推理等多个维度展现出强大的实力!

Anthropic本次发布不仅包含Claude Sonnet 4.5,还同步推出了一系列重磅功能:Claude Code 新增了备受期待的检查点功能、原生 VS Code 扩展;Claude API 引入了全新的上下文编辑和内存工具;Claude 应用内置了代码执行和文件创建能力;面向 Max 用户开放了 Chrome 扩展。
Claude Sonnet 4.5模型简介
8月初,Anthropic推出了Claude Opus 4.1,就在大家以为Sonnet也有4.1版本的时候,今天Anthropic却直接发布了Claude Sonnet 4.5。这个版本号意味着官方认为它的提示可能是比较大的。
Claude Sonnet 4.5默认支持200K上下文,最高可以支持100万(这是Beta版本,接口也更贵),它是一个多模态模型,支持文本和图片作为输入,输出仅支持文本。最高可输出64K的长度(相当于48K个英文单词或者100页文档左右),训练知识截止到2025年1月份,在2025年7月份训练完成。
Claude Sonnet 4.5最大特点是最多可以连续30个小时工作不停
Claude Sonnet系列模型的编程能力有目共睹,即使是自家的Opus模型,有时候也未必强于Sonnet模型。而本次发布的Claude Sonnet 4.5模型甚至强过了刚发布不久的Claude Opus 4.1!
此前的大模型在处理长时间、多步骤的编码任务时,往往会“分心”或失去上下文连贯性。
而本次发布的Claude Sonnet 4.5能够在复杂的多步骤任务中 保持超过 30 小时的专注度,这种“长续航”能力对于大型软件项目的开发至关重要。无论是重构遗留代码库、调试跨模块的复杂 bug,还是从零开始搭建完整的应用系统,Sonnet 4.5 都能始终如一地理解需求、规划方案并精准执行。
这种提升的背后,是 Anthropic 在模型架构和训练方法上的深度优化。新模型不仅增强了对代码语义的理解,更重要的是提升了在长周期任务中维持目标一致性的能力——这正是构建真正实用的 AI 编程助手的关键所在。
Claude Sonnet 4.5的评测结果:编程领域依然领先
具体的性能数据更能说明问题。在 SWE-bench Verified 评测中——这是业界公认的衡量真实世界软件编码能力的权威基准——Claude Sonnet 4.5 取得了 77.2% 的得分,稳居全球第一。这个成绩是在 10 次试验中取得的平均值,使用的是相对简单的工具配置(仅包含 bash 和文件编辑功能),没有采用测试时计算增强。

SWE Bench Verified是基于真实的GitHub仓问题构建的大模型在代码仓基本的软件工程能力测试结果。排名靠前都是Claude、GPT、Grok等全球最强模型,开源模型目前最高得分是Kimi K2,69.2。由此可见到Claude Sonnet 4.5的强悍!
更令人惊讶的是,当启用高计算配置并采用并行测试时计算策略后,这一得分能够飙升至 82.0%。这意味着在 500 个真实世界的编程问题中,Claude Sonnet 4.5 能够成功解决超过 410 个——这已经接近许多人类专业程序员的水平。
在计算机操控能力方面,进步同样显著。OSWorld 是一个测试 AI 模型完成真实计算机任务的基准测试,四个月前 Claude Sonnet 4 刚刚以 42.2% 的成绩夺得榜首,而 Sonnet 4.5 已经将这一数字提升到 61.4%——短短四个月内实现了 45% 的性能飞跃。这意味着 Claude 现在能够更流畅地在浏览器中导航网站、填写表格、完成复杂的多步骤操作,就像一个真正的人类用户。
在其他关键指标上,Sonnet 4.5 同样表现出色。来自金融、法律、医学和 STEM 领域的专家评估显示,这款模型在领域专业知识和推理能力上相比旧版本(包括 Opus 4.1)有着“显著提升”。数学推理能力的增强尤其值得一提——在 AIME(美国数学邀请赛)等高难度测试中,模型展现出了更强的逻辑推演和问题分解能力。
下图展示了Claude Sonnet 4.5和全球最强模型的对比:

可以看到,Claude Sonnet 4.5并不是所有测试结果都很强,但是在编程方面则都是第一。不过,相比较其它模型的价格,它不便宜!
输入价格是 3美元/100 万tokens,比GPT-5、Gemini 2.5 Pro都贵,如果输入超过200K,这个价格是6美元,翻倍了。输出价格也是,超过200K需要22.5美元,相比较其它模型的10美元左右,显得很贵!
Claude Sonnet 4.5在AI Agent构建能力的全面提升:支持上下文编辑功能和内存工具
Claude Sonnet 4.5 最大的升级是 AI Agent构建能力的大幅增强。什么是 AI Agent?简单说,就是能够自主规划、决策并执行一系列操作来完成目标的 AI 系统。这不同于简单的问答模型——代理需要记住长期目标、管理复杂的工作流程、在遇到障碍时调整策略。
在实际应用中,这种能力改变了用户的工作方式。比如在金融分析场景中,你可以让 Claude“分析这家公司最近五年的财报,找出增长放缓的原因,并生成一份包含对比图表的报告”。模型会自主拆解这个任务:先读取财报数据,然后进行多维度对比分析,识别关键指标变化,推断可能的原因,最后生成结构化报告并配上可视化图表。整个过程可能涉及数十个步骤,但 Sonnet 4.5 能够始终记住最初的目标,协调各个子任务之间的关系。
在软件开发领域,这种能力同样强大。开发者可以描述一个产品需求,Claude 会自动规划技术架构、创建项目文件结构、编写核心代码、添加测试用例,甚至生成文档。如果在某个步骤遇到问题——比如某个依赖包版本冲突——模型能够识别问题、搜索解决方案并自行修复,而不需要反复向用户求助。
为了支撑这种复杂的代理能力,Anthropic 在 Claude API 中新增了 上下文编辑功能和内存工具。

上下文编辑像个自动清理工,能在对话太长时删掉不重要的旧信息,让交流更顺畅;记忆工具则像外置硬盘,把关键内容长期保存起来,跨会话也不会忘。这样一来,Claude 就能处理更复杂、更长时间的任务,效率更高、准确性也更好。
其它实用功能更新:更强的Claude Code和其它功能
除了Claude Sonnet 4.5模型,本次Anthropic还更新了多个功能。
Claude Code 用户将获得多项重要更新。检查点功能允许你保存当前的工作进度,并在需要时瞬间回滚到之前的任何状态——这对于实验性开发或调试场景极为有用。全新设计的终端界面提升了交互体验,原生 VS Code 扩展则让开发者无需离开熟悉的 IDE 就能使用 Claude 的全部能力。
对于 Claude 应用的付费用户,现在可以直接在对话中执行代码和创建文件了。想要快速验证一个算法?直接让 Claude 写代码并运行。需要一份包含数据分析的演示文稿?Claude 可以处理数据、生成图表并输出成 PowerPoint 或 Google Slides 格式。这种无缝集成大幅降低了使用门槛,让 AI 能力真正融入日常工作流程。
Max 订阅用户还能体验到 Claude for Chrome 扩展的强大功能。安装后,Claude 可以直接在浏览器中工作:自动填写表单、从网页提取信息填入电子表格、执行重复性的网页操作等。这些能力建立在 Sonnet 4.5 增强的计算机操控基础上,能够处理复杂的多步骤浏览器任务。
此外,官方还发布了 Claude Agent SDK。这套工具包含了 Anthropic 在六个多月时间里为构建 Claude Code 所积累的全部经验和基础设施。
Agent SDK 的强大之处在于它的通用性。虽然它最初是为编码场景设计的,但经过测试,这套基础设施在各种各样的任务中都展现出了卓越的性能——从数据分析到内容创作,从研究调查到业务流程自动化。开发者可以基于这套 SDK 快速搭建自己的专用 AI 代理,而不需要从零开始处理底层的复杂性。
特别体验:“Imagine with Claude”研究预览
为了展示 Sonnet 4.5 的极限能力,Anthropic 发布了一个限时研究预览项目:“Imagine with Claude”。这是一个有趣的实验,展示了 Claude 如何即时生成软件——没有预设的功能,没有预写的代码,你看到的一切都是 Claude 实时创造的。

在这个演示中,用户可以用自然语言描述想要的应用或工具,Claude 会立即开始构建。它会实时响应你的反馈,根据你的要求调整和完善。这种“所想即所得”的体验,生动展示了当强大的模型与合适的基础设施结合时能够达到的境界。
“Imagine with Claude”将在接下来的五天内向 Max 订阅用户开放。你可以访问 claude.ai/imagine 来体验这个充满可能性的实验性功能。
总结与展望
Claude Sonnet 4.5 的发布标志着 AI 能力的又一次代际跃升。无论你是通过 Claude 应用、API 还是 Claude Code 使用该服务,Sonnet 4.5 都是一个完美的“即插即用”升级——更强的性能,相同的价格。Anthropic 建议所有用户升级到这个最新版本。
从编码到推理,从代理构建到计算机操控,Claude Sonnet 4.5 在多个维度上都有很好的升级。
关于Claude Sonnet 4.5更多的信息,参考DataLearnerAI大模型信息卡地址,或者阅读原文了解更多:https://www.datalearner.com/ai-models/pretrained-models/claude-sonnet-4_5