全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

就在刚才，Anthropic 正式推出了 Claude Sonnet 4.5——全球最强的编码模型。这款新模型不仅在软件开发能力上实现了断层领先，更在构建复杂 AI 代理、计算机操控以及数学推理等多个维度展现出强大的实力！

Anthropic本次发布不仅包含Claude Sonnet 4.5，还同步推出了一系列重磅功能：Claude Code 新增了备受期待的检查点功能、原生 VS Code 扩展；Claude API 引入了全新的上下文编辑和内存工具；Claude 应用内置了代码执行和文件创建能力；面向 Max 用户开放了 Chrome 扩展。

Claude Sonnet 4.5模型简介

8月初，Anthropic推出了Claude Opus 4.1，就在大家以为Sonnet也有4.1版本的时候，今天Anthropic却直接发布了Claude Sonnet 4.5。这个版本号意味着官方认为它的提示可能是比较大的。

Claude Sonnet 4.5默认支持200K上下文，最高可以支持100万（这是Beta版本，接口也更贵），它是一个多模态模型，支持文本和图片作为输入，输出仅支持文本。最高可输出64K的长度（相当于48K个英文单词或者100页文档左右），训练知识截止到2025年1月份，在2025年7月份训练完成。

Claude Sonnet 4.5最大特点是最多可以连续30个小时工作不停

Claude Sonnet系列模型的编程能力有目共睹，即使是自家的Opus模型，有时候也未必强于Sonnet模型。而本次发布的Claude Sonnet 4.5模型甚至强过了刚发布不久的Claude Opus 4.1！

此前的大模型在处理长时间、多步骤的编码任务时，往往会“分心”或失去上下文连贯性。

而本次发布的Claude Sonnet 4.5能够在复杂的多步骤任务中 保持超过 30 小时的专注度，这种“长续航”能力对于大型软件项目的开发至关重要。无论是重构遗留代码库、调试跨模块的复杂 bug，还是从零开始搭建完整的应用系统，Sonnet 4.5 都能始终如一地理解需求、规划方案并精准执行。

这种提升的背后，是 Anthropic 在模型架构和训练方法上的深度优化。新模型不仅增强了对代码语义的理解，更重要的是提升了在长周期任务中维持目标一致性的能力——这正是构建真正实用的 AI 编程助手的关键所在。

Claude Sonnet 4.5的评测结果：编程领域依然领先

具体的性能数据更能说明问题。在 SWE-bench Verified 评测中——这是业界公认的衡量真实世界软件编码能力的权威基准——Claude Sonnet 4.5 取得了 77.2% 的得分，稳居全球第一。这个成绩是在 10 次试验中取得的平均值，使用的是相对简单的工具配置（仅包含 bash 和文件编辑功能），没有采用测试时计算增强。

SWE-Bench-Verified排行榜，数据来自DataLearnerAI官方网站：https://www.datalearner.com/benchmarks/swe-bench%20verified

SWE Bench Verified是基于真实的GitHub仓问题构建的大模型在代码仓基本的软件工程能力测试结果。排名靠前都是Claude、GPT、Grok等全球最强模型，开源模型目前最高得分是Kimi K2，69.2。由此可见到Claude Sonnet 4.5的强悍！

更令人惊讶的是，当启用高计算配置并采用并行测试时计算策略后，这一得分能够飙升至 82.0%。这意味着在 500 个真实世界的编程问题中，Claude Sonnet 4.5 能够成功解决超过 410 个——这已经接近许多人类专业程序员的水平。

在计算机操控能力方面，进步同样显著。OSWorld 是一个测试 AI 模型完成真实计算机任务的基准测试，四个月前 Claude Sonnet 4 刚刚以 42.2% 的成绩夺得榜首，而 Sonnet 4.5 已经将这一数字提升到 61.4%——短短四个月内实现了 45% 的性能飞跃。这意味着 Claude 现在能够更流畅地在浏览器中导航网站、填写表格、完成复杂的多步骤操作，就像一个真正的人类用户。

在其他关键指标上，Sonnet 4.5 同样表现出色。来自金融、法律、医学和 STEM 领域的专家评估显示，这款模型在领域专业知识和推理能力上相比旧版本（包括 Opus 4.1）有着“显著提升”。数学推理能力的增强尤其值得一提——在 AIME（美国数学邀请赛）等高难度测试中，模型展现出了更强的逻辑推演和问题分解能力。

下图展示了Claude Sonnet 4.5和全球最强模型的对比：

数据来自DataLearnerAI官方大模型对比工具：https://www.datalearner.com/compare/result?modelInputString=685,657,578,626&benchmarkInputString=35,32,46,42&mode=thinking-only

可以看到，Claude Sonnet 4.5并不是所有测试结果都很强，但是在编程方面则都是第一。不过，相比较其它模型的价格，它不便宜！

输入价格是 3美元/100 万tokens，比GPT-5、Gemini 2.5 Pro都贵，如果输入超过200K，这个价格是6美元，翻倍了。输出价格也是，超过200K需要22.5美元，相比较其它模型的10美元左右，显得很贵！

Claude Sonnet 4.5在AI Agent构建能力的全面提升：支持上下文编辑功能和内存工具

Claude Sonnet 4.5 最大的升级是 AI Agent构建能力的大幅增强。什么是 AI Agent？简单说，就是能够自主规划、决策并执行一系列操作来完成目标的 AI 系统。这不同于简单的问答模型——代理需要记住长期目标、管理复杂的工作流程、在遇到障碍时调整策略。

在实际应用中，这种能力改变了用户的工作方式。比如在金融分析场景中，你可以让 Claude“分析这家公司最近五年的财报，找出增长放缓的原因，并生成一份包含对比图表的报告”。模型会自主拆解这个任务：先读取财报数据，然后进行多维度对比分析，识别关键指标变化，推断可能的原因，最后生成结构化报告并配上可视化图表。整个过程可能涉及数十个步骤，但 Sonnet 4.5 能够始终记住最初的目标，协调各个子任务之间的关系。

在软件开发领域，这种能力同样强大。开发者可以描述一个产品需求，Claude 会自动规划技术架构、创建项目文件结构、编写核心代码、添加测试用例，甚至生成文档。如果在某个步骤遇到问题——比如某个依赖包版本冲突——模型能够识别问题、搜索解决方案并自行修复，而不需要反复向用户求助。

为了支撑这种复杂的代理能力，Anthropic 在 Claude API 中新增了 上下文编辑功能和内存工具。

上下文编辑像个自动清理工，能在对话太长时删掉不重要的旧信息，让交流更顺畅；记忆工具则像外置硬盘，把关键内容长期保存起来，跨会话也不会忘。这样一来，Claude 就能处理更复杂、更长时间的任务，效率更高、准确性也更好。

其它实用功能更新：更强的Claude Code和其它功能

除了Claude Sonnet 4.5模型，本次Anthropic还更新了多个功能。

Claude Code 用户将获得多项重要更新。检查点功能允许你保存当前的工作进度，并在需要时瞬间回滚到之前的任何状态——这对于实验性开发或调试场景极为有用。全新设计的终端界面提升了交互体验，原生 VS Code 扩展则让开发者无需离开熟悉的 IDE 就能使用 Claude 的全部能力。

对于 Claude 应用的付费用户，现在可以直接在对话中执行代码和创建文件了。想要快速验证一个算法？直接让 Claude 写代码并运行。需要一份包含数据分析的演示文稿？Claude 可以处理数据、生成图表并输出成 PowerPoint 或 Google Slides 格式。这种无缝集成大幅降低了使用门槛，让 AI 能力真正融入日常工作流程。

Max 订阅用户还能体验到 Claude for Chrome 扩展的强大功能。安装后，Claude 可以直接在浏览器中工作：自动填写表单、从网页提取信息填入电子表格、执行重复性的网页操作等。这些能力建立在 Sonnet 4.5 增强的计算机操控基础上，能够处理复杂的多步骤浏览器任务。

此外，官方还发布了 Claude Agent SDK。这套工具包含了 Anthropic 在六个多月时间里为构建 Claude Code 所积累的全部经验和基础设施。

Agent SDK 的强大之处在于它的通用性。虽然它最初是为编码场景设计的，但经过测试，这套基础设施在各种各样的任务中都展现出了卓越的性能——从数据分析到内容创作，从研究调查到业务流程自动化。开发者可以基于这套 SDK 快速搭建自己的专用 AI 代理，而不需要从零开始处理底层的复杂性。

特别体验：“Imagine with Claude”研究预览

为了展示 Sonnet 4.5 的极限能力，Anthropic 发布了一个限时研究预览项目：“Imagine with Claude”。这是一个有趣的实验，展示了 Claude 如何即时生成软件——没有预设的功能，没有预写的代码，你看到的一切都是 Claude 实时创造的。

在这个演示中，用户可以用自然语言描述想要的应用或工具，Claude 会立即开始构建。它会实时响应你的反馈，根据你的要求调整和完善。这种“所想即所得”的体验，生动展示了当强大的模型与合适的基础设施结合时能够达到的境界。

“Imagine with Claude”将在接下来的五天内向 Max 订阅用户开放。你可以访问 claude.ai/imagine 来体验这个充满可能性的实验性功能。

总结与展望

Claude Sonnet 4.5 的发布标志着 AI 能力的又一次代际跃升。无论你是通过 Claude 应用、API 还是 Claude Code 使用该服务，Sonnet 4.5 都是一个完美的“即插即用”升级——更强的性能，相同的价格。Anthropic 建议所有用户升级到这个最新版本。

从编码到推理，从代理构建到计算机操控，Claude Sonnet 4.5 在多个维度上都有很好的升级。

关于Claude Sonnet 4.5更多的信息，参考DataLearnerAI大模型信息卡地址，或者阅读原文了解更多：https://www.datalearner.com/ai-models/pretrained-models/claude-sonnet-4_5