Anthropic 于 2025 年 9 月 29 日推出 Claude Sonnet 4.5,宣称其编程和计算机使用能力世界领先,在 OSWorld 基准上达到 61.4%(四个月前仅 42.2%),并支持超 30 小时连续复杂任务。API 定价维持 $3/$15 per million tokens,同时发布 Claude Agent SDK、VS Code 扩展等重大更新。
Anthropic 于 2025 年 9 月 29 日正式发布 Claude Sonnet 4.5,宣称这是目前全球最强的编程模型,在 SWE-bench Verified 评估中达到最先进水平,并能够持续专注处理超过 30 小时的复杂多步骤任务。该模型在计算机使用能力上也有显著提升,OSWorld 基准得分从四个月前 Sonnet 4 的 42.2% 跃升至 61.4%。
此次发布同步升级了多项产品:Claude Code 新增用户呼声最高的 checkpoints 功能,可保存进度并一键回滚;推出原生 VS Code 扩展;更新终端界面;并发布 Claude Agent SDK,将自身构建前沿产品的底层基础设施开放给开发者。API 定价维持 Sonnet 4 不变,仍为 $3/$15 per million tokens。Claude 应用中现已支持代码执行和文件创建(电子表格、幻灯片、文档),Chrome 扩展也面向 Max 用户开放。
Claude Sonnet 4.5 在金融、法律、医学和 STEM 领域展现出大幅提升的领域知识和推理能力。早期客户评价积极:Cursor 团队称其编码性能出色;GitHub Copilot 也表示在多步推理和代码理解上有显著进步。这是 Anthropic 迄今为止对齐程度最高的前沿模型,在多个对齐维度上相比前代大幅改进。
原文链接: https://www.anthropic.com/news/claude-sonnet-4-5