Hacker News2026年6月6日

Anthropic 发布升级版 Claude 3.5 Sonnet 与新 Haiku，首推计算机操控公测

Anthropic 于 10 月 22 日推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku，前者在编码基准 SWE-bench 上达 49%，超越所有公开模型（含 o1-preview）；同时开放「Computer Use」公测，让模型像人类一样操作屏幕、鼠标和键盘。

事件详情

Anthropic 在 2024 年 10 月 22 日发布了两款新模型：升级版 Claude 3.5 Sonnet 和全新 Claude 3.5 Haiku。同时，一项名为「Computer Use」的实验性功能首次以公测形式开放，允许开发者通过 API 指令让 Claude 像人类一样操作电脑——观看屏幕、移动光标、点击按钮、输入文字。

Claude 3.5 Sonnet 在各项基准上全面超越前代，尤其编码能力大幅跃升。SWE-bench Verified 得分从 33.4% 提升至 49.0%，不仅高于所有公开模型，也超过了专门为编码代理设计的系统以及 OpenAI 的 o1-preview 推理模型。在代理工具用任务 TAU-bench 上，零售领域从 62.6% 升至 69.2%，航空领域从 36.0% 升至 46.0%。定价与速度与前代保持一致。GitLab、Cognition、The Browser Company 等客户反馈该模型在 DevSecOps、自主评估、网页工作流自动化等场景下表现出显著提升。Claude 3.5 Haiku 在多数评估中性能匹敌此前最大的 Claude 3 Opus，速度与上一代 Haiku 相近，定价为 $0.80/百万输入 token、$4/百万输出 token（2024 年 12 月 3 日更新）。

Computer Use 仍处于早期实验阶段（有时笨拙且易出错），但 Asana、Canva、Cognition、DoorDash、Replit、The Browser Company 已开始探索其潜力，例如 Replit 用它评估正在构建的应用。开发者即日起可通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 接入。Claude 3.5 Haiku 预计月底发布。美国与英国 AI 安全研究所已对升级版 Sonnet 进行联合部署前测试。

原文链接: https://www.anthropic.com/news/3-5-models-and-computer-use

参考来源

查看原始公告 →

https://www.anthropic.com/news/3-5-models-and-computer-use

事件详情

原文链接: https://www.anthropic.com/news/3-5-models-and-computer-use