Anthropic 于 10 月 22 日推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku,前者在编码基准 SWE-bench 上达 49%,超越所有公开模型(含 o1-preview);同时开放「Computer Use」公测,让模型像人类一样操作屏幕、鼠标和键盘。
Anthropic 在 2024 年 10 月 22 日发布了两款新模型:升级版 Claude 3.5 Sonnet 和全新 Claude 3.5 Haiku。同时,一项名为「Computer Use」的实验性功能首次以公测形式开放,允许开发者通过 API 指令让 Claude 像人类一样操作电脑——观看屏幕、移动光标、点击按钮、输入文字。
Claude 3.5 Sonnet 在各项基准上全面超越前代,尤其编码能力大幅跃升。SWE-bench Verified 得分从 33.4% 提升至 49.0%,不仅高于所有公开模型,也超过了专门为编码代理设计的系统以及 OpenAI 的 o1-preview 推理模型。在代理工具用任务 TAU-bench 上,零售领域从 62.6% 升至 69.2%,航空领域从 36.0% 升至 46.0%。定价与速度与前代保持一致。GitLab、Cognition、The Browser Company 等客户反馈该模型在 DevSecOps、自主评估、网页工作流自动化等场景下表现出显著提升。Claude 3.5 Haiku 在多数评估中性能匹敌此前最大的 Claude 3 Opus,速度与上一代 Haiku 相近,定价为 $0.80/百万输入 token、$4/百万输出 token(2024 年 12 月 3 日更新)。
Computer Use 仍处于早期实验阶段(有时笨拙且易出错),但 Asana、Canva、Cognition、DoorDash、Replit、The Browser Company 已开始探索其潜力,例如 Replit 用它评估正在构建的应用。开发者即日起可通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 接入。Claude 3.5 Haiku 预计月底发布。美国与英国 AI 安全研究所已对升级版 Sonnet 进行联合部署前测试。
原文链接: https://www.anthropic.com/news/3-5-models-and-computer-use