Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

TL;DR · 一句话结论

UniPat AI发布SaaS-Bench评测，测试Claude等模型在真实SaaS办公任务中的表现，完全通过率最高仅3.8%，表明AI全自动办公能力远未成熟。

量量子位2026年5月25日 11:29约 2 分钟阅读↗ 查看原文

主要内容

SaaS-Bench是一个针对AI模型在真实SaaS办公环境中执行多步骤任务的评测基准，旨在检验Computer-Use能力。此前业界对AI全自动办公寄予厚望，但该评测揭示了当前模型的巨大差距。

直接戳破AI全自动办公的泡沫，提醒工具用户和开发者不要过度依赖当前模型完成复杂办公流程，需调整预期和产品设计方向。

🇨🇳

对中国用户与市场

国内AI办公工具（如钉钉AI、飞书智能伙伴）同样面临类似瓶颈，用户应警惕过度宣传，开发者需关注多步骤任务可靠性。

⚠尚未确定的部分

→可采取的行动

#Claude#UniPat AI#SaaS-Bench#Computer-Use#AI评测#全自动办公#大模型能力#SaaS

🤖 本文根据量子位的 RSS 内容整理，并由 AI 辅助提炼要点。完整上下文请以原文为准。