看屏幕、用键鼠，我的 OpenClaw「睁眼」了

TL;DR · 一句话结论

OpenClaw推出Peekaboo，通过多模态识别实现屏幕元素自动点击、输入等操作，支持跨软件任务流，无需API或SDK适配，已上线macOS。

雷雷峰网2026年5月31日 16:08约 2 分钟阅读↗ 查看原文

主要内容

此前OpenClaw Agent仅支持文本交互，无法操作图形界面。Peekaboo利用多模态模型识别屏幕元素，绕过软件API限制，实现类似人类操作的桌面自动化，但视觉方案相比代码命令执行速度慢、token成本高。

对于AI工具用户，Peekaboo让Agent能直接操控任何桌面软件，包括无API的老旧或内部工具，极大扩展自动化场景。开发者可低门槛集成，实现跨应用工作流，但需注意其速度、精度和潜在生态冲突。

🇨🇳

对中国用户与市场

中文用户可直接在macOS上安装使用，但依赖多模态模型的Token消耗可能增加使用成本。类似豆包手机助手曾因跨应用操作被主流App风控，Peekaboo虽采用屏幕操作方式，仍需警惕国内软件生态的兼容性风险。

⚠尚未确定的部分

→可采取的行动

让 Agent "长出眼睛"，从此看得见屏幕、点得到按钮，甚至自主操作电脑。

视觉方案到底是打通 AI 现实操作链路的必经之路，还是生态封禁被真正突破之前的权

#OpenClaw#Peekaboo#macOS#ClawHub#豆包手机助手#桌面自动化#GUI操作#AI Agent#macOS工具#多模态

🤖 本文根据雷峰网的 RSS 内容整理，并由 AI 辅助提炼要点。完整上下文请以原文为准。