热门AI工具更新
看屏幕、用键鼠,我的 OpenClaw「睁眼」了
TL;DR · 一句话结论
OpenClaw推出Peekaboo,通过多模态识别实现屏幕元素自动点击、输入等操作,支持跨软件任务流,无需API或SDK适配,已上线macOS。
主要内容
- 01Peekaboo提供像素级截图与UI元素识别能力。
- 02支持鼠标点击、文字输入、滚动、快捷键等完整键鼠操作。
- 03不依赖软件API或SDK,兼容所有桌面软件。
- 04可作为MCP服务或ClawHub Skill安装,部署简单。
- 05屏幕截图本地处理,不上传云端。
- 06存在坐标偏移、上下文遗忘、执行延迟等问题。
背景
此前OpenClaw Agent仅支持文本交互,无法操作图形界面。Peekaboo利用多模态模型识别屏幕元素,绕过软件API限制,实现类似人类操作的桌面自动化,但视觉方案相比代码命令执行速度慢、token成本高。
为什么值得关注
对于AI工具用户,Peekaboo让Agent能直接操控任何桌面软件,包括无API的老旧或内部工具,极大扩展自动化场景。开发者可低门槛集成,实现跨应用工作流,但需注意其速度、精度和潜在生态冲突。
🇨🇳
对中国用户与市场
中文用户可直接在macOS上安装使用,但依赖多模态模型的Token消耗可能增加使用成本。类似豆包手机助手曾因跨应用操作被主流App风控,Peekaboo虽采用屏幕操作方式,仍需警惕国内软件生态的兼容性风险。
继续关注
⚠尚未确定的部分
- ·多模态识别在复杂界面下坐标偏移可能导致操作失准。
- ·超长任务上下文遗忘,可能导致重复操作或卡死。
- ·执行速度较代码命令方案慢,影响用户体验。
- ·若被软件厂商反自动化机制检测,可能面临功能受限。
→可采取的行动
- ·macOS用户可尝试通过ClawHub安装Peekaboo Skill零配置使用。
- ·开发者可将其作为MCP服务集成到OpenClaw、Cursor等工具中。
- ·在关键任务前先进行小范围测试,确认识别稳定性。
- ·关注后续版本对上下文记忆和速度的优化。
摘记
让 Agent "长出眼睛",从此看得见屏幕、点得到按钮,甚至自主操作电脑。
视觉方案到底是打通 AI 现实操作链路的必经之路,还是生态封禁被真正突破之前的权
#OpenClaw#Peekaboo#macOS#ClawHub#豆包手机助手#桌面自动化#GUI操作#AI Agent#macOS工具#多模态
🤖 本文根据 雷峰网 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。