热议中模型发布
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
TL;DR · 一句话结论
GuidedVLA在VLA动作解码器中指定三类注意力头(Object/Skill/Depth),分别关注目标、阶段、空间几何,增强可解释性和鲁棒性。在仿真和真实机器人上成功率大幅提升,并开放全量资源。
主要内容
- 01GuidedVLA被RSS 2026接收,已开源论文、代码、模型权重和数据集。
- 02在LIBERO-Plus上将π0成功率从68.2%提升至75.4%。
- 03在RoboTwin 2.0上平均成功率从77.38%提升至90.63%。
- 04真实机器人场景下,Scene设置成功率相对提升52.7%。
- 05Object Head注意力比例从0.25增至1.0,成功率从61.3%升至77.4%。
- 06自动标注流水线92% episodes无需人工修正,效率提升约10倍。
背景
VLA(视觉-语言-动作模型)是具身智能重要路线,但端到端训练的动作生成过程隐式,难以解释和调试。真实机器人任务常因目标定位不准、阶段错乱、空间几何错误而失败。GuidedVLA借鉴ControlNet残差适配思路,在已有VLA上增加可插拔引导分支,不破坏原模型能力。
为什么值得关注
对AI工具用户和开发者,GuidedVLA提供了可直接复用的模型和代码,能快速提升机器人操作任务的鲁棒性。其显式分工设计使失败诊断更简单,适合部署到杂乱、光照变化、长程任务等复杂场景。开发者可基于开源资源做二次开发或迁移。
🇨🇳
对中国用户与市场
国内具身智能研究者和开发者可直接使用GuidedVLA的代码、权重和数据集(基于π0)。自动标注流水线(基于Qwen3-VL和SAM2)大幅降低数据标注成本,有利于国内团队快速实验。该工作由复旦、上交大、港大等国内机构完成,技术自主可控。
继续关注
⚠尚未确定的部分
- ·自动标注流水线依赖Qwen3-VL和SAM2,其精度可能影响标注质量。
- ·实验中使用的π0基线可能不是最新最强的VLA模型,泛化到其他框架需验证。
- ·真实机器人测试仅涉及两个双臂平台,更多场景下的表现未知。
→可采取的行动
- ·下载GuidedVLA代码和模型权重,在自有数据集上评估三类Head的效果。
- ·利用自动标注流水线为自采集数据快速生成目标掩码和技能标签。
- ·在长程、杂乱桌面或光照变化任务中对比π0与GuidedVLA的差异。
摘记
GuidedVLA:以目标、阶段和空间约束,重塑 VLA 动作生成过程。
#复旦大学#上海交通大学#香港大学#OpenDriveLab#RSS 2026#π0#Qwen3-VL#SAM2#GuidedVLA#VLA
🤖 本文根据 雷峰网 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。