让机器人行动更有依据：复旦等提出 GuidedVLA，提升 VLA 可控可解释能力

TL;DR · 一句话结论

GuidedVLA在VLA动作解码器中指定三类注意力头（Object/Skill/Depth），分别关注目标、阶段、空间几何，增强可解释性和鲁棒性。在仿真和真实机器人上成功率大幅提升，并开放全量资源。

雷雷峰网2026年6月8日 10:41约 2 分钟阅读↗ 查看原文

主要内容

VLA（视觉-语言-动作模型）是具身智能重要路线，但端到端训练的动作生成过程隐式，难以解释和调试。真实机器人任务常因目标定位不准、阶段错乱、空间几何错误而失败。GuidedVLA借鉴ControlNet残差适配思路，在已有VLA上增加可插拔引导分支，不破坏原模型能力。

对AI工具用户和开发者，GuidedVLA提供了可直接复用的模型和代码，能快速提升机器人操作任务的鲁棒性。其显式分工设计使失败诊断更简单，适合部署到杂乱、光照变化、长程任务等复杂场景。开发者可基于开源资源做二次开发或迁移。

🇨🇳

对中国用户与市场

国内具身智能研究者和开发者可直接使用GuidedVLA的代码、权重和数据集（基于π0）。自动标注流水线（基于Qwen3-VL和SAM2）大幅降低数据标注成本，有利于国内团队快速实验。该工作由复旦、上交大、港大等国内机构完成，技术自主可控。

⚠尚未确定的部分

→可采取的行动

GuidedVLA：以目标、阶段和空间约束，重塑 VLA 动作生成过程。

#复旦大学#上海交通大学#香港大学#OpenDriveLab#RSS 2026#π0#Qwen3-VL#SAM2#GuidedVLA#VLA

🤖 本文根据雷峰网的 RSS 内容整理，并由 AI 辅助提炼要点。完整上下文请以原文为准。