热议中模型发布
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策
主要内容
- 01通过Intent-CFG让语言预测的驾驶意图直接引导轨迹生成。
- 02流式记忆模块按帧处理连续视频流,保留历史上下文。
- 03快/慢推理路径在实时控制和语义推理间切换。
- 04语言侧intent预测使RFS从7.83提升至7.92。
背景
自动驾驶正从模块化流水线转向端到端系统。VA模型规划精度高但缺乏语义理解,VLA模型引入语言却常牺牲精度和实时性。MindVLA-U1通过架构接口创新,证明语言可以同时提升理解和控制,而非仅作为解释文本。
为什么值得关注
该研究证明VLA可以同时兼顾语义理解和连续控制,语言不再只是辅助输出,而是直接参与轨迹生成。流式记忆和快/慢推理设计更贴近真实部署需求,为自动驾驶VLA架构提供了可参考的统一方案。
🇨🇳
对中国用户与市场
国内自动驾驶团队(如理想汽车)深度参与,研究基于WOD-E2E数据集,包含中国道路长尾场景。统一架构和流式设计有助于降低部署成本,但当前仅开放环评测,闭环安全性仍需验证。
继续关注
⚠尚未确定的部分
- ·当前仅开放环评测,闭环驾驶表现尚未验证。
- ·仅使用3类简单intent,更丰富的20类intent未充分利用。
- ·9B大模型在默认设置下无明显优势,训练数据规模可能是瓶颈。
→可采取的行动
- ·关注论文开源代码和模型权重,尝试在自有数据集上复现。
- ·评估快/慢推理路径在自身部署场景中的实时性收益。
- ·探索更丰富的intent分类和CoT rationale对长尾场景的提升。
摘记
MindVLA-U1:统一视觉语言动作架构,实现理解后规划。
#香港中文大学#理想汽车#清华大学#李鸿升#朱本金#MindVLA-U1#WOD-E2E#MMLab#自动驾驶#VLA
🤖 本文根据 雷峰网 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。