热门模型发布
NVIDIA开源世界模型平台Cosmos 3
原标题:NVIDIA/cosmos
主要内容
- 01支持Reasoner(理解推理)和Generator(生成)两种模式
- 02可生成视频、音频、动作序列及文本输出
- 03基于Mixture-of-Transformers统一架构
- 04开源协议为OpenMDW-1.1,提供商用许可选项
- 05配套发布Cosmos Framework训练框架和评估工具
背景
NVIDIA Cosmos是一个面向物理AI的开源世界模型平台。最新Cosmos 3模型族采用统一的MoT架构,将视觉语言模型、视频生成器、世界模拟器和世界动作模型整合为单一框架。支持文本、图像、视频、音频和动作的多模态输入输出,可应用于机器人控制、自动驾驶仿真、智能基础设施等领域。
为什么值得关注
Cosmos 3是首个开源的全模态世界模型,能同时理解物理世界并生成多模态内容。对机器人开发者意味着可以直接用同一模型做视觉推理、运动规划、场景生成和仿真训练,大幅降低物理AI开发门槛。其OpenAI兼容API和NIM容器简化了部署。
🇨🇳
对中国用户与市场
国内开发者可通过Hugging Face下载模型权重,但需注意OpenMDW-1.1许可条款。大规模推理需NVIDIA高端GPU(Hopper/Blackwell),可能受出口限制影响模型使用。框架已完成与Qwen3-VL兼容,便于国内生态集成。
继续关注
⚠尚未确定的部分
- ·模型在长视频、高分辨率输出中可能出现伪影或时序不一致
- ·物理仿真结果不一定精确,安全关键应用需额外验证
- ·64B模型推理需多GPU部署,硬件成本较高
- ·开源许可OpenMDW-1.1对商用有一定限制,需联系官方定制
→可采取的行动
- ·访问GitHub仓库cosmos-framework获取快速入门教程
- ·测试Nano版(16B)在本地GPU上的推理效果
- ·关注vLLM-Omni和Diffusers集成方式,选择适合的部署路径
- ·评估模型在机器人仿真或自动驾驶场景中的适用性
#NVIDIA#Cosmos 3#Cosmos3-Nano#Cosmos3-Super#Cosmos Framework#Hugging Face#vLLM-Omni#Diffusers#世界模型#物理AI
🤖 本文根据 GitHub Trending Daily RSS 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。