去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限

雷雷峰网2026年5月31日 16:14约 2 分钟阅读↗ 查看原文

主要内容

多模态理解与生成长期分属VLM和扩散模型两条技术路线，多数模型依赖VAE压缩图像。GPT-4o等统一模型实际仍依赖DALL-E 3等独立模块。SenseNova U1的NEO-unify架构直接在像素-文本端到端学习，MoT主干让理解与生成共享上下文，消除跨模块信息损耗。

这是首个开源的去VAE原生统一多模态模型，8B参数即达到甚至超越部分闭源模型性能。开发者可在一个模型内完成图像理解、生成、编辑、信息图制作等任务，无需多模型串联，大幅降低部署成本和推理延迟，且Apache 2.0协议允许商用。

🇨🇳

对中国用户与市场

中文文字渲染得分0.977，信息图生成能力突出，可直接用于中文办公场景（如PPT、报告）。商汤提供办公小浣熊在线体验，无需GPU。模型权重来自国内团队，合规性风险较低。

⚠尚未确定的部分

→可采取的行动

「终于有人在原生统一方向上认真做了工程落地」

#商汤#SenseNova U1#NEO-unify#GitHub#HuggingFace#ComfyUI#Apache 2.0#办公小浣熊#多模态统一#开源模型

🤖 本文根据雷峰网的 RSS 内容整理，并由 AI 辅助提炼要点。完整上下文请以原文为准。