热门模型发布
去掉 VAE 之后,商汤用 8B 参数重新定义了开源生图的上限
主要内容
- 01采用NEO-unify架构实现理解与生成原生统一
- 02OneIG中文文字渲染得分0.977
- 03MMMU多模态理解达80.55
背景
多模态理解与生成长期分属VLM和扩散模型两条技术路线,多数模型依赖VAE压缩图像。GPT-4o等统一模型实际仍依赖DALL-E 3等独立模块。SenseNova U1的NEO-unify架构直接在像素-文本端到端学习,MoT主干让理解与生成共享上下文,消除跨模块信息损耗。
为什么值得关注
这是首个开源的去VAE原生统一多模态模型,8B参数即达到甚至超越部分闭源模型性能。开发者可在一个模型内完成图像理解、生成、编辑、信息图制作等任务,无需多模型串联,大幅降低部署成本和推理延迟,且Apache 2.0协议允许商用。
🇨🇳
对中国用户与市场
中文文字渲染得分0.977,信息图生成能力突出,可直接用于中文办公场景(如PPT、报告)。商汤提供办公小浣熊在线体验,无需GPU。模型权重来自国内团队,合规性风险较低。
继续关注
⚠尚未确定的部分
- ·模型在特定边缘场景下的生成质量尚未明确
- ·8B参数推理显存需求较高(推荐16GB)
- ·Apache 2.0协议虽开放,但实际商用需关注商汤后续条款
→可采取的行动
- ·下载SenseNova U1权重并试用ComfyUI节点
- ·关注LoRA微调版进行风格定制
- ·评估信息图生成在自家办公流程中的效果
- ·跟踪社区量化版(GGUF)在消费级GPU上的表现
摘记
「终于有人在原生统一方向上认真做了工程落地」
#商汤#SenseNova U1#NEO-unify#GitHub#HuggingFace#ComfyUI#Apache 2.0#办公小浣熊#多模态统一#开源模型
🤖 本文根据 雷峰网 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。