热门模型发布
OpenBMB发布VoxCPM2:免分词多语言语音合成
原标题:OpenBMB/VoxCPM
主要内容
- 012B参数,训练于200万+小时多语言数据
- 02免分词扩散自回归架构,直接生成连续语音
- 03支持自然语言描述的声音设计
- 04支持可控声音克隆(音色+情感/语速控制)
背景
VoxCPM2是OpenBMB在VoxCPM系列上的重大升级,基于MiniCPM-4骨干网络,采用AudioVAE V2编解码。此前VoxCPM-0.5B和1.5版已获得社区广泛关注,新版本在语言覆盖、音频质量和功能上大幅提升。
为什么值得关注
对于AI工具用户,VoxCPM2提供了一个全开源、可商用的多语言TTS方案,支持零样本声音克隆和基于文本描述的声音设计,部署门槛低(单卡RTX 4090即可实时),且与vLLM-Omni集成可用OpenAI兼容API,适合内容创作、本地化、虚拟助手等场景。
🇨🇳
对中国用户与市场
国内用户可通过ModelScope下载模型权重,支持中文及多种方言。Apache-2.0许可允许商用,但需注意声音克隆可能涉及隐私与合规问题,应标注AI生成内容。
继续关注
⚠尚未确定的部分
- ·声音克隆可能被用于冒充、诈骗等恶意用途
- ·声音设计与克隆生成结果随随机种子波动,需多次尝试
- ·官方仅支持30种语言,其他语言需自行微调
- ·模型较大(2B),对推理硬件有一定要求(建议≥8GB VRAM)
→可采取的行动
- ·访问Hugging Face或ModelScope下载VoxCPM2权重
- ·用官方Python API或CLI快速测试语音生成
- ·如需生产部署,参考vLLM-Omni或Nano-vLLM搭建服务
- ·针对特定说话人/语言,利用LoRA微调(5-10分钟音频即可)
#OpenBMB#VoxCPM2#MiniCPM-4#AudioVAE V2#Nano-vLLM#vLLM-Omni#语音合成#多语言TTS#开源模型#声音克隆
🤖 本文根据 GitHub Trending Daily RSS 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。