微软开源语音AI模型VibeVoice

原标题：microsoft/VibeVoice

TL;DR · 一句话结论

微软开源VibeVoice，包含ASR（60分钟长音频单次处理）、TTS（90分钟多说话人）和实时流式TTS（0.5B参数）三个模型，均已发布权重和论文。

GGitHub Trending Daily RSS约 2 分钟阅读↗ 查看原文

主要内容

01所有模型权重均已开源在HuggingFace。
02VibeVoice-TTS曾在ICLR 2026被接收为Oral。
03VibeVoice-ASR已集成到HuggingFace Transformers。

背景

VibeVoice是微软研究院开源的语音AI模型家族，采用超低帧率连续语音分词器（7.5Hz）和next-token diffusion框架，结合LLM理解上下文。包括ASR（VibeVoice-ASR）、长文本TTS（VibeVoice-TTS）和实时流式TTS（VibeVoice-Realtime）三个子模型。此前VibeVoice-TTS曾因滥用被下架代码，现已重新开源。

为什么值得关注

对AI工具用户，VibeVoice提供了可自部署的高质量语音合成与识别能力，尤其长音频场景（会议、播客、有声书）可大幅提升效率。实时TTS模型轻量，适合边缘设备集成。开源权重降低了使用门槛，开发者可自由微调。

🇨🇳

对中国用户与市场

国内用户可直接从HuggingFace下载模型权重，但需注意合规问题。模型支持中文，中文长语音合成效果优良。国内云服务商可快速接入，但需遵守当地AI生成内容标识法规。之前TTS的滥用问题也警示需部署防护措施。

继续关注

⚠尚未确定的部分

·VibeVoice-TTS曾因滥用被下架代码，现在虽恢复但仍有深度伪造风险。
·模型产出可能带有基座模型（Qwen2.5）的偏见或错误。
·官方建议仅用于研究开发，不推荐直接商用。
·当前ASR模型不支持新版Transformers之外的自定义安装？文档未明确说明但需验证。

→可采取的行动

·前往HuggingFace下载VibeVoice-ASR和Realtime模型权重进行测试。
·尝试Colab示例运行实时TTS，评估300ms延迟是否满足你的场景。
·研究ASR微调代码，针对中文会议或域名词表进行定制。
·注意部署时添加内容审核与AI标识功能，防止滥用。

摘记

Open-Source Frontier Voice AI

We do not recommend using VibeVoice in c

#Microsoft#VibeVoice#HuggingFace#Qwen2.5#ICLR 2026#Transformers#Colab#微软#语音AI#开源模型

🤖 本文根据 GitHub Trending Daily RSS 的 RSS 内容整理，并由 AI 辅助提炼要点。完整上下文请以原文为准。