ElevenLabs 入门教程
你听过那种“说不清哪里不对,但一听就知道是 AI”的配音吗?作者 Isaac 在这支 18 分钟的视频里没讲大路货——他演示的是怎么用 ElevenLabs 把 AI 语音做到能骗过耳朵的程度,顺便给频道多赚了几十万播放。如果你正在找 AI 配音工具,或者想给视频做多语言配音扩受众,这支视频值得细看。
以下基于作者在视频里的实操流程整理,不是文档复读机。
一、别急着生成,先搞懂“人味儿”从哪来
作者认为大部分人上手就翻车,是因为没想清楚人声为什么像人。他拆了 4 个要素:
- 语调和语速有变化:全程一个调,就是机器。突然从平淡切到兴奋,人味就出来了。
- 停顿:在重点处留白,比连珠炮更自然(也更像人在思考)。
- 重音:关键词要加强——“强调”和“EMPHASIZING”的听感完全不同。
- 文案得是人写的:ChatGPT 全量代写,语声再真也会露馅。
这四件事贯穿他后续的整个生成流程。
二、选声音:他用的不是现成货
作者说他几乎把市面上的 AI 语音工具试了一遍,最后一直用的是 ElevenLabs(非赞助)。他现在视频里的声音并不是从声音库里直接选的,而是通过 Voice Design 做的一个全新自定义声音。
操作路径:Voices → Create a Voice → Voice Design。他用了一段文字描述来生成声音:“20 多岁美式口音男性,古怪但有魅力,讲话情绪起伏大,语速和音调持续变化”。描述越细,生成的声音越不像公共库里的“批量货”。作者提醒,这样生成的声音别人没法一键使用,对品牌辨识有好处。
官方文档里给出的方式是:声音库现有 10,000+ 语音可直接调用;也可以上传音频做声音克隆或通过文本描述生成。两者一致。
如果你想用自己的声音,可以从 Voices → Clone a Voice → Instant Voice Clone 上传样本来做克隆。作者特别强调:只能克隆自己的声音,克隆他人声音违反服务条款。
三、真正的功夫在“分句生成 + 多版本混剪”
这是视频里技术密度最高的一段。
1. 模型选择:V2 而不是 V3
官方文档里主推 eleven_v3,强调它支持 70+ 种语言,情绪表现最丰富。但作者实测后直言 V3 目前还不稳定——在他自己的声音上试出来“像邪恶双胞胎”,其他声音也会有轻微变形,暂时不推荐。他所有视频都用 V2 模型。
2. 参数设置
在 V2 里他调的参数(有明确数值的):
- 相似度(similarity):拖到 70% 左右
- 风格夸张度(style exaggeration):提高
- 稳定性(stability):降低
- 速度:适当提高
这些都是他在视频里实际调过的参数,不是从某篇文章抄的。
3. 分句生成,而不是全稿一次性渲染
这是整支视频的关键技巧。作者每次只放几句话进去生成,不是偷懒,是刻意为之:
- 每次点生成,即使同一段文字,AI 出来的语气都会有轻微不同
- 一个句子生成 3 个版本,3 个版本下载下来,后期挑着用
- 每次生成还附带 2 次免费重新生成的机会,也要下载下来
四、后期混剪:在时间线上“拼人味”
作者用的是 Premiere Pro,但强调任何带时间轴的剪辑软件都能做。
核心操作:
- 把所有版本拉到时间线,先不听整体节奏,只挑每句话最好的版本
- 同一个句子有多个版本时,切出每版最好的段落拼接成一句——视频里他展示了同一句话切三段拼成一句,听感明显更自然
- 手动调整停顿位置,在重点处留出空白节奏
- 变速时 Premiere 的“保持音高”会让声音失真,作者对此吐槽了 Adobe
- 用参数均衡器加一个高通滤波器,再拖他自己做的预设(视频简介里有下载链接),一键优化
他说这个过程“跟做饭一样”,耗时很长,但小改动累积起来差别很大。
五、配音:作者认为这才是 AI 语音的真正用法
视频后半段转了方向。作者认为 ElevenLabs 最大的价值不是念稿子,是给视频 做多语言配音,跨语言拉新观众。
操作流程:
- 在剪辑软件里把成片的纯人声和纯音乐+音效分别导出为两个 MP3
- 到 ElevenLabs 的 Dubbing 标签页,创建新配音,上传纯人声 MP3,选源语言和目标语言,点生成
- 下载配音文件,拖回剪辑软件——原声轨用来对齐时间,新语言音轨做正式配音,音乐+音效轨放底层
- 对齐后把原声轨静音,导出纯音频
- 在 YouTube Studio 的
Languages里上传配音音频,同时用 ChatGPT 翻译视频标题和描述
作者用自己上一个视频做了实验:只加了西班牙语和印地语两种配音。官方自动配音的印地语版几乎没播放量,换上 ElevenLabs 配音后,数据就拉开了。他说这是几千个原本完全不会看到他的视频的人。
适合谁 / 不适合谁
适合:
- 想做个人 IP 但不想露声、或者英语不是母语的创作者
- 已经在做视频、想把内容铺到非英语市场的 YouTuber
- 愿意花时间慢慢打磨每条音轨的人
不适合:
- 想一键生成整条配音就发的人——作者的方法明显耗时
- 对 AI 配音有道德纠结的人(他在视频里有长段自问自答,认为“有东西值得说”比“声音像不像自己”重要得多)
国内访问情况
ElevenLabs 在国内可访问,但免费额度有限,高频使用需要付费。注册可能需要海外环境,访问速度视网络情况而定。
国产替代
同类语音合成与配音工具:魔音工坊、火山引擎语音合成、讯飞智作。
内容来源
- YouTubeIsaac · How I Actually Make AI Voice Sound Real(需科学上网)
文中引用的商标、产品名称及相关内容,版权归原权利人所有。本教程为 AIBoxPro 基于公开信息整理的原创解读,非视频字幕翻译或搬运。
如涉及版权问题,请联系 4514407@qq.com,48 小时内核实处理。
