🎙️ AI 语音 · 入门-实测

ElevenLabs 入门教程

📅 2026年6月3日·✍️ AIBoxPro 编辑整理·⏱️ 约 7 分钟阅读·🏷️ ElevenLabs

ElevenLabs

查看完整工具详情、定价、对比

详情 →

▶

How I Actually Make AI Voice Sound Real

📺 Isaac

YouTube 原片·需科学上网

📝以下为基于官方文档与公开视频信息重组整理的中文教程，非字幕翻译。含 AI 辅助生成与人工校对，原片版权归原作者所有。

你听过那种“说不清哪里不对，但一听就知道是 AI”的配音吗？作者 Isaac 在这支 18 分钟的视频里没讲大路货——他演示的是怎么用 ElevenLabs 把 AI 语音做到能骗过耳朵的程度，顺便给频道多赚了几十万播放。如果你正在找 AI 配音工具，或者想给视频做多语言配音扩受众，这支视频值得细看。

以下基于作者在视频里的实操流程整理，不是文档复读机。

一、别急着生成，先搞懂“人味儿”从哪来

作者认为大部分人上手就翻车，是因为没想清楚人声为什么像人。他拆了 4 个要素：

语调和语速有变化：全程一个调，就是机器。突然从平淡切到兴奋，人味就出来了。
停顿：在重点处留白，比连珠炮更自然（也更像人在思考）。
重音：关键词要加强——“强调”和“EMPHASIZING”的听感完全不同。
文案得是人写的：ChatGPT 全量代写，语声再真也会露馅。

这四件事贯穿他后续的整个生成流程。

二、选声音：他用的不是现成货

作者说他几乎把市面上的 AI 语音工具试了一遍，最后一直用的是 ElevenLabs（非赞助）。他现在视频里的声音并不是从声音库里直接选的，而是通过 Voice Design 做的一个全新自定义声音。

操作路径：Voices → Create a Voice → Voice Design。他用了一段文字描述来生成声音：“20 多岁美式口音男性，古怪但有魅力，讲话情绪起伏大，语速和音调持续变化”。描述越细，生成的声音越不像公共库里的“批量货”。作者提醒，这样生成的声音别人没法一键使用，对品牌辨识有好处。

官方文档里给出的方式是：声音库现有 10,000+ 语音可直接调用；也可以上传音频做声音克隆或通过文本描述生成。两者一致。

如果你想用自己的声音，可以从 Voices → Clone a Voice → Instant Voice Clone 上传样本来做克隆。作者特别强调：只能克隆自己的声音，克隆他人声音违反服务条款。

三、真正的功夫在“分句生成 + 多版本混剪”

这是视频里技术密度最高的一段。

1. 模型选择：V2 而不是 V3

官方文档里主推 eleven_v3，强调它支持 70+ 种语言，情绪表现最丰富。但作者实测后直言 V3 目前还不稳定——在他自己的声音上试出来“像邪恶双胞胎”，其他声音也会有轻微变形，暂时不推荐。他所有视频都用 V2 模型。

2. 参数设置

在 V2 里他调的参数（有明确数值的）：

相似度（similarity）：拖到 70% 左右
风格夸张度（style exaggeration）：提高
稳定性（stability）：降低
速度：适当提高

这些都是他在视频里实际调过的参数，不是从某篇文章抄的。

3. 分句生成，而不是全稿一次性渲染

这是整支视频的关键技巧。作者每次只放几句话进去生成，不是偷懒，是刻意为之：

每次点生成，即使同一段文字，AI 出来的语气都会有轻微不同
一个句子生成 3 个版本，3 个版本下载下来，后期挑着用
每次生成还附带 2 次免费重新生成的机会，也要下载下来

四、后期混剪：在时间线上“拼人味”

作者用的是 Premiere Pro，但强调任何带时间轴的剪辑软件都能做。

核心操作：

把所有版本拉到时间线，先不听整体节奏，只挑每句话最好的版本
同一个句子有多个版本时，切出每版最好的段落拼接成一句——视频里他展示了同一句话切三段拼成一句，听感明显更自然
手动调整停顿位置，在重点处留出空白节奏
变速时 Premiere 的“保持音高”会让声音失真，作者对此吐槽了 Adobe
用参数均衡器加一个高通滤波器，再拖他自己做的预设（视频简介里有下载链接），一键优化

他说这个过程“跟做饭一样”，耗时很长，但小改动累积起来差别很大。

五、配音：作者认为这才是 AI 语音的真正用法

视频后半段转了方向。作者认为 ElevenLabs 最大的价值不是念稿子，是给视频 做多语言配音，跨语言拉新观众。

操作流程：

在剪辑软件里把成片的纯人声和纯音乐+音效分别导出为两个 MP3
到 ElevenLabs 的 Dubbing 标签页，创建新配音，上传纯人声 MP3，选源语言和目标语言，点生成
下载配音文件，拖回剪辑软件——原声轨用来对齐时间，新语言音轨做正式配音，音乐+音效轨放底层
对齐后把原声轨静音，导出纯音频
在 YouTube Studio 的 Languages 里上传配音音频，同时用 ChatGPT 翻译视频标题和描述

作者用自己上一个视频做了实验：只加了西班牙语和印地语两种配音。官方自动配音的印地语版几乎没播放量，换上 ElevenLabs 配音后，数据就拉开了。他说这是几千个原本完全不会看到他的视频的人。

适合谁 / 不适合谁

适合：

想做个人 IP 但不想露声、或者英语不是母语的创作者
已经在做视频、想把内容铺到非英语市场的 YouTuber
愿意花时间慢慢打磨每条音轨的人

不适合：

想一键生成整条配音就发的人——作者的方法明显耗时
对 AI 配音有道德纠结的人（他在视频里有长段自问自答，认为“有东西值得说”比“声音像不像自己”重要得多）

国内访问情况

ElevenLabs 在国内可访问，但免费额度有限，高频使用需要付费。注册可能需要海外环境，访问速度视网络情况而定。

国产替代

同类语音合成与配音工具：魔音工坊、火山引擎语音合成、讯飞智作。

内容来源

视频：https://www.youtube.com/watch?v=KhQTKG3Xtbs（频道：Isaac）
官方文档：https://elevenlabs.io/docs/overview

内容来源

YouTubeIsaac · How I Actually Make AI Voice Sound Real（需科学上网）

文中引用的商标、产品名称及相关内容，版权归原权利人所有。本教程为 AIBoxPro 基于公开信息整理的原创解读，非视频字幕翻译或搬运。

如涉及版权问题，请联系 4514407@qq.com，48 小时内核实处理。

← 返回教程列表