论文状态：已完成

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

发表：2023/01/05

文本到语音合成 (4)神经编解码语言模型 (1)条件语言建模 (1)无监督语音合成 (1)高质量个性化语音合成 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的文本到语音合成方法，命名为 VALL-E，采用神经编解码语言模型。通过将 TTS 视为条件语言建模任务，扩展至 60K 小时训练数据，VALL-E 可利用仅 3 秒的未见说话人录音合成高质量个性化语音，显著提升语音自然度与说话人相似度，同时保留说话人情感及环境。

摘要

We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language model (called Vall-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather than continuous signal regression as in previous work. During the pre-training stage, we scale up the TTS training data to 60K hours of English speech which is hundreds of times larger than existing systems. Vall-E emerges in-context learning capabilities and can be used to synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker as an acoustic prompt. Experiment results show that Vall-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, we find Vall-E could preserve the speaker's emotion and acoustic environment of the acoustic prompt in synthesis. See https://aka.ms/valle for demos of our work.

思维导图

论文精读

中文精读约 34 分钟读完 · 19,126 字

1. 论文基本信息

1.1. 标题

神经编解码语言模型是零样本文本到语音合成器 (Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers)

1.2. 作者

Chengyi Wang, Sanyuan Chen, Yu Wu, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, Furu Wei。所有作者均来自微软 (Microsoft)。

1.3. 发表期刊/会议

该论文作为预印本发表在 arXiv 上。arXiv 是一个开放获取的预印本服务器，允许研究人员在同行评审之前分享他们的研究成果。虽然它不是正式的期刊或会议，但 arXiv 在人工智能、机器学习和自然语言处理等领域具有极高的影响力，许多前沿研究成果会首先在此发布。

1.4. 发表年份

2023年

1.5. 摘要

本文提出了一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们训练了一个神经编解码语言模型（命名为 VALL-E），它使用从一个现成的 (off-the-shelf) 神经音频编解码模型中提取的离散编码 (discrete codes)。我们将 TTS 任务视为一个条件语言建模任务 (conditional language modeling task)，而非像以往工作那样进行连续信号回归 (continuous signal regression)。在预训练阶段，我们将 TTS 训练数据扩展到 60K 小时，是现有系统数据的数百倍。VALL-E 展现出上下文学习 (in-context learning) 能力，仅需一个 3 秒的未见说话人注册录音作为声学提示 (acoustic prompt)，即可合成高质量的个性化语音 (personalized speech)。实验结果表明，VALL-E 在语音自然度 (speech naturalness) 和说话人相似度 (speaker similarity) 方面显著优于最先进的 (state-of-the-art) 零样本 TTS 系统。此外，我们发现 VALL-E 能够保留声学提示中的说话人情感 (speaker's emotion) 和声学环境 (acoustic environment)。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2301.02111 PDF 链接: https://arxiv.org/pdf/2301.02111v1.pdf 发布状态: 预印本。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 传统的文本到语音合成 (Text-to-Speech, TTS) 系统，特别是零样本 TTS (zero-shot TTS)，在处理未见说话人（即模型训练时未包含的说话人）时，往往面临语音自然度 (speech naturalness) 和说话人相似度 (speaker similarity) 急剧下降的问题。现有的零样本 TTS 方法通常需要额外的微调 (fine-tuning)、复杂的预设计特征或繁重的结构工程，这限制了其泛化能力和易用性。

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白？ 随着人工智能技术的发展，用户对个性化、高质量语音合成的需求日益增长。零样本 TTS 能够仅凭少量语音样本（甚至几秒钟）即可模仿新说话人的声音，这在虚拟助手、有声读物、游戏和多语言通信等领域具有巨大的应用潜力。然而，现有系统主要挑战在于：

数据稀缺性： 传统的 TTS 系统通常在较小的、高质量、干净的录音棚数据上训练（几十到几百小时），这导致模型泛化能力差。从互联网抓取的大规模数据往往包含噪声和不准确的转录，现有模型难以有效利用。
泛化能力弱： 对于未见说话人，现有模型难以保持高水平的说话人相似度和语音自然度。
复杂性： 解决零样本 TTS 问题的方法（如说话人适应 (speaker adaptation) 和说话人编码 (speaker encoding)）通常引入额外的模型组件或训练阶段，增加了系统的复杂性。

这篇论文的切入点或创新思路是什么？ 受文本合成领域中大规模语言模型（如 GPT-3）成功的启发，本文提出通过以下两个核心创新点来解决上述挑战：

将 TTS 视为条件语言建模任务： 区别于传统将语音视为连续信号回归任务的方法，VALL-E 将 TTS 转化为一个生成离散音频编码 (discrete audio codec codes) 的语言建模任务。这使得 TTS 能够借鉴大型语言模型（LLM）的架构和训练范式。
大规模数据预训练： 将 TTS 训练数据扩展到 60K 小时，是现有系统训练数据量的数百倍，以期通过数据规模提升模型的泛化能力和上下文学习能力。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么？

提出 VALL-E 模型： 首次将 TTS 任务视为一个基于音频编解码器离散编码的语言模型任务，而不是传统的梅尔频谱图 (mel spectrogram) 连续信号回归。这使得 VALL-E 具备了类似于 GPT-3 的强大上下文学习 (in-context learning) 能力，能够通过提示 (prompting) 实现零样本 TTS，而无需额外的结构工程、预设计声学特征或微调。
大规模数据训练： 利用 60K 小时的大规模半监督英语语音数据进行预训练，极大地扩展了 TTS 模型的训练数据规模（比现有系统大数百倍），证明了简单地扩大半监督数据规模对 TTS 模型的泛化能力被低估了。
多功能性： VALL-E 不仅能在零样本场景下合成自然且与说话人高度相似的语音，还能在相同的输入文本下提供多样化的输出（通过采样解码），并且能够保留声学提示中的声学环境 (acoustic environment) 和说话人情感 (speaker's emotion)。
性能突破： 在 LibriSpeech 和 VCTK 数据集上的评估结果表明，VALL-E 在零样本 TTS 场景中显著超越了最先进的系统。

论文得出了哪些关键的结论或发现？

上下文学习能力： VALL-E 具备强大的上下文学习能力，仅需 3 秒的未见说话人录音作为声学提示，即可合成高质量的个性化语音。
卓越的性能： 在语音自然度 (CMOS) 和说话人相似度 (SMOS) 方面，VALL-E 在 LibriSpeech 和 VCTK 数据集上均显著优于基线系统。在 VCTK 上，VALL-E 甚至在 CMOS 上略微超过真实录音，表明其合成语音的自然度与人类录音无统计学差异。
多样性合成： 基于采样的解码策略使得 VALL-E 能够为相同的输入文本和目标说话人生成多样化的语音输出，这对于语音识别任务的伪数据 (pseudo-data) 生成具有潜在价值。
声学环境和情感保持： VALL-E 能够保持声学提示中的声学环境（例如混响）和说话人情感（例如愤怒），这展示了其对声学细节的强大建模能力。

3. 预备知识与相关工作

3.1. 基础概念

文本到语音合成 (Text-to-Speech, TTS)： 一种将文本信息转换为人类语音的技术。其目标是生成听起来自然、清晰且富有表现力的语音。
神经编解码模型 (Neural Audio Codec Model)： 一种利用神经网络进行音频编码和解码的模型。编码器将原始音频波形压缩成离散的数字表示（即离散编码），而解码器则将这些离散编码重构回高质量的音频波形。本文使用的是 EnCodec 模型。
离散编码 (Discrete Codes)： 传统的音频处理多采用连续信号，而离散编码将连续的音频信息量化为一系列离散的符号或“词元 (token)”。这使得音频数据可以像文本一样被语言模型处理。
条件语言建模 (Conditional Language Modeling)： 语言模型通常用于预测序列中的下一个词元。条件语言建模则是在给定一些额外信息（如文本、图片、其他语音）的条件下，预测目标序列的词元。在 VALL-E 中，它根据文本的音素序列和短语的声学提示来生成音频的离散编码。
连续信号回归 (Continuous Signal Regression)： 传统 TTS 方法通常将语音合成视为一个预测连续音频特征（如梅尔频谱图）的回归问题。这意味着模型输出的是连续的数值，而不是离散的符号。
上下文学习 (In-context Learning)： 大型语言模型 (LLM) 的一个显著特性。指模型在不更新自身参数的情况下，通过分析输入提示 (prompt) 中提供的少量示例或指令，即可学习并执行新任务的能力。在 TTS 领域，这意味着模型能够根据一个短的声学提示（未见说话人的声音）来模仿其音色和风格，而无需对模型进行任何微调。
零样本合成 (Zero-Shot Synthesis)： 指模型在训练过程中从未见过特定类别或条件（例如某个说话人的声音），但在推理时仅凭少量或无示例即可成功生成该类别或条件下的内容。在 TTS 中，零样本 TTS 指的是合成一个模型训练时未见过的说话人的声音。
梅尔频谱图 (Mel Spectrogram)： 一种常用的语音特征表示，它将语音信号的频谱能量映射到梅尔频率刻度上，更符合人耳对频率的感知。传统 TTS 系统常以此作为声学模型和声码器之间的中间表示。
音素 (Phoneme)： 语言中能够区分词义的最小语音单位。TTS 系统通常将输入文本转换为音素序列，作为语音合成的中间表示。
Transformer 模型： 一种基于自注意力 (self-attention) 机制的神经网络架构，广泛应用于自然语言处理和计算机视觉领域。它能够有效捕捉序列中的长距离依赖关系。
自回归模型 (Autoregressive, AR)： 一种序列模型，在生成当前词元时，会依赖于之前已经生成的所有词元。这种模型通常具有较好的生成质量，但推理速度较慢。
非自回归模型 (Non-Autoregressive, NAR)： 一种序列模型，在生成所有词元时，不依赖于之前生成的词元，可以并行生成。这种模型通常推理速度快，但生成质量可能略低于自回归模型。

3.2. 前人工作

传统级联 TTS 系统 (Cascaded TTS Systems)： 如 Tacotron [Shen et al., 2018] 和 FastSpeech [Ren et al., 2019]。这类系统通常包含两个主要阶段：
1. 声学模型 (Acoustic Model)： 将文本或音素序列转换为梅尔频谱图等声学特征。
2. 声码器 (Vocoder)： 将声学特征转换为原始音频波形。
- 挑战： 这种级联方法在中间的梅尔频谱图表示上可能存在信息瓶颈，并且每个组件的错误可能累积。
端到端 TTS 系统 (End-to-End TTS Systems)： 如 Tacotron 2 [Shen et al., 2018] 和 Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech [Kim et al., 2021]。这些模型尝试联合优化声学模型和声码器，减少中间表示带来的信息损失和误差累积。
- 挑战： 尽管有所改进，但仍受限于训练数据规模，对高质量、干净数据的依赖性强。
零样本多说话人 TTS (Zero-Shot Multi-Speaker TTS)：
- 说话人适应 (Speaker Adaptation)： [Chen et al., 2019, Wang et al., 2020] 通过对预训练模型进行少量目标说话人数据的微调来适应新声音。
- 说话人编码 (Speaker Encoding)： [Arik et al., 2018, Jia et al., 2018] 引入一个独立的说话人编码器来提取说话人特征（通常是嵌入向量），然后将其作为条件输入到 TTS 模型中。YourTTS [Casanova et al., 2022b] 是该领域的最新进展，也是本文的主要基线。
- 挑战： 这些方法通常需要额外的微调、复杂的网络结构或预设计的声学特征，限制了真正的“零样本”能力。
口语生成预训练模型 (Spoken Generative Pre-trained Models)：
- 自监督学习 (Self-supervised Learning)： wav2vec 2.0 [Baevski et al., 2020b] 和 HuBERT [Hsu et al., 2021] 在大量无标签语音数据上进行预训练，学习通用的语音表示。
- 语音到语音生成 (Speech-to-Speech Generation)： GSLM [Lakhotia et al., 2021] 使用 HuBERT 编码生成语音；AudioLM [Borsos et al., 2022] 则结合语义编码和神经编解码模型生成语音。AudioLM 是一个语音到语音模型，可从音频提示生成音频，但不提供对内容的显式控制。
- TTS 预训练： SpeechT5 [Ao et al., 2022] 提出了统一模态编码器-解码器框架，利用无标签语音和文本数据预训练 TTS 组件。VQVAE [van den Oord et al., 2017] 用于将无标签语音量化为离散词元进行模型训练 [Tjandra et al., 2019]。
- 差异： 这些工作通常使用的数据量较小（小于 1K 小时），且未展现出零样本 TTS 的上下文学习能力。VALL-E 是第一个将音频编解码编码作为中间表示，并结合大规模数据预训练，在零样本 TTS 中展现上下文学习能力的模型。

补充：Transformer 中的 Attention 机制 由于 VALL-E 的核心架构是基于 Transformer 解码器，理解 Attention 机制对于初学者至关重要，尽管原文没有直接复述其公式，但它是 Transformer 的基石。

Attention (注意力) 机制在序列模型中扮演着关键角色，它允许模型在处理序列的某个元素时，能够“关注”到序列中的其他相关元素。在 Transformer 中，最常用的是缩放点积注意力 (Scaled Dot-Product Attention)。

给定查询 (Query) $Q$ 、键 (Key) $K$ 和值 (Value) $V$ 三个矩阵，注意力机制的计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释：

$Q$ ：查询矩阵 (Query Matrix)。代表当前需要处理的词元的信息。
$K$ ：键矩阵 (Key Matrix)。代表序列中所有可能被关注的词元的信息。
$V$ ：值矩阵 (Value Matrix)。代表序列中所有可能被关注的词元所包含的实际内容。
$Q K^T$ ：查询和键的点积。衡量查询与每个键的相似度或相关性。
$\sqrt{d_k}$ ：缩放因子。 $d_k$ 是键向量的维度。点积结果通常较大，通过除以 $\sqrt{d_k}$ 可以防止 softmax 函数的输入过大，导致梯度消失。
$\mathrm{softmax}(\cdot)$ ：softmax 函数。将相似度分数转换为概率分布，确保所有注意力权重之和为 1。这个概率分布决定了每个值 $V$ 对最终输出的贡献程度。
$V$ ：值矩阵。经过注意力权重加权后，值矩阵的加权和构成了注意力机制的输出。

Transformer 模型利用这种注意力机制，使得模型在生成每个输出词元时，能够有效地从输入序列中获取最相关的信息。

3.3. 技术演进

语音合成技术经历了从参数合成、拼接合成到基于深度学习的神经合成的演变。

早期： 基于规则或统计参数模型，语音质量受限。
拼接合成： 通过拼接预先录制的小语音单元来生成语音，自然度较高但灵活性差，难以控制韵律和音色。
深度学习兴起： WaveNet [van den Oord et al., 2016] 等模型直接生成原始音频波形，显著提升了语音质量。
端到端模型： Tacotron、FastSpeech 等将多个模块整合，简化了流程。
多说话人/零样本 TTS： 通过引入说话人嵌入、适应层等机制，实现对不同说话人声音的泛化。
自监督学习与预训练： wav2vec、HuBERT 等在无标签语音数据上进行大规模预训练，学习通用的语音表示，为后续任务提供了强大的基础。
语言模型范式： 受大型文本语言模型成功的启发，研究人员开始探索将语音任务也转化为语言建模问题，例如 AudioLM 在语音到语音任务上的应用。VALL-E 进一步将这种语言建模范式应用于文本到语音合成，并结合了大规模数据和离散音频编码。

3.4. 差异化分析

VALL-E 与现有方法的关键区别和创新点在于：

中间表示： 传统系统使用连续的梅尔频谱图，VALL-E 使用从神经音频编解码模型（如 EnCodec）获得的离散音频编码 (audio codec codes)。这种离散化处理使得语音数据可以被视为“音频词元序列”，从而能直接套用语言模型的处理框架。
建模范式： 传统 TTS 是连续信号回归任务，VALL-E 是条件语言建模任务。这种转变使得 VALL-E 能够利用 Transformer 等语言模型的强大序列建模能力和上下文学习特性。
数据规模： 现有 TTS 系统通常在几十到几百小时的语音数据上训练。VALL-E 引入了60K 小时的大规模半监督数据进行预训练，数据规模是现有系统的数百倍，这被认为是其泛化能力和上下文学习能力的关键。
零样本能力： 现有零样本 TTS 方法通常需要额外的微调、复杂的说话人编码器或结构工程。VALL-E 实现了真正的上下文学习零样本 TTS，仅通过 3 秒的声学提示即可合成未见说话人的声音，无需任何微调或特定设计。
输出多样性： 传统的 TTS 系统倾向于生成确定的、一对一映射的语音。VALL-E 采用采样解码，能够生成多样化的语音输出，这在某些应用中（如数据增强）具有优势。
环境与情感保持： VALL-E 能够保持声学提示中的声学环境和说话人情感，这表明其对输入提示的丰富信息具有更强的捕获和迁移能力。

4. 方法论

4.1. 方法原理

VALL-E 的核心思想是将文本到语音合成 (TTS) 视为一个条件语言建模 (conditional language modeling) 任务。它不再像传统 TTS 那样直接回归连续的声学特征（如梅尔频谱图），而是将语音转换为一系列离散的声学编码 (discrete acoustic codes)，然后训练一个语言模型来预测这些离散编码。给定一个文本的音素序列和一个短的声学提示 (acoustic prompt)，模型学习生成对应内容和说话人声音的声学编码，最后通过神经编解码器解码这些编码为原始音频波形。

这种方法的直觉是，离散编码将语音分解为类似于文本“词元”的单位，使得大型语言模型在处理文本时所展现的强大序列建模和上下文学习能力可以迁移到语音合成中。通过大规模数据训练，模型能够从声学提示中“学习”到说话人的音色、情感和声学环境，并在生成新语音时复现这些特性。

4.2. 核心方法详解 (逐层深入)

VALL-E 的工作流程可以分为三个主要阶段：语音量化、条件编解码语言模型训练和推理。

4.2.1. 背景：语音量化 (Speech Quantization)

由于原始音频波形是高维连续信号，直接生成非常困难。为了将其转化为离散表示，VALL-E 采用了预训练的神经音频编解码模型 EnCodec [Défossez et al., 2022] 进行语音量化。

EnCodec 是一个卷积编码器-解码器模型，它将 $24 \mathrm{kHz}$ 的音频波形编码成离散的声学编码，并能高质量地重构音频。编码器以 $75 \mathrm{Hz}$ 的速率生成嵌入，相对于 $24 \mathrm{kHz}$ 的采样率实现了 320 倍的降采样。每个嵌入都通过残差向量量化 (Residual Vector Quantization, RVQ) 进行建模。本文选择使用 8 个层次的量化器，每个量化器有 1024 个条目。这意味着对于一段 10 秒的音频，其离散表示将是一个 $750 \times 8$ 的矩阵，其中 750 是降采样后的时间步长，8 是量化器的数量。

以下是原文 Figure 2 的结构示意图：

Figure 2: The neural audio codec model revisit. Because RVQ is employed, the first quantizer plays the most important role in reconstruction, and the impact from others gradually decreases. 该图像是示意图，展示了神经音频编码模型的结构。图中包含编码器和解码器的组件，以及多阶段的量化令牌，每个阶段对应不同的草图。通过使用残差连接及向量量化（VQ），模型可以在音频重构中发挥重要作用。

图 2 展示了神经音频编解码模型的结构，特别是残差向量量化（RVQ）的应用。RVQ 意味着每个后续的量化器都量化前一个量化器输出的残差（未被捕捉到的信息）。因此，第一个量化器在重构中扮演最重要角色，而后续量化器的影响逐渐减小，它们负责捕捉更精细的声学细节。这种层次结构允许离散编码包含从粗粒度（说话人身份）到细粒度（声学细节）的丰富信息。

4.2.2. 问题形式化：将 TTS 视为条件编解码语言建模

给定数据集 $D = \{ \mathbf{x}_i, \mathbf{y}_i \}$ ，其中 $\mathbf{y}$ 是音频样本， $\mathbf{x} = \{ x_0, x_1, \ldots, x_L \}$ 是其对应的音素转录。使用预训练的神经编解码模型将每个音频样本编码为离散声学编码，表示为 $\mathrm{Encodec}( \mathbf{y} ) = \mathbf{C}^{T \times 8}$ 。其中 $\mathbf{C}$ 是二维声学编码矩阵， $T$ 是降采样后的语音时长。

$\mathbf{c}_{t,:}$ 代表帧 $t$ 的八个编码。
$\mathbf{c}_{:,j}$ 代表第 $j$ 个码本 (codebook) 的编码序列， $j \in \{1, \ldots, 8\}$ 。编码后，神经编解码器解码器能够重构波形，表示为 $\mathrm{Decodec}( \mathbf{C} ) \approx \hat{\mathbf{y}}$ 。

零样本 TTS 要求模型为未见说话人合成高质量语音。本文将零样本 TTS 视为条件编解码语言建模任务。训练一个神经语言模型来生成声学编码矩阵 $\mathbf{C}$ ，其条件是音素序列 $\mathbf{x}$ 和声学提示矩阵 $\tilde{\mathbf{C}}^{T' \times 8}$ 。优化目标是最大化 $p(\mathbf{C} | \mathbf{x}, \tilde{\mathbf{C}})$ 。其中， $\tilde{\mathbf{C}}$ 是通过相同神经编解码器将一个注册录音作为输入获得的。模型期望从音素序列中提取内容信息，从声学提示中提取说话人信息。推理时，给定音素序列和 3 秒的未见说话人注册录音，首先通过训练好的语言模型估计出具有相应内容和说话人声音的声学编码矩阵，然后神经编解码器解码器合成高质量语音。

4.2.3. 训练：分层条件编解码语言建模

鉴于神经编解码模型的残差量化 (residual quantization) 结构，其编码具有层次性：前几个量化器的编码主要恢复声学属性（如说话人身份），而后续量化器则学习更精细的声学细节。每个量化器都旨在建模前一个量化器的残差。受此启发，VALL-E 采用了两个分层的条件语言模型：一个自回归 (AR) 模型用于第一个量化器的编码，以及一个非自回归 (NAR) 模型用于其余七个量化器的编码。

以下是原文 Figure 3 的结构示意图：

Figure 3: The structure of the conditional codec language modeling, which is built in a hierarchical manner. In practice, the NAR decoder will be called seven times to generate codes in seven quantizers. 该图像是示意图，展示了条件编解码语言建模的结构。图中分别展示了非自回归（NAR）和自回归（AR）Transformer解码器的工作机制，强调了不同解码策略对信息处理的影响。

图 3 展示了分层条件编解码语言建模的结构。它包含一个自回归 (AR) Transformer 解码器用于生成第一个量化器的编码，以及一个非自回归 (NAR) Transformer 解码器用于生成其余量化器的编码。

总体的 $\mathbf{C}$ 预测可以建模为： $p ( { \mathbf { C } } | { \mathbf { x } } , \tilde { { \mathbf { C } } } ; \theta ) = p ( { \mathbf { c } } _ { : , 1 } | \tilde { { \mathbf { C } } } _ { : , 1 } , { \mathbf { X } } ; \theta _ { A R } ) \prod _ { j = 2 } ^ { 8 } p ( { \mathbf { c } } _ { : , \mathbf { j } } | { \mathbf { c } } _ { : , < j } , { \mathbf { x } } , \tilde { { \mathbf { C } } } ; \theta _ { N A R } )$ 符号解释：

$p(\mathbf{C} | \mathbf{x}, \tilde{\mathbf{C}}; \theta)$ ：给定音素序列 $\mathbf{x}$ 和声学提示 $\tilde{\mathbf{C}}$ ，模型参数为 $\theta$ 时，生成完整声学编码矩阵 $\mathbf{C}$ 的概率。
$p(\mathbf{c}_{:,1} | \tilde{\mathbf{C}}_{:,1}, \mathbf{x}; \theta_{AR})$ ：给定声学提示的第一个码本编码 $\tilde{\mathbf{C}}_{:,1}$ 和音素序列 $\mathbf{x}$ ，自回归 (AR) 模型 $\theta_{AR}$ 生成第一个码本编码序列 $\mathbf{c}_{:,1}$ 的概率。
\prod_{j=2}^8 p(\mathbf{c}_{:,j} | \mathbf{c}_{:,<j}, \mathbf{x}, \tilde{\mathbf{C}}; \theta_{NAR})：对于第 $j$ 个码本（从 2 到 8），非自回归 (NAR) 模型 $\theta_{NAR}$ 生成其编码序列 $\mathbf{c}_{:,j}$ 的概率，条件是之前生成的所有码本编码序列 $\mathbf{c}_{:,<j}$ 、音素序列 $\mathbf{x}$ 和完整的声学提示 $\tilde{\mathbf{C}}$ 。

4.2.3.1. 自回归编解码语言建模 (Autoregressive Codec Language Modeling)

自回归语言模型负责生成第一个量化器的词元 $\mathbf{c}_{:,1}$ 。 模型构成： 它包含一个音素嵌入层 $W_x$ 、一个声学嵌入层 $W_a$ 、一个 Transformer 解码器和一个预测层。 输入： 为了生成特定内容的语音，音素序列 $\mathbf{x}$ 作为语言模型的音素提示。模型输入是 $\mathbf{x}$ 和 $\mathbf{c}_{:,1}$ 的拼接，两者末尾都添加了特殊的 $<EOS>$ 词元。位置嵌入 (positional embedding) 分别为提示和输入词元计算。 因果关系： 对于因果 Transformer 模型，每个词元 $c_{t,1}$ 可以关注 $(\mathbf{x}, \mathbf{c}_{\leq t,1})$ ，如 Figure 3 左侧所示。 优化目标： 模型优化目标是最大化第一个码本中下一个词元的概率。输出投影层与声学嵌入 $W_a$ 共享参数。

训练过程中，AR 模型不显式提取音频片段作为提示，而是纯粹进行因果语言模型训练。任何前缀序列 $\mathbf{c}_{<t,1}$ 都被视为后续序列 $\mathbf{c}_{\geq t,1}$ 的提示。推理时，给定一个注册录音，将注册录音的音素序列和待合成内容的音素序列拼接起来作为音素提示。注册录音的第一个量化器声学词元序列 $\tilde{\mathbf{c}}_{:,1}$ 用作 AR 解码的前缀 (prefix)，如公式 1 所示： $p ( \mathbf { c } _ { : , 1 } | \mathbf { x } , \tilde { \mathbf { C } } _ { : , 1 } ; \theta _ { A R } ) = \prod _ { t = 0 } ^ { T } p ( \mathbf { c } _ { t , 1 } | \mathbf { c } _ { < t , 1 } , \tilde { \mathbf { c } } _ { : , 1 } , \mathbf { x } ; \theta _ { A R } )$ 符号解释：

$p(\mathbf{c}_{:,1} | \mathbf{x}, \tilde{\mathbf{C}}_{:,1}; \theta_{AR})$ ：给定音素序列 $\mathbf{x}$ 和声学提示的第一个码本编码 $\tilde{\mathbf{C}}_{:,1}$ ，自回归模型 $\theta_{AR}$ 生成第一个码本编码序列 $\mathbf{c}_{:,1}$ 的概率。
$\prod_{t=0}^T$ ：表示对时间步 $t$ 从 0 到 $T$ 的所有词元概率的乘积。
$p(\mathbf{c}_{t,1} | \mathbf{c}_{<t,1}, \tilde{\mathbf{c}}_{:,1}, \mathbf{x}; \theta_{AR})$ ：在时间步 $t$ ，给定之前已生成的第一个码本编码序列 $\mathbf{c}_{<t,1}$ 、声学提示的第一个码本编码 $\tilde{\mathbf{c}}_{:,1}$ 和音素序列 $\mathbf{x}$ ，自回归模型 $\theta_{AR}$ 生成当前时间步的第一个码本编码 $\mathbf{c}_{t,1}$ 的概率。

这种设计在推理时，通过将注册录音的声学词元作为前缀，引导模型生成具有目标说话人声音特征的语音。

4.2.3.2. 非自回归编解码语言建模 (Non-Autoregressive Codec Language Modeling)

当通过 AR 模型获得第一个量化器编码后，VALL-E 使用一个非自回归 (NAR) 模型来生成其余七个量化器（即 $j \in [2, 8]$ ）的编码。 模型架构： NAR 模型与 AR 模型结构相似，但包含八个独立的声学嵌入层。 训练过程： 在每个训练步骤中，随机采样一个训练阶段 $i \in [2, 8]$ 。模型被训练来最大化第 $i$ 个量化器码本的声学词元概率。 输入： 模型的输入是音素序列 $\mathbf{x}$ 、完整的声学提示 $\tilde{\mathbf{C}}$ (通过神经编解码模型对注册语音进行编码得到) 以及阶段 1 到阶段 i-1 的声学词元。 嵌入求和： 来自阶段 1 到阶段 i-1 的声学词元被嵌入并求和作为模型输入： $\begin{array}{l} { e_{c_{t,j}} = W_{a}^{j} \odot c_{t,j} } \\ { e_{\mathbf{c}_{\mathbf{t}}} = \sum_{j=1}^{i-1} e_{c_{t,j}} } \end{array}$ 符号解释：

$e_{c_{t,j}}$ ：在时间步 $t$ ，第 $j$ 个码本的编码 $c_{t,j}$ 的嵌入表示。
$W_a^j$ ：第 $j$ 个码本的声学嵌入层。
$\odot$ ：表示索引选择 (index selection)。
$e_{\mathbf{c}_{\mathbf{t}}}$ ：在时间步 $t$ ，前 i-1 个码本编码的嵌入总和，作为 NAR 模型的输入。

同时，为了克隆给定说话人的独特声音，声学提示 $\tilde{\mathbf{C}}$ 的嵌入表示也被使用。具体来说，首先用神经编解码模型将注册语音 tokenize 为 $\tilde{\mathbf{C}}^{T \times 8}$ 。所有八个量化器的嵌入表示求和得到： $e_{\tilde{\mathbf{c}}_{\mathbf{t}}} = \sum_{j=1}^{8} e_{\tilde{c}_{t,j}}$ 符号解释：
$e_{\tilde{\mathbf{c}}_{\mathbf{t}}}$ ：在时间步 $t$ ，声学提示 $\tilde{\mathbf{C}}$ 中所有八个码本编码的嵌入总和。

当预测第 $i$ 个码本的词元时，Transformer 的输入是 $(\mathbf{e_x}, \mathbf{e_{\tilde{c}}}, \mathbf{e_{c_{:,<i}}})$ 的拼接。其中 $\mathbf{e_x}$ 是音素嵌入， $\mathbf{e_{\tilde{c}}}$ 是声学提示嵌入， $\mathbf{e_{c_{:,<i}}}$ 是前 i-1 个码本的嵌入。位置嵌入也为提示和声学序列单独计算。 阶段注入： 当前阶段 $i$ 通过自适应层归一化 (Adaptive Layer Normalization, AdaLN) 操作注入网络： $\mathrm{AdaLN}(h, i) = a_i \mathrm{LayerNorm}(h) + b_i$ 符号解释：
$h$ ：中间激活值。
$i$ ：当前阶段的嵌入。
$a_i, b_i$ ：通过阶段嵌入的线性投影获得的参数，用于缩放和偏移层归一化后的激活值。
$\mathrm{LayerNorm}(h)$ ：对激活值 $h$ 进行层归一化。

与 AR 模型不同，NAR 模型允许每个词元在自注意力层中关注所有输入词元。声学嵌入层和输出预测层共享参数，即第 $j$ 个预测层的权重与第 $(j+1)$ 个声学嵌入层的权重相同。 优化目标： $p ( \mathbf { C } _ { : , 2 : 8 } | \mathbf { x } , \tilde { \mathbf { C } } ; \theta _ { N A R } ) = \prod _ { j = 2 } ^ { 8 } p ( \mathbf { c } _ { : , j } | \mathbf { C } _ { : , < j } , \mathbf { x } , \tilde { \mathbf { C } } ; \theta _ { N A R } )$ 符号解释：
$p(\mathbf{C}_{:,2:8} | \mathbf{x}, \tilde{\mathbf{C}}; \theta_{NAR})$ ：给定音素序列 $\mathbf{x}$ 和完整声学提示 $\tilde{\mathbf{C}}$ ，非自回归 (NAR) 模型 $\theta_{NAR}$ 生成第 2 到第 8 个码本编码序列的概率。
$\prod_{j=2}^8$ ：表示对码本 $j$ 从 2 到 8 的所有词元概率的乘积。
$p(\mathbf{c}_{:,j} | \mathbf{C}_{:,<j}, \mathbf{x}, \tilde{\mathbf{C}}; \theta_{NAR})$ ：对于第 $j$ 个码本，给定之前所有码本的编码序列 $\mathbf{C}_{:,<j}$ 、音素序列 $\mathbf{x}$ 和完整声学提示 $\tilde{\mathbf{C}}$ ，非自回归模型 $\theta_{NAR}$ 生成第 $j$ 个码本编码序列 $\mathbf{c}_{:,j}$ 的概率。

这种 AR 和 NAR 模型的组合在语音质量和推理速度之间实现了良好的平衡。AR 模型在预测声学序列长度方面更灵活，确保与注册语音的语速一致，因为不同说话人的语速可能差异很大。而对于后续阶段，NAR 模型可以并行生成，将时间复杂度从 $\mathcal{O}(T)$ 降低到 $\mathcal{O}(1)$ 。

4.2.4. 推理：通过提示进行上下文学习 (In-Context Learning via Prompting)

上下文学习是文本语言模型的一个惊人能力，它无需额外的参数更新即可预测未见输入的标签。对于 TTS，如果模型无需微调就能为未见说话人合成高质量语音，则认为模型具备上下文学习能力。

提示设计和推理流程：

准备提示： 将待合成文本转换为音素序列（音素提示），并将注册录音编码为声学矩阵（声学提示）。
AR 模型解码：
- 使用音素提示和声学提示（注册录音的第一个量化器编码 $\tilde{\mathbf{c}}_{:,1}$ 作为前缀）。
- 采用基于采样的解码 (sampling-based decoding)，因为观察到波束搜索 (beam search) 可能导致语言模型进入无限循环。基于采样的方法还能显著增加输出的多样性。
NAR 模型解码：
- 在 AR 模型生成第一个量化器编码后，NAR 模型使用贪婪解码 (greedy decoding) 来选择最高概率的词元，逐个量化器生成其余七个码本的编码。
波形生成： 最后，神经编解码器解码器根据这八个码本的编码序列生成最终的音频波形。

两种推理设置：

VALL-E (主要关注点)： 旨在为未见说话人生成给定内容。
- 输入： 一个文本句子，一段注册语音及其对应的转录。
- 音素提示： 将注册语音的转录音素序列预置到给定句子的音素序列前。
- 声学提示： 使用注册语音的第一个量化器声学词元 $\tilde{c}_{:,1}$ 作为声学前缀。
- 目标： VALL-E 生成给定文本的声学词元，同时克隆该说话人的声音。
VALL-E-continual： 在此设置下，模型被要求生成语音的延续部分。
- 输入： 整个语音的转录和前 3 秒的语音作为音素和声学提示。
- 推理过程： 与 VALL-E 设置相同，但注册语音和生成语音在语义上是连续的。

5. 实验设置

5.1. 数据集

训练数据：LibriLight [Kahn et al., 2020]
- 来源与规模： 包含 60K 小时未标注的英语有声读物语音。
- 特点： 约 7000 个不同的说话人。原始数据仅为音频，通过在 960 小时标注的 LibriSpeech 数据集上训练的混合 DNN-HMM 自动语音识别 (ASR) 模型（遵循 Kaldi 配方 [Povey et al., 2011]）生成对应的音素转录（帧移 30 ms）。
- 质量： 相比于 LibriTTS [Zen et al., 2019] 等传统 TTS 训练数据集，LibriLight 包含更多嘈杂的语音和不准确的转录，但提供了更多样化的说话人和韵律。作者认为这种大规模数据有助于模型对噪声的鲁棒性和泛化能力。
- 与现有系统的对比： 现有 TTS 系统通常使用几十到几百小时的数据进行训练，而 VALL-E 使用的数据量是其数百倍。
测试数据：
- LibriSpeech [Panayotov et al., 2015]：
  - 用于零样本 TTS 评估，特别是 test-clean 子集。
  - 确保 LibriLight 训练数据与 LibriSpeech test-clean 数据之间没有说话人重叠。
  - 选择 4 到 10 秒长度的样本，总计 2.2 小时。
- VCTK [Veaux et al., 2016]：
  - 包含 108 位说话人，这些说话人均未在 VALL-E 的训练语料库中出现。
  - YourTTS 基线模型在训练时见过 VCTK 中的 97 位说话人，而 VALL-E 未见任何一位。

5.2. 评估指标

对论文中出现的每一个评估指标，进行概念定义、数学公式和符号解释。

5.2.1. 比较平均意见得分 (Comparative Mean Option Score, CMOS)

概念定义： CMOS 是衡量语音自然度的指标，通过人工评估比较两个语音系统（或一个系统与真实语音）的相对质量。评估者被要求比较两个语音片段的自然度，并给出一个相对分数。分数范围从 -3（新系统比基线差得多）到 +3（新系统比基线好得多），0 表示两者相当。
数学公式： CMOS 通常通过收集多个听众对两个系统语音片段的相对评分，然后计算这些评分的平均值得出。没有一个标准化的单一公式，因为它是一个主观比较的平均值。如果系统 $A$ 和系统 $B$ 之间的比较是 $C_{A,B}$ ，那么对于 $N$ 个评估者和 $M$ 个样本，CMOS 可以表示为： $\mathrm{CMOS}_{A \text{ vs } B} = \frac{1}{N \cdot M} \sum_{i=1}^{N} \sum_{j=1}^{M} S_{i,j}(A, B)$
符号解释：
- $\mathrm{CMOS}_{A \text{ vs } B}$ ：系统 $A$ 相对于系统 $B$ 的比较平均意见得分。
- $N$ ：参与评估的听众数量。
- $M$ ：评估的语音样本数量。
- $S_{i,j}(A, B)$ ：第 $i$ 个听众对第 $j$ 个语音样本中系统 $A$ 相对于系统 $B$ 给出的评分，通常范围在 $[-3, 3]$ 。

5.2.2. 相似度平均意见得分 (Similarity Mean Option Score, SMOS)

概念定义： SMOS 是衡量合成语音与目标说话人声音相似度的指标，通过人工评估。评估者被要求听一个目标说话人的参考语音和一段合成语音，然后判断合成语音在多大程度上听起来像目标说话人。分数通常在 1 到 5 之间，分数越高表示相似度越高。
数学公式： SMOS 通过收集多个听众对合成语音与目标说话人声音相似度的评分，然后计算这些评分的平均值得出。对于 $N$ 个评估者和 $M$ 个样本，SMOS 可以表示为： $\mathrm{SMOS} = \frac{1}{N \cdot M} \sum_{i=1}^{N} \sum_{j=1}^{M} R_{i,j}$
符号解释：
- $\mathrm{SMOS}$ ：相似度平均意见得分。
- $N$ ：参与评估的听众数量。
- $M$ ：评估的语音样本数量。
- $R_{i,j}$ ：第 $i$ 个听众对第 $j$ 个语音样本的相似度评分，通常范围在 [1, 5]。

5.2.3. 词错误率 (Word Error Rate, WER)

概念定义： WER 是衡量语音识别系统（或此处评估合成语音清晰度）性能的常用指标，表示识别错误的词语占总词语的百分比。错误包括替换 (Substitution)、插入 (Insertion) 和删除 (Deletion)。WER 越低表示语音合成的鲁棒性越好，生成的语音内容与预期文本的匹配度越高。
数学公式： $\mathrm{WER} = \frac{S + D + I}{N} \times 100\%$
符号解释：
- $S$ ：替换错误的词语数量 (Substitutions)。
- $D$ ：删除错误的词语数量 (Deletions)。
- $I$ ：插入错误的词语数量 (Insertions)。
- $N$ ：参考转录中的总词语数量。

5.2.4. 等错误率 (Equal Error Rate, EER)

概念定义： EER 是衡量生物识别系统（如说话人验证系统）性能的指标。它是在一个系统上，虚警率 (False Acceptance Rate, FAR) 和漏报率 (False Rejection Rate, FRR) 相等时的错误率。EER 越低表示系统性能越好。在本文中，EER 用于衡量 WavLM-TDNN 说话人验证模型本身的性能，而不是 VALL-E 的性能。
数学公式： EER 是 FAR 和 FRR 曲线的交点，其中： $\mathrm{FAR}(T) = \frac{\text{错误接受数}(T)}{\text{所有非匹配尝试数}}$ $\mathrm{FRR}(T) = \frac{\text{错误拒绝数}(T)}{\text{所有匹配尝试数}}$ 其中 $T$ 是决策阈值。EER 满足 $\mathrm{FAR}(\mathrm{EER}) = \mathrm{FRR}(\mathrm{EER})$ 。
符号解释：
- $\mathrm{FAR}(T)$ ：在给定阈值 $T$ 下的虚警率（将不匹配错误地接受为匹配）。
- $\mathrm{FRR}(T)$ ：在给定阈值 $T$ 下的漏报率（将匹配错误地拒绝为不匹配）。
- $\text{错误接受数}(T)$ ：分数高于 $T$ 的非匹配对数量。
- $\text{所有非匹配尝试数}$ ：所有不属于同一人的语音对数量。
- $\text{错误拒绝数}(T)$ ：分数低于 $T$ 的匹配对数量。
- $\text{所有匹配尝试数}$ ：所有属于同一人的语音对数量。

5.2.5. 说话人相似度得分 (Speaker Similarity Score)

概念定义： 本文使用最先进的说话人验证模型 WavLM-TDNN [Chen et al., 2022] 来评估声学提示（解压后的注册语音）和合成语音之间的说话人相似度。WavLM-TDNN 预测一个介于 $[-1, 1]$ 之间的相似度分数，值越大表示输入样本的相似度越高。
数学公式： WavLM-TDNN 的输出是一个相似度分数，该分数通常通过计算两个语音嵌入向量之间的余弦相似度（或经过其他变换）获得。对于两个语音嵌入向量 $e_1$ 和 $e_2$ ，相似度分数 $S$ 可以表示为： $S = \frac{e_1 \cdot e_2}{\|e_1\| \|e_2\|}$ 或者 WavLM-TDNN 可能使用一个分类头输出一个分数，该分数通过模型内部的逻辑回归或类似机制映射到 $[-1, 1]$ 范围。具体计算方式依赖于 WavLM-TDNN 模型的内部实现，但核心是衡量嵌入空间中的距离或相似性。
符号解释：
- $S$ ：说话人相似度分数，由 WavLM-TDNN 模型输出。
- $e_1$ ：第一个语音片段（如提示语音）的说话人嵌入向量。
- $e_2$ ：第二个语音片段（如合成语音）的说话人嵌入向量。
- $\cdot$ ：向量点积。
- $\|\cdot\|$ ：向量的欧几里得范数（长度）。

5.3. 对比基线

本文选择最先进的零样本 TTS 模型 YourTTS [Casanova et al., 2022b] 作为基线。

训练数据： YourTTS 在 VCTK [Veaux et al., 2016]、LibriTTS [Zen et al., 2019] 和 TTS-Portuguese [Casanova et al., 2022a] 的组合数据集上进行训练。
代表性： YourTTS 是一个零样本多说话人 TTS 系统，代表了当前级联 TTS 领域在零样本场景下的顶尖水平，因此是一个合适的比较对象。值得注意的是，YourTTS 在 VCTK 数据集上训练时见过其中 97 位说话人，而 VALL-E 在训练中未见过任何 VCTK 说话人，这使得 VALL-E 的零样本挑战更大。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. LibriSpeech 评估

在 LibriSpeech test-clean 数据集上进行零样本 TTS 评估，该数据集与 LibriLight 训练数据没有说话人重叠。选择 4 到 10 秒的样本，总计 2.2 小时。VALL-E 在每次合成时，随机选择同一说话人的另一段语音，裁剪 3 秒作为注册语音。VALL-E-continual 使用真实语音的前 3 秒作为注册语音。

以下是原文 Table 2 的结果：

model WER	SPK
GroundTruth 2.2	0.754
Speech-to-Speech Systems
GSLM 12.4 AudioLM* 6.0	0.126 -
TTS Systems
YourTTS 7.7	0.337
VALL-E 5.9	0.580
VALL-E-continual 3.8	0.508

表格分析：

鲁棒性 (WER)： VALL-E 的 WER 为 5.9，显著低于 YourTTS 的 7.7，表明其在内容生成方面的鲁棒性更强，更少出现词语的删除、插入或替换错误。VALL-E-continual 的 WER 进一步降低到 3.8，接近真实语音 (GroundTruth 2.2)，这得益于其前 3 秒声学词元来自真实语音。
说话人相似度 (SPK)： VALL-E 的 SPK 得分为 0.580，远高于 YourTTS 的 0.337，表明 VALL-E 在克隆未见说话人声音方面的能力显著优于基线。VALL-E-continual 的 SPK 得分为 0.508，略低于 VALL-E，但仍远高于 YourTTS。真实语音的 SPK 得分为 0.754，为上限。
与语音到语音系统的比较： VALL-E 在 WER 方面也优于 GSLM (12.4) 和 $AudioLM*$ (6.0)。这主要归因于 VALL-E 使用伪音素 (pseudo-phoneme) 进行训练，其与输入文本的对齐质量更好。GSLM 的 SPK 得分非常低 (0.126)，因为 HuBERT 编码会丢弃说话人身份信息。

以下是原文 Table 3 的结果：

SMOS CMOS (v.s. VALL-E)
YourTTS 3.45±0.09 -0.12
VALL-E 4.38±0.10 0.00
GroundTruth 4.5±0.10 +0.17

表格分析：

说话人相似度 (SMOS)： VALL-E 的 SMOS 达到 4.38，非常接近真实语音的 4.5，且显著高于 YourTTS 的 3.45。这强有力地证明了 VALL-E 在零样本场景下克隆未见说话人声音的卓越效果。
语音自然度 (CMOS)： VALL-E 的 CMOS 相对于基线 YourTTS 为 0.12，表明其合成语音的自然度和真实感优于基线。虽然真实语音的 CMOS 相对 VALL-E 为 0.17，但差异不大，说明 VALL-E 的语音自然度已经非常高。

6.1.2. VCTK 评估

在 VCTK 数据集上进行评估，该数据集包含 108 位说话人，其中没有一位说话人被 VALL-E 在训练期间见过。YourTTS 在训练时见过 VCTK 中的 97 位说话人。以下是原文 Table 6 的结果：

	3s prompt			5s prompt			10s prompt
	YourTTS*	VALL-E	GroundTruth	YourTTS*	VALL-E	GroundTruth	YourTTS*	VALL-E	GroundTruth
108 full speakers
SPK Score	0.357	0.382	0.546	0.377	0.423	0.591	0.394	0.484	0.620
11 unseen speakers
SPK Score	0.331	0.389	0.528	0.337	0.380	0.586	0.344	0.414	-

表格分析：

总体表现 (108 位说话人)： 尽管 $YourTTS*$ 在训练时见过 97 位 VCTK 说话人，VALL-E 却在所有提示时长下都取得了更高的 SPK 分数。例如，在 3 秒提示下，VALL-E (0.382) 优于 $YourTTS*$ (0.357)。这表明 VALL-E 具有更强的泛化能力，能够更好地捕获未见说话人的声音特性。
公平比较 (11 位未见说话人)： 在更公平的比较（仅针对 YourTTS 也未见过的 11 位说话人）中，VALL-E 的领先优势更加明显。例如，在 3 秒提示下，VALL-E (0.389) 显著高于 YourTTS (0.331)。
提示时长影响： 随着提示时长的增加（从 3 秒到 10 秒），VALL-E 的 SPK 分数持续提高，这与直觉相符，更长的提示提供了更多说话人信息。

以下是原文 Table 7 的结果：

SMOS CMOS (v.s. VALL-E)
YourTTS* 3.70±0.09 -0.23
VALL-E 3.81±0.09 0.00
GroundTruth 4.29±0.09 -0.04

表格分析：

说话人相似度 (SMOS)： VALL-E 的 SMOS 为 3.81，高于 $YourTTS*$ 的 3.70，再次证实了 VALL-E 在未见说话人相似度方面的优势。尽管 VCTK 包含更多口音，对模型是更大的挑战，VALL-E 仍表现良好。
语音自然度 (CMOS)： VALL-E 的 CMOS 相对于 $YourTTS*$ 为 0.23，表明其语音自然度显著优于基线。更令人印象深刻的是，VALL-E 相对于真实语音的 CMOS 为 -0.04，这意味着合成语音的自然度与真实录音之间没有统计学上的显著差异，甚至在某些方面（如平均句子长度较短和真实语音可能包含噪声）表现出更好的感知质量。

6.1.3. 定性分析

6.1.3.1. 多样性 (Diversity)

传统 TTS 系统往往在输入文本和输出波形之间存在强烈的“一对一”映射，缺乏随机性。由于 VALL-E 使用基于采样的解码方法生成离散词元，其输出对于相同的输入文本是多样化的。

以下是原文 Figure 4 的内容：

该图像是两幅声波图，展示了不同时间段的声音幅度变化。上图和下图分别表示了相同文本的音频信号，横轴为时间（秒），纵轴为幅度。图中音频片段包含了'after early nightfall'等句子。

图 4(a) 展示了一个 LibriSpeech 样本的两次合成结果波形图。两次合成的语音长度和短语持续时间不同，其中第一个样本语速较快。

该图像是一个示意图，上面显示了两段语音信号的波形图。上方波形代表较低的幅度变化，而下方波形表现出更丰富的细节和幅度变化，这可能与不同的人声特征或情感表达有关。

图 4(b) 展示了一个 VCTK 样本的两次合成结果波形图。两次合成的口音不同，第二个输出在“must”这个词上强调更强，幅度更大。

这种多样性对于某些下游任务非常重要，例如语音识别任务通常受益于具有不同说话人和声学环境的多样化输入，而这是传统 TTS 系统难以提供的。VALL-E 的多样性特征使其成为生成语音识别伪数据的理想选择。

6.1.3.2. 声学环境维护 (Acoustic Environment Maintenance)

VALL-E 能够保持声学提示中的声学环境。例如，当声学提示包含混响时，VALL-E 也能合成带有混响的语音，而基线模型通常输出干净的语音。这表明 VALL-E 在大规模数据集上训练使其能够学习并迁移不同的声学条件，而不仅仅是干净的环境。

6.1.3.3. 说话人情感维护 (Speaker's Emotion Maintenance)

VALL-E 还能在零样本设置下保留提示中的情感。即使模型未在情感 TTS 数据集上进行微调，当使用来自情感数据集（如 EmoV-DB [Adigwe et al., 2018]）的声学提示时，VALL-E 也能在合成语音中保持相同的情感。这进一步展示了模型从声学提示中捕捉丰富信息的能力。

6.2. 数据呈现 (表格)

6.2.1. VALL-E 与当前级联 TTS 系统的比较

以下是原文 Table 1 的结果：

	Current Systems	VALL-E
Intermediate representation	mel spectrogram	audio codec code
Objective function	continuous signal regression	language model
Training data	≤ 600 hours	60K hours
In-context learning	X	✓

表格分析： 该表格清晰地对比了 VALL-E 和当前级联 TTS 系统的主要创新点：

中间表示 (Intermediate representation)： VALL-E 使用 audio codec code，而当前系统使用 mel spectrogram。
目标函数 (Objective function)： VALL-E 采用 language model 目标，当前系统则采用 continuous signal regression。
训练数据 (Training data)： VALL-E 使用高达 60K hours 的数据，远超当前系统的 $≤ 600 hours$ 。
上下文学习 (In-context learning)： VALL-E 具备此能力 (✓)，而当前系统不具备 (X)。

6.3. 消融实验/参数分析

6.3.1. NAR 模型消融研究

为了研究 NAR 模型的不同提示对性能的影响，作者进行了消融实验。在这些实验中，NAR 模型总是使用真实的第一个量化器声学词元作为输入。以下是原文 Table 4 的结果：

	NAR-no prompt	NAR-phn prompt	NAR-2 prompts
WER	19.6	3.0	2.8
SPK	0.518	0.541	0.732

表格分析：

NAR-no prompt (无任何提示)： WER 高达 19.6，SPK 为 0.518。即使输入是真实的第一个量化器声学词元，没有提示的模型性能也很差。这表明模型需要额外的上下文信息来生成正确的语音。
NAR-phn prompt (仅音素提示)： WER 大幅下降到 3.0，SPK 略微提升到 0.541。这表明音素提示主要贡献于生成内容的准确性（鲁棒性）。
NAR-2 prompts (音素提示 + 声学词元提示)： WER 进一步略微下降到 2.8，SPK 显著提升到 0.732。这验证了声学词元提示对学习和保持说话人身份信息至关重要。

6.3.2. AR 模型消融研究

在这些实验中，NAR 模型始终使用 NAR-2 prompts 设置。以下是原文 Table 5 的结果：

	WER	SPK
VALL-E	5.9	0.585
w/o acoustic prompt	5.9	0.236

表格分析：

VALL-E (完整模型)： WER 为 5.9，SPK 为 0.585。
w/o acoustic prompt (AR 模型无声学提示)： WER 保持在 5.9，但 SPK 急剧下降到 0.236。这表明，即使 NAR 模型看到了声学提示，AR 模型中的声学提示对于说话人身份的保持也极其关键。AR 模型中的声学提示作为前缀，为第一个量化器编码的生成提供了重要的说话人信息，影响了后续所有量化器的生成。

7. 总结与思考

7.1. 结论总结

本文介绍了 VALL-E，一种创新的文本到语音合成 (TTS) 语言模型方法。VALL-E 将 TTS 任务重新定义为基于音频编解码器离散编码的条件语言建模问题，而非传统的连续信号回归。通过在 60K 小时大规模语音数据上进行预训练，VALL-E 展现出强大的上下文学习能力，仅需 3 秒的未见说话人录音作为声学提示，即可合成高质量的个性化语音。实验结果表明，VALL-E 在语音自然度 (CMOS) 和说话人相似度 (SMOS) 方面显著超越了最先进的零样本 TTS 系统。此外，VALL-E 还能在合成中保留声学提示的声学环境和说话人情感，并通过采样解码提供多样化的输出。

7.2. 局限性与未来工作

尽管 VALL-E 取得了显著进展，但也存在一些局限性，并指出了未来的研究方向：

合成鲁棒性 (Synthesis robustness)： VALL-E 有时会出现词语不清晰、遗漏或重复的问题。这主要是因为音素到声学的语言部分是一个自回归模型，其中可能存在无序的注意力对齐，且缺乏解决此问题的约束。未来可以通过引入非自回归模型或修改注意力机制来解决这一问题。
数据覆盖 (Data coverage)： 尽管使用了 60K 小时的数据进行训练，但仍未能完全覆盖所有人的声音，特别是带有特定口音的说话人。VCTK 数据集上相对 LibriSpeech 较差的结果也暗示了口音说话人覆盖不足的问题。此外，LibriLight 主要是有声读物数据集，导致训练数据中的说话风格多样性不足。未来计划进一步扩大训练数据规模，以提升模型在韵律、说话风格和说话人相似度方面的性能。作者相信通过模型和数据规模的进一步扩大，零样本 TTS 任务将能够得到接近解决。
模型结构 (Model Structure)： 当前模型使用两个独立的模型来预测不同量化器的编码。一个有前景的方向是使用一个大型的通用模型来预测所有量化器的编码。另一个有趣的方向是采用完全非自回归模型以加速模型推理。
伦理影响 (Broader impacts)： VALL-E 能够合成保持说话人身份的语音，这带来了潜在的滥用风险，例如语音身份欺骗 (spoofing voice identification) 或冒充特定说话人。为了缓解这些风险，可以构建检测模型来区分音频是否由 VALL-E 合成。微软也将根据其人工智能原则 (Microsoft AI Principles) 进一步开发模型。

7.3. 个人启发与批判

7.3.1. 个人启发

数据规模的重要性： VALL-E 的成功再次强调了在深度学习时代，数据规模对于模型泛化能力和新兴能力（如上下文学习）的重要性，即使数据质量不完美（半监督、有噪声），通过规模化也能取得突破。这启发我们，在其他复杂的生成任务中，如果能有效利用大规模、多样化的弱标注或无标注数据，或许也能解锁类似的能力。
离散化思维： 将连续信号（语音）转化为离散编码（音频词元）是核心创新点。这种离散化处理方法使得语音任务能够利用语言模型在文本领域积累的丰富经验和强大架构。这提供了一种通用的范式，或许可以推广到其他连续信号处理领域（如视频、图像生成），通过离散化实现更灵活、更具泛化能力的生成模型。
Prompt Engineering 在生成任务中的潜力： VALL-E 成功地将文本语言模型中的提示 (prompting) 机制引入 TTS，实现了零样本上下文学习。这表明 prompt engineering 不仅仅局限于文本到文本任务，在多模态生成任务中，精心设计的提示（如声学提示、文本提示）同样可以成为引导模型行为、解锁新能力的关键。
分层解码策略： 结合自回归 (AR) 和非自回归 (NAR) 模型的分层解码策略是一个工程上的巧妙权衡。AR 模型处理关键的第一层编码以确保序列一致性和长度控制，而 NAR 模型处理后续细节层以提高并行性和推理速度。这种混合策略在保证质量的同时提升效率，对于复杂序列生成任务具有借鉴意义。
多功能性： 能够保持声学环境和情感，并生成多样化输出，这些“副产品”功能极大地扩展了 TTS 模型的应用场景，例如为语音识别任务生成多样化伪数据，或者实现更富有表现力的交互式语音助手。

7.3.2. 批判与潜在改进

鲁棒性问题： 论文承认了合成中存在词语不清晰、遗漏或重复的问题。这在实际应用中是致命的。虽然提到了通过非自回归模型或修改注意力机制来解决，但具体如何实施以及效果如何需要进一步验证。一个可能的方向是引入更强的长度或对齐约束，例如 FastSpeech 系列中使用的 duration predictor 或 alignment learning 机制，以确保音素与声学编码之间的一致性。
数据依赖性与泛化能力边界： 尽管使用了 60K 小时数据，但仍面临口音覆盖不足和说话风格单一的问题。这意味着模型的效果可能高度依赖于训练数据的多样性和代表性。对于小语种、特定口音或稀有说话风格，模型可能仍表现不佳。未来的工作应探索更有效的数据增强技术，或更高级的无监督/半监督学习方法，以超越现有数据的限制。例如，结合跨语言或跨领域的数据，通过迁移学习进一步提升泛化能力。
计算资源消耗： 60K 小时的训练数据和大型 Transformer 模型意味着巨大的计算资源需求，这限制了小型研究团队或个人复现和改进的可能性。未来的研究可以探索更高效的模型架构（如轻量级 Transformer）、知识蒸馏或更高效的训练策略，以降低计算成本。
伦理风险： 论文明确提到了语音身份欺骗的风险。虽然提出了检测模型作为缓解方案，但“魔高一尺道高一丈”的攻防战将持续存在。除了技术手段，还需要更完善的法律法规、行业标准和用户教育来应对这类风险。
AR-NAR 混合模型的复杂性： 尽管 AR-NAR 混合架构在速度和质量之间做了权衡，但它本质上是两个独立模型的组合，可能在训练和推理流程上引入额外的复杂性。未来如果能实现一个统一的、端到端的全非自回归模型，同时保持甚至超越当前质量，将是一个重大突破。
EnCodec 编解码器的依赖性： VALL-E 的性能高度依赖于底层 EnCodec 模型的质量。如果 EnCodec 在某些声学条件（如极端噪声、非标准语音）下表现不佳，那么 VALL-E 的整体性能也会受限。探索如何使 VALL-E 对 codec 的选择更具鲁棒性，或设计联合训练的 codec-LM 模型可能是值得探索的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

	SMOS	CMOS (v.s. VALL-E)
YourTTS	3.45±0.09	-0.12
VALL-E	4.38±0.10	0.00
GroundTruth	4.5±0.10	+0.17