论文状态：已完成

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

发表：2023/06/13

文本到语音合成 (4)样式扩散 (1)对抗训练 (1)大规模语音语言模型 (1)LJSpeech 数据集 (1)

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

论文介绍了StyleTTS 2，一个利用风格扩散和与大型语音语言模型对抗训练的文本到语音（TTS）模型。该模型通过将风格建模为潜在随机变量，有效生成自然且多样的语音合成，并在多个数据集上超越了人类录音，首次实现了人类水平的TTS合成。

摘要

In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at https://styletts2.github.io/.

思维导图

论文精读

中文精读约 50 分钟读完 · 32,019 字

1. 论文基本信息

1.1. 标题

StyleTTS 2：通过风格扩散和与大型语音语言模型对抗训练实现人类水平的文本到语音合成 (StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models)

1.2. 作者

Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani。作者主要来自哥伦比亚大学 (Columbia University)。

1.3. 发表期刊/会议

该论文发布于预印本平台 arXiv，原文链接为 https://arxiv.org/abs/2306.07691。该论文于 2023 年 6 月 13 日发布，状态为预印本 (preprint)，表明其可能尚未经过同行评审或已提交至会议/期刊但尚未正式发表。

1.4. 发表年份

2023 年 (UTC：2023-06-13T11:04:43.000Z)。

1.5. 摘要

本文介绍了 StyleTTS 2，一个文本到语音 (TTS) 模型，它利用风格扩散 (style diffusion) 和与大型语音语言模型 (SLMs) 对抗训练 (adversarial training) 来实现人类水平的 TTS 合成。StyleTTS 2 与其前身不同，它通过扩散模型 (diffusion models) 将风格建模为潜在随机变量，以生成最适合文本的风格，而无需参考语音 (reference speech)，从而实现了高效的潜在扩散，同时受益于扩散模型提供的多样化语音合成。此外，作者采用大型预训练的 SLMs，如 WavLM，作为判别器 (discriminators)，并结合其新颖的可微分持续时间建模 (differentiable duration modeling) 进行端到端 (end-to-end) 训练，从而提高了语音的自然度 (naturalness)。StyleTTS 2 在单说话人 LJSpeech 数据集上超越了人类录音，并在多说话人 VCTK 数据集上与其表现相当，均由英语母语者判断。此外，当在 LibriTTS 数据集上训练时，该模型在零样本说话人适应 (zero-shot speaker adaptation) 方面优于之前公开可用的模型。这项工作首次在单说话人和多说话人数据集上实现了人类水平的 TTS，展示了风格扩散和与大型 SLMs 对抗训练的潜力。音频演示和源代码可在 https://styletts2.github.io/ 获取。

1.6. 原文链接

https://arxiv.org/abs/2306.07691 PDF 链接: https://arxiv.org/pdf/2306.07691v2.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 尽管文本到语音 (Text-to-Speech, TTS) 合成技术近年来取得了显著进步，但实现鲁棒、易于访问且具有人类水平的合成语音仍然是一个持续的挑战。具体来说，现有研究在以下几个方面存在不足：

多样性和表现力 (Diverse and Expressive Speech)： 现有模型在生成具有丰富多样性和情感表达的语音方面仍有提升空间。
域外文本鲁棒性 (Robustness for Out-of-Distribution (OOD) Texts)： 对于训练数据分布之外的文本，模型的合成质量往往会下降。
零样本 TTS 系统的数据需求 (Massive Datasets for High-Performing Zero-Shot TTS Systems)： 实现高性能的零样本 TTS（即仅通过少量参考语音就能模仿新说话人的声音）通常需要海量的训练数据。

为什么这个问题在当前领域是重要的： TTS 技术广泛应用于虚拟助手、有声读物和配音等领域。语音的自然度和表现力直接影响用户体验。实现人类水平的 TTS 将极大地提升这些应用的真实感和实用性，并扩展其应用范围。同时，减少对大量参考语音的依赖，并提高对未见过文本的鲁棒性，对于 TTS 系统的实际部署和普及至关重要。

这篇论文的切入点或创新思路： StyleTTS 2 构建在其前身 StyleTTS 模型的基础上，通过引入以下创新点来解决上述挑战：

风格扩散 (Style Diffusion)： 将语音风格建模为潜在随机变量，并使用扩散模型对其进行采样。这使得模型无需参考语音即可生成适合文本的风格，同时继承了扩散模型生成多样化语音的能力。相比其他扩散 TTS 模型，StyleTTS 2 仅采样固定长度的风格向量，而非整个语音，提高了效率。
与大型语音语言模型 (SLM) 对抗训练： 利用大型预训练的 SLM（如 WavLM）作为判别器，通过对抗训练将 SLM 的丰富语音知识迁移到 TTS 生成任务中，以提高合成语音的自然度。
可微分持续时间建模 (Differentiable Duration Modeling)： 提出一种新颖的可微分持续时间建模方法，实现模型的端到端 (End-to-End, E2E) 训练，进一步优化语音自然度。

2.2. 核心贡献/主要发现

论文最主要的贡献：

引入风格扩散模型： 首次将扩散模型应用于固定长度的风格向量采样，在不依赖参考语音的情况下生成多样且具有表现力的语音风格，同时保持高效的推理速度。
利用大型 SLM 进行对抗训练： 将预训练的 SLM（如 WavLM）作为判别器，通过对抗训练将 SLM 的深度语音表示知识有效迁移到 TTS 生成任务中，显著提升了合成语音的自然度。
提出新颖的可微分持续时间建模： 解决了传统持续时间建模方法在端到端对抗训练中的不稳定性问题，实现了稳定且高质量的端到端 TTS 训练。
在公开数据集上实现人类水平 TTS： StyleTTS 2 首次在公开可用的单说话人 (LJSpeech) 和多说话人 (VCTK) 数据集上达到了人类水平的语音合成质量。

论文得出了哪些关键的结论或发现：

超越人类录音 (LJSpeech)： 在单说话人 LJSpeech 数据集上，StyleTTS 2 的合成语音在自然度方面超越了人类录音，获得了具有统计学意义的更高平均意见得分 (Comparative Mean Opinion Score, CMOS)。
媲美人类录音 (VCTK)： 在多说话人 VCTK 数据集上，StyleTTS 2 在自然度和相似度方面与人类录音表现相当。
零样本适应能力强且数据高效 (LibriTTS)： 在 LibriTTS 数据集上的零样本说话人适应任务中，StyleTTS 2 在自然度方面优于 Vall-E 等大型模型，并且仅使用了 Vall-E 约 1/250 的训练数据量，展示了其卓越的数据效率。
对域外文本的鲁棒性 (OOD Robustness)： StyleTTS 2 在面对域外文本时，其合成质量没有明显下降，且显著优于其他模型。
多样化风格生成： 风格扩散过程能够有效地分离不同的情感风格和说话人风格，生成具有高度多样性的语音。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 文本到语音 (Text-to-Speech, TTS)

概念定义： 文本到语音 (Text-to-Speech, TTS) 是一种将书面文本转换为人类语音的技术。其目标是生成听起来自然、清晰且具有表现力的语音。一个典型的 TTS 系统通常包括文本前端（将文本转换为音素序列和韵律信息）和声学模型（将音素和韵律信息转换为声学特征，如梅尔频谱）以及声码器（将声学特征转换为可听的波形）。

3.1.2. 扩散模型 (Diffusion Models)

概念定义： 扩散模型 (Diffusion Models) 是一类生成模型，它们通过模拟一个逐步添加噪声的前向扩散过程，然后学习一个逆向去噪过程来生成数据。在训练时，模型学习如何从一个含有噪声的数据点恢复原始数据。在生成时，模型从一个纯噪声数据点开始，通过多次迭代去噪，逐渐生成清晰的数据样本。 设计目标： 扩散模型在图像和音频生成领域展现了强大的生成能力和样本多样性。它们通过对数据分布的细致建模，能够生成高质量、高保真度的样本。 与本文关联： StyleTTS 2 利用扩散模型来生成语音的风格向量，而不是直接生成整个语音的声学特征或波形，从而实现了高效且多样化的风格生成。

3.1.3. 对抗生成网络 (Generative Adversarial Networks, GANs)

概念定义： 对抗生成网络 (Generative Adversarial Networks, GANs) 是一种由两个神经网络（生成器 G 和判别器 D）相互博弈而组成的生成模型。生成器 G 学习生成与真实数据相似的假数据，而判别器 D 则学习区分真实数据和生成器生成的数据。这两个网络在一个零和博弈中相互优化：G 努力欺骗 D，D 努力正确识别。最终目标是 G 能够生成 D 无法区分真假的逼真数据。 与本文关联： StyleTTS 2 使用 GANs 的思想，其中生成器负责合成语音，而判别器（特别是基于大型语音语言模型 SLM 的判别器）则评估合成语音的自然度，从而驱动生成器生成更逼真的语音。

3.1.4. 语音语言模型 (Speech Language Models, SLMs)

概念定义： 语音语言模型 (Speech Language Models, SLMs) 是在大量未标注语音数据上通过自监督学习 (self-supervised learning) 预训练的大型神经网络模型。它们学习从原始语音波形中提取丰富的、上下文相关的表示 (representations)，这些表示编码了从声学到语义的各种信息，例如音素、语调、说话人特征甚至词汇含义。 常见模型： Wav2Vec 2.0、HuBERT、WavLM 等都是著名的 SLM。 与本文关联： StyleTTS 2 创新性地利用预训练的 WavLM 模型作为其对抗训练中的判别器，将 WavLM 中编码的丰富的语音知识迁移到 TTS 任务中，以提高合成语音的自然度和质量。

3.1.5. 平均意见得分 (Mean Opinion Score, MOS)

概念定义： 平均意见得分 (Mean Opinion Score, MOS) 是一种广泛用于评估语音质量和自然度的主观评价指标。受试者（通常是母语听众）根据预先设定的评分标准（例如 1 到 5 分，1 表示完全不自然，5 表示完全自然）对语音样本进行评分，最终的 MOS 是所有评分的平均值。 与本文关联： 本文使用 MOS 及其变体 CMOS 来评估 StyleTTS 2 生成语音的自然度和与参考说话人的相似度。

3.1.6. 对比平均意见得分 (Comparative Mean Opinion Score, CMOS)

概念定义： 对比平均意见得分 (Comparative Mean Opinion Score, CMOS) 是 MOS 的一种增强形式，用于更精细地比较两个语音样本的相对质量。受试者会听到两个语音样本（例如，A 和 B），然后被要求评估 B 相对于 A 的质量，通常在一个 -3 到 +3 或 -6 到 +6 的量表上评分（例如，+3 表示 B 明显优于 A，0 表示两者相当，-3 表示 B 明显差于 A）。CMOS 比传统 MOS 更能捕捉细微的质量差异，并用于判断统计学意义上的显著性。 与本文关联： 本文使用 CMOS 来确定 StyleTTS 2 相较于人类录音和其他基线模型在自然度和相似度上的统计学显著性差异。

3.2. 前人工作

3.2.1. 扩散模型在语音合成中的应用

Mel-based TTS： 扩散模型已被应用于基于梅尔频谱 (mel-spectrogram) 的文本到语音，如 Diff-TTS [16]、GradTTS [17] 等。它们通过迭代去噪梅尔频谱来生成声学特征。 Mel-to-waveform 声码器： 扩散模型也用于将梅尔频谱转换为波形，充当声码器 (vocoder)，例如 WaveGrad [21]、DiffWave [22]。 端到端语音生成： 还有一些工作尝试直接生成端到端语音，如 WaveGrad 2 [27]、FastDiff [28]、NaturalSpeech 2 [29]。 局限性： 传统的扩散模型通常需要多次迭代采样，其效率低于基于 GAN 的非迭代方法。此外，有研究表明，最先进的 GAN 模型在语音合成方面仍优于扩散模型 [26, 33]。 StyleTTS 2 的改进： StyleTTS 2 通过引入“风格扩散 (style diffusion)”来解决效率问题，仅对固定长度的风格向量进行扩散采样，而不是整个语音，从而显著提高了模型速度，并实现了端到端训练。

3.2.2. 基于大型语音语言模型 (SLM) 的 TTS

SLM 特征用于 TTS： 近年来，大型自监督 SLM（如 Wav2Vec 2.0 [9]、HuBERT [10]、WavLM [11]）被证明能有效提升 TTS 质量 [34, 35, 36, 37] 和说话人适应能力 [8, 38, 29, 39]。这些方法通常将文本输入转换为从预训练 SLM 派生出的连续或量化表示，用于语音重建。 两阶段训练问题： 然而，SLM 特征并非直接为语音合成优化，将 SLM 作为神经编解码器 (neural codec) [34, 35, 8, 29] 通常涉及两阶段训练。 StyleTTS 2 的创新： StyleTTS 2 通过对抗训练，直接利用 SLM 的特征，而无需进行潜在空间映射，从而直接学习为语音合成优化的潜在空间，实现了端到端训练，代表了 SLM 在 TTS 中应用的新方向。

3.2.3. 人类水平 TTS

VITS [3]： 展示了在 LJSpeech 和 VCTK 数据集上可与人类录音媲美的 MOS。它使用条件变分自编码器 (Conditional Variational Autoencoder, CVAE) 和对抗训练。 PnG-BERT [4]： 在专有数据集上获得了人类水平的结果，它利用了 BERT 预训练技术。 NaturalSpeech [5]： 通过 BERT 预训练、端到端训练和可微分持续时间建模等技术，在 LJSpeech 上实现了 MOS 和 CMOS 统计学上与人类录音无差别的结果。 StyleTTS [6]： StyleTTS 2 的前身，是一个基于风格的生成模型，利用风格编码器从参考音频中提取风格向量，实现自然和多样化的语音生成，但存在两阶段训练、依赖参考语音等局限性。 StyleTTS 2 的突破： StyleTTS 2 进一步提升了语音质量，在 LJSpeech 上超越了人类录音，在 VCTK 上与其持平，设定了人类水平 TTS 的新标准。它也强调了评估程序细节披露的重要性 [43]。

3.3. 技术演进

TTS 领域的技术演进经历了从早期的拼接合成 (concatenative synthesis) 到参数合成 (parametric synthesis)，再到近年的神经文本到语音 (Neural TTS, NTTS) 的发展。NTTS 利用深度学习模型，显著提升了合成语音的自然度和表现力。

自回归模型 (Autoregressive Models)： 早期 NTTS 模型如 Tacotron [65] 和 WaveNet [66] 采用自回归方式，逐帧生成声学特征或波形，能生成高质量语音，但推理速度慢。
非自回归模型 (Non-Autoregressive Models)： 为解决速度问题，非自回归模型如 FastSpeech [67] 及其后续 FastSpeech 2 [68] 出现。它们通过引入持续时间预测器 (duration predictor) 和韵律预测器 (prosody predictor) 来并行生成声学特征，大大加快了推理速度。
端到端模型 (End-to-End Models)： 进一步发展是端到端训练，将声学模型和声码器整合，直接从文本生成波形，如 VITS [3] 和 JETS [32]，消除了两阶段训练带来的质量损失。
风格控制与多样性： StyleTTS [6] 等模型开始关注语音风格（如情感、语速）的精细控制和多样化生成。
大型预训练模型 (Large Pre-trained Models)： 随着大型语言模型和语音语言模型的发展，这些预训练模型被引入 TTS 领域，以利用其丰富的语言和语音知识，如 PnG-BERT [4] 和 NaturalSpeech [5] 使用 BERT，Vall-E [8] 利用神经编解码器语言模型。
扩散模型引入： 扩散模型作为新的生成范式，因其在多样性生成方面的优势而被引入 TTS，StyleTTS 2 正是这一趋势的代表，它将扩散模型与风格控制和大型 SLM 结合。

StyleTTS 2 处于这一技术脉络的前沿，它结合了非自回归、端到端、风格控制、大型预训练模型（SLM 作为判别器）和扩散模型（用于风格）的优点，旨在克服现有模型的局限性，实现更自然、更具表现力且鲁棒的人类水平 TTS。

3.4. 差异化分析

StyleTTS 2 在其前身 StyleTTS [6] 的基础上进行了显著改进，并与当前的先进模型（如 NaturalSpeech [5]、VITS [3] 和 Vall-E [8]）拉开了差距：

风格建模：
- StyleTTS： 依赖于从参考音频中编码风格向量，需要参考语音输入。
- StyleTTS 2： 将风格建模为潜在随机变量，并通过扩散模型进行采样，无需参考语音即可生成多样化的风格。这使得它比 StyleTTS 更灵活，更适用于没有参考语音的场景，同时比其他扩散 TTS 模型更高效（因为它只扩散风格向量而不是整个语音）。
训练范式：
- StyleTTS： 采用两阶段训练过程（声学模块训练和 TTS 预测模块训练），且需要额外的声码器将梅尔频谱转换为波形，可能导致样本质量下降。
- StyleTTS 2： 实现端到端 (E2E) 训练，直接从文本生成波形，消除了声码器引入的质量损失。这通过其新颖的可微分持续时间建模和直接波形合成来实现。
判别器和知识迁移：
- StyleTTS： 使用传统的梅尔频谱判别器。
- StyleTTS 2： 创新性地采用大型预训练的语音语言模型 (SLM)，如 WavLM，作为判别器。这使得模型能够从 SLM 中学习到丰富的语音表示知识，从而显著增强合成语音的自然度，这与 NaturalSpeech [5] 等模型使用 BERT 编码器（文本端）有所不同，StyleTTS 2 利用的是语音端的 SLM。
性能表现：
- StyleTTS [6]、VITS [3]、NaturalSpeech [5]： 这些模型在某些数据集上达到了接近或统计学上不可区分于人类录音的 MOS/CMOS。
- StyleTTS 2： 在 LJSpeech 数据集上，StyleTTS 2 在自然度方面超越了人类录音（CMOS 为 +0.28，p < 0.05），在 VCTK 数据集上与人类录音表现相当（CMOS 为 -0.02，p >> 0.05）。这是首次在公开的单说话人和多说话人数据集上实现人类水平的 TTS。
零样本适应与数据效率：
- Vall-E [8]： 虽然在零样本适应方面表现出色，但需要高达 60k 小时的训练数据。
- StyleTTS 2： 仅使用 245 小时训练数据，在零样本适应任务中超越了 Vall-E 的自然度，虽然相似度略低，但其数据效率是 Vall-E 的 250 倍，使其成为一个更具吸引力的替代方案。
域外文本鲁棒性：
- 其他模型： 在面对域外文本 (OOD texts) 时，通常表现出质量下降。
- StyleTTS 2： 展现出强大的泛化能力和对域外文本的鲁棒性，合成质量没有下降。

4. 方法论

4.1. 方法原理

StyleTTS 2 的核心思想是将语音风格作为潜在随机变量，并通过扩散模型进行高效采样，同时利用大型预训练的语音语言模型 (SLM) 进行对抗训练以提升语音自然度。

其方法原理可以概括为以下几点：

风格与内容解耦： 模型将语音分解为文本内容和语音风格。文本内容由文本编码器处理，而语音风格则由风格编码器或风格扩散模型生成。这种解耦使得风格可以独立于文本进行操纵和生成。
风格的随机生成： StyleTTS 2 的创新点在于，它不依赖于参考音频来提取风格，而是将风格视为一个由输入文本条件化的潜在随机变量。通过风格扩散模型 (Style Diffusion)，模型可以直接从噪声中采样生成最适合当前文本的风格向量，从而实现多样化和富有表现力的语音合成。由于仅扩散一个固定长度的风格向量，而非整个语音波形或梅尔频谱，因此效率远高于传统的扩散 TTS 模型。
SLM 知识迁移： 为了达到人类级别的自然度，StyleTTS 2 利用了大型预训练的语音语言模型 (SLM)，如 WavLM，作为判别器。SLM 能够学习到语音中丰富的声学和语义信息，因此能够很好地区分真实语音和合成语音。通过对抗训练，SLM 判别器将这些深层语音知识隐式地传递给生成器，使得生成器能够合成出更接近真实人声的语音。
端到端可微分训练： 为了实现整个系统的联合优化，StyleTTS 2 提出了一种可微分持续时间建模 (Differentiable Duration Modeling) 方法。这解决了非自回归 TTS 模型中持续时间预测器输出与后续声学模型之间非可微分的对齐问题，使得整个从文本到波形的生成过程可以进行端到端的可微分训练，进一步提升了合成质量和稳定性。
直接波形合成： 模型直接生成波形，而不是先生成梅尔频谱再通过声码器转换。这消除了两阶段方法中声码器可能引入的质量损失，进一步提升了最终语音的保真度。

通过以上这些机制的协同作用，StyleTTS 2 能够高效、多样地生成具有人类级别自然度和表现力的合成语音。

4.2. 核心方法详解 (逐层深入)

4.2.1. StyleTTS 2 概述

StyleTTS 2 在 StyleTTS [6] 框架上进行了改进，旨在实现更高表现力的文本到语音 (TTS) 合成，达到人类水平的质量，并改善对域外 (out-of-distribution, OOD) 文本的性能。主要改进包括：引入端到端 (End-to-End, E2E) 训练过程，联合优化所有组件；直接波形合成；以及通过创新的可微分持续时间建模实现与大型语音语言模型 (SLM) 的对抗训练。语音风格被建模为通过扩散模型采样的潜在变量，从而无需参考音频即可生成多样化的语音。

下图（原文 Figure 1）展示了 StyleTTS 2 模型的训练和推理方案。

$该图像是StyleTTS 2模型的示意图，展示了其各个模块之间的数据流。图中包括音频样式编码器、文本编码器及风格扩散去噪器等，公式 $ln \\, eta \\, ilde{eta} \\, hicksim \\, ext{N}(P_{mean}, P_{std}^2)$ 表示参数的正态分布特性。$ 该图像是StyleTTS 2模型的示意图，展示了其各个模块之间的数据流。图中包括音频样式编码器、文本编码器及风格扩散去噪器等，公式 $ln \, eta \, ilde{eta} \, hicksim \, ext{N}(P_{mean}, P_{std}^2)$ 表示参数的正态分布特性。

该图像是示意图，展示了StyleTTS 2文本到语音合成模型的结构。图中包括声学文本编码器、韵律文本编码器、持续时间预测器和样式扩散采样器等模块。通过WavLM作为判别器，模型生成合成的波形并判断其真实性。框架说明了模型的端到端训练过程，强调了样式扩散和对抗训练的结合。 Figure 1: StyleTTS 2 的单说话人训练和推理方案。对于多说话人情况，声学和韵律风格编码器（记为 $\pmb{{\cal E}}$ ）首先获取目标说话人的参考音频 $\mathbf{{\cal x}}_{\mathrm{ref}}$ ，并生成参考风格向量 $\pmb{c} = \pmb{E}(\pmb{x}_{\mathrm{ref}})$ 。然后，风格扩散模型以 $\pmb{c}$ 作为参考来采样与 $\pmb{x}_{\mathrm{ref}}$ 对应的 $\pmb{s}_p$ 和 $\pmb{s}_a$ 。

图中 (a) 描绘了声学模块的预训练和联合训练过程。为了加速训练，预训练首先优化梅尔频谱重建，其被用于提供音高曲线的真实标注数据 (ground truth label)。持续时间预测器仅通过 $\mathcal{L}_{\mathrm{dur}}$ 进行训练。图中 (b) 描绘了 SLM 对抗训练和推理过程。WavLM 是预训练且未经过微调 (tuned) 的。与 (a) 不同，持续时间预测器通过可微分上采样，使用 $\mathcal{L}_{slm}$ (公式 5) 与所有组件进行端到端训练。这个过程在训练期间与 (a) 是分开的，因为输入文本可能不同，但在每个批次中，两个过程的梯度都会被累积以更新参数。

4.2.2. 端到端训练

端到端 (E2E) 训练优化了所有 TTS 系统组件以进行推理，而不依赖于任何固定组件，例如将梅尔频谱转换为波形的预训练声码器。为实现此目标，StyleTTS 2 对解码器 $G$ 进行了修改，使其能够直接从风格向量、对齐的音素表示以及音高和能量曲线生成波形。具体来说，他们移除了解码器用于梅尔频谱的最后一个投影层，并在其后添加了一个波形解码器。

StyleTTS 2 提出了两种类型的波形解码器：

HifiGAN-based 解码器： 基于 Hifi-GAN [30]，直接生成波形。
iSTFTNet-based 解码器： 基于 iSTFTNet [45]，生成幅度 (magnitude) 和相位 (phase)，然后通过逆短时傅里叶变换 (inverse short-time Fourier transform, iSTFT) 将其转换为波形，以实现更快的训练和推理。

在两种解码器中，都采用了 snake 激活函数 [46]，该函数在波形生成中被证明是有效的 [31]。每个激活函数之后都添加了一个自适应实例归一化 (adaptive instance normalization, AdaIN) 模块 [44]，以建模语音对风格的依赖性，类似于原始 StyleTTS 解码器。

判别器方面，StyleTTS 2 将 StyleTTS [6] 中的梅尔判别器替换为多周期判别器 (Multi-Period Discriminator, MPD) [30] 和多分辨率判别器 (Multi-Resolution Discriminator, MRD) [47]，并结合 LSGAN 损失函数 [48] 进行解码器训练。此外，还引入了截断逐点相对损失函数 (truncated pointwise relativistic loss function) [49] 来增强音质。

为了加速训练过程，特别是在风格编码器等关键组件上，StyleTTS 2 引入了一个预训练阶段。在联合优化所有组件之前，首先通过 $\mathcal{L}_{\mathrm{mel}}, \mathcal{L}_{\mathrm{adv}}, \mathcal{L}_{\mathrm{fm}}$ 和 TMA 目标预训练声学模块、音高提取器和文本对齐器 $N$ 个 epoch。这与 StyleTTS [6] 的第一阶段训练方式相同。尽管预训练可以加速收敛，但作者指出这不是绝对必要的，直接从头开始联合训练也能使模型收敛，只是速度较慢。

在声学模块预训练之后，进行联合优化 $\mathcal{L}_{\mathrm{mel}}, \mathcal{L}_{\mathrm{adv}}, \mathcal{L}_{\mathrm{fm}}, \mathcal{L}_{\mathrm{dur}}, \mathcal{L}_{\mathrm{f0}}$ 和 $\mathcal{L}_{\mathrm{n}}$ 。其中， $\mathcal{L}_{\mathrm{mel}}$ 被修改为匹配从预测音高 $\hat{p}_x$ 和能量 $\hat{n}_x$ 重构的波形的梅尔频谱。在联合训练期间，StyleTTS 2 观察到由于风格编码器需要同时编码声学和韵律信息，导致梯度发散，出现了稳定性问题。为解决此不一致性，他们引入了一个韵律风格编码器 $E_p$ ，与原始的声学风格编码器 $E_a$ （在 3.1 节中记为 $E$ ）并行。现在，预测器 $S$ 和 $P$ 接收 s_p = E_p(x) 作为输入风格向量，而不是 s_a = E_a(x)。风格扩散模型生成增强的风格向量 $s = [s_p, s_a]$ 。这一修改有效提高了样本质量。为了进一步解耦声学模块和预测器，他们将声学文本编码器 $T$ 的音素表示 $h_{\mathrm{text}}$ 替换为基于 BERT Transformer 的韵律文本编码器 $B$ 的 $h_{\mathrm{bert}}$ 。具体来说，他们使用在维基百科文章上预训练的音素级 BERT [7] 作为韵律文本编码器。这种方法已被证明能增强 StyleTTS 在第二阶段的自然度。

通过可微分上采样和快速风格扩散，StyleTTS 2 能够在训练期间以完全可微分的方式生成语音样本，就像推理时一样。这些样本用于在联合训练期间优化 $\mathcal{L}_{slm}$ (公式 5)，以更新所有组件的参数进行推理。

4.2.3. 风格扩散 (Style Diffusion)

在 StyleTTS 2 中，语音 $x$ 被建模为条件分布 $p(x|t) = \int p(x|t,s)p(s|t)ds$ ，其中 $s$ 是一个遵循分布 $p(s|t)$ 的潜在变量。作者称此变量为广义语音风格 (generalized speech style)，它代表语音中超出音素内容 $t$ 的任何特征，包括但不限于韵律 (prosody)、词汇重音 (lexical stress)、共振峰转换 (formant transitions) 和语速 (speaking rate) [6]。

风格向量 $s$ 通过 EDM [50] 进行采样，EDM 遵循组合概率流 (combined probability flow) [51] 和时变朗之万动力学 (time-varying Langevin dynamics) [52]： $s = \int - \sigma ( \tau ) \left[ \beta ( \tau ) \sigma ( \tau ) + \dot { \sigma } ( \tau ) \right] \nabla _ { s } \log p _ { \tau } ( s | t ) d \tau + \int \sqrt { 2 \beta ( \tau ) } \sigma ( \tau ) d \tilde { W } _ { \tau }$ 符号解释：

$s$ ：潜在风格向量。
$\sigma(\tau)$ ：噪声水平调度 (noise level schedule)，在时间 $\tau$ 下的噪声强度。
$\dot{\sigma}(\tau)$ ：噪声水平调度对时间 $\tau$ 的导数。
$\beta(\tau)$ ：随机性项 (stochasticity term)，控制扩散过程中的随机性。
$\tilde{W}_{\tau}$ ：在时间 $\tau \in [T, 0]$ 上的反向维纳过程 (backward Wiener process)。
$\nabla_s \log p_{\tau}(s|t)$ ：在时间 $\tau$ 下的得分函数 (score function)，表示数据分布 $p_{\tau}(s|t)$ 对 $s$ 的梯度，用于指导去噪方向。

作者遵循 EDM [50] 的公式，对去噪器 (denoiser) $K(s; t, \sigma)$ 进行预处理 (preconditioned) 如下： $K ( s ; t , \sigma ) : = \left( \frac { \sigma _ { \mathrm { d a t a } } } { \sigma ^ { * } } \right) ^ { 2 } s + \frac { \sigma \cdot \sigma _ { \mathrm { d a t a } } } { \sigma ^ { * } } \cdot V \left( \frac { s } { \sigma ^ { * } } ; t , \frac { 1 } { 4 } \ln \sigma \right)$ 符号解释：
$K(s; t, \sigma)$ ：预处理后的去噪器输出，预测的是无噪声的风格向量。
$\sigma$ ：噪声水平，遵循正态分布 $\ln \sigma \sim \mathcal{N}(P_{\mathrm{mean}}, P_{\mathrm{std}}^2)$ ，其中 $P_{\mathrm{mean}} = -1.2, P_{\mathrm{std}} = 1.2$ 。
$\sigma_{\mathrm{data}}$ ：风格向量的标准差，设置为 0.2。
$\sigma^* := \sqrt{\sigma^2 + \sigma_{\mathrm{data}}^2}$ ：缩放项 (scaling term)。
$V$ ：一个 3 层的 Transformer [53]，以文本 $t$ 和噪声水平 $\sigma$ 为条件。

去噪器 $V$ 的训练目标函数定义为： $\mathcal { L } _ { \mathrm { e d m } } = \mathbb { E } _ { \pmb { x } , \pmb { t } , \sigma , \pmb { \xi } \sim \mathcal { N } ( 0 , I ) } \left[ \lambda ( \sigma ) \left. K ( \pmb { E } ( \pmb { x } ) + \sigma \pmb { \xi } ; \pmb { t } , \sigma ) - \pmb { E } ( \pmb { x } ) \right. _ { 2 } ^ { 2 } \right]$ 符号解释：
$\mathcal{L}_{\mathrm{edm}}$ ：EDM 训练损失。
$\mathbb{E}[\cdot]$ ：期望。
$\pmb{x}$ ：真实语音波形。
$\pmb{t}$ ：输入文本。
$\sigma$ ：噪声水平。
$\pmb{\xi} \sim \mathcal{N}(0, I)$ ：标准正态分布噪声。
$\pmb{{\cal E}}(\pmb{x}) := [E_a(\pmb{x}), E_p(\pmb{x})]$ ：结合了声学风格编码器 $E_a$ 和韵律风格编码器 $E_p$ 的风格向量。
$\lambda(\sigma) := (\sigma^* / (\sigma \cdot \sigma_{\mathrm{data}}))^2$ ：加权因子 (weighting factor)。
$K(\cdot)$ ：预处理后的去噪器输出。

在这种框架下，方程式 16 变成一个常微分方程 (ODE)，其中得分函数依赖于 $\sigma$ 而不是 $\tau$ ： $\frac { d s } { d \sigma } = - \sigma \nabla _ { s } \log p _ { \sigma } ( s | t ) = \frac { s - K ( s ; t , \sigma ) } { \sigma } , s ( \sigma ( T ) ) \sim \mathcal { N } ( 0 , \sigma ( T ) ^ { 2 } I )$ 符号解释：
$\frac{ds}{d\sigma}$ ：风格向量 $s$ 随噪声水平 $\sigma$ 变化的速率。
$\nabla_s \log p_{\sigma}(s|t)$ ：在噪声水平 $\sigma$ 下的得分函数。
$s(\sigma(T))$ ：初始风格向量，从均值为 0、方差为 $\sigma(T)^2 I$ 的正态分布中采样。

与 EDM [50] 使用二阶 Heun 方法不同，StyleTTS 2 使用祖先 DPM-2 求解器 (ancestral DPM-2 solver) [54] 来求解方程式 4，以实现快速和多样化的采样，优先考虑速度而非精度。调度器 (scheduler) 与 [50] 相同，参数设置为 $\sigma_{\mathrm{min}} = 0.0001, \sigma_{\mathrm{max}} = 3, \rho = 9$ 。这种组合使得模型仅需三步即可采样风格向量进行高质量语音合成，这相当于运行一个 9 层的 Transformer 模型，对推理速度影响很小。

去噪器 $V$ 通过将 $h_{\mathrm{bert}}$ （来自韵律文本编码器）与带噪输入 $\pmb{{\cal E}}(\pmb{x}) + \sigma\pmb{\xi}$ 拼接来以文本 $t$ 为条件，并通过正弦位置嵌入 (sinusoidal positional embeddings) [53] 以 $\sigma$ 为条件。在多说话人设置中，模型通过 $K(s; t, c, \sigma)$ 建模 $p(s|t,c)$ ，其中包含一个额外的说话人嵌入 $\pmb{c} = \pmb{E}(\pmb{x}_{\mathrm{ref}})$ ，其中 $\mathbf{{\cal x}}_{\mathrm{ref}}$ 是目标说话人的参考音频。说话人嵌入 $c$ 通过自适应层归一化 (adaptive layer normalization) [6] 注入到 $V$ 中。

4.2.4. SLM 判别器 (SLM Discriminators)

语音语言模型 (SLM) 编码了从声学到语义的宝贵信息 [55]，并且 SLM 表示已被证明能模仿人类感知来评估合成语音质量 [45]。StyleTTS 2 创新性地将 SLM 编码器的知识通过对抗训练转移到生成任务中，采用一个在 94k 小时数据上预训练的 12 层 WavLM [11] 作为判别器。

由于 WavLM 的参数数量多于 StyleTTS 2，为避免判别器过度强大 (discriminator overpowering)，预训练的 WavLM 模型 $W$ 被固定，并在其后添加一个卷积神经网络 (CNN) $C$ 作为判别头 (discriminative head)。SLM 判别器被定义为 $D_{SLM} = C \circ W$ 。输入音频在送入 $D_{SLM}$ 之前下采样到 16 kHz，以匹配 WavLM 的输入要求。 $C$ 从所有层中汇集特征 $h_{\mathrm{SLM}} = W(x)$ ，并通过一个从 $13 \times 768$ 到 256 通道的线性映射。

生成器组件（包括 T, B, G, S, P, V，统称为 $G$ ）和 $D_{SLM}$ 的训练目标是优化以下损失函数： $\mathcal { L } _ { s l m } = \operatorname* { m i n } _ { \pmb { G } } \operatorname* { m a x } _ { D _ { S L M } } \left( \mathbb { E } _ { \pmb { x } } [ \log D _ { S L M } ( \pmb { x } ) ] + \mathbb { E } _ { t } [ \log \left( 1 - D _ { S L M } ( \pmb { G } ( t ) ) \right) ] \right)$ 符号解释：

$\mathcal{L}_{slm}$ ：SLM 对抗损失。
$\operatorname*{min}_{\pmb{G}} \operatorname*{max}_{D_{SLM}}$ ：表示生成器 $\pmb{G}$ 试图最小化损失，而判别器 $D_{SLM}$ 试图最大化损失，形成一个 Min-Max 博弈。
$\mathbb{E}_{\pmb{x}}[\log D_{SLM}(\pmb{x})]$ ：判别器 $D_{SLM}$ 对真实语音 $\pmb{x}$ 的判别结果的期望对数，希望接近 1。
$\mathbb{E}_{t}[\log(1 - D_{SLM}(\pmb{G}(t)))]$ ：判别器 $D_{SLM}$ 对生成语音 $\pmb{G}(t)$ 的判别结果的期望对数，希望接近 0。
$\pmb{G}(t)$ ：由生成器 $\pmb{G}$ 根据文本 $\pmb{t}$ 生成的语音。

[56] 的研究表明： $D _ { S L M } ^ { * } ( \pmb { x } ) = \frac { \mathbb { P } _ { W \circ \mathcal { T } } ( \pmb { x } ) } { \mathbb { P } _ { W \circ \mathcal { T } } ( \pmb { x } ) + \mathbb { P } _ { W \circ \mathcal { G } } ( \pmb { x } ) }$ 符号解释：
$D_{SLM}^*(\pmb{x})$ ：最优判别器。
$\mathbb{P}_{W \circ \mathcal{T}}(\pmb{x})$ ：真实数据分布 $\mathcal{T}$ 经过 WavLM 编码后在 SLM 表示空间中的概率密度。
$\mathbb{P}_{W \circ \mathcal{G}}(\pmb{x})$ ：生成数据分布 $\mathcal{G}$ 经过 WavLM 编码后在 SLM 表示空间中的概率密度。
$\mathcal{T}$ 和 $\mathcal{G}$ ：分别代表真实和生成的数据分布。

这意味着当模型收敛时，生成器 $G^*$ 将使得生成语音和真实语音在 SLM 表示空间中的分布相匹配，从而有效模仿人类感知，实现类似人类的语音合成。

在方程式 5 中，生成器损失独立于真实标注数据 $\pmb{x}$ ，仅依赖于输入文本 $\pmb{t}$ 。这使得模型可以在域外文本 (out-of-distribution, OOD) 上进行训练，这在 5.3 节中被证明可以改善 OOD 文本的性能。在实践中，为了防止 $D_{SLM}$ 对语音内容过拟合，作者以相同的概率从真实标注数据和 OOD 文本中采样文本进行训练。

4.2.5. 可微分持续时间建模 (Differentiable Duration Modeling)

持续时间预测器 (duration predictor) 产生音素持续时间 $d_{\mathrm{pred}}$ 。然而，3.1 节中描述的用于获取 $\pmb{a}_{\mathrm{pred}}$ 的上采样方法是不可微分的，这阻碍了梯度流进行端到端训练。NaturalSpeech [5] 采用基于注意力机制的上采样器 [42] 来实现人类水平的 TTS。然而，StyleTTS 2 发现这种方法在对抗训练期间不稳定，因为其模型仅使用公式 5 中描述的对抗目标进行训练，并且没有额外的损失项来处理由 $d_{\mathrm{pred}}$ 与真实标注持续时间 $d_{\mathrm{gt}}$ 偏差引起的长度不匹配。尽管这种不匹配可以通过软动态时间规整 (soft dynamic time warping) 来缓解，但这计算成本高昂且在梅尔重建和对抗目标下不稳定。为了在对抗训练中实现人类水平的性能，作者倾向于非参数上采样方法以获得稳定的训练。

高斯上采样 (Gaussian upsampling) [41] 是一种非参数方法，它使用高斯核 (Gaussian kernel) 将预测持续时间 $d_{\mathrm{pred}}$ 转换为 $\pmb{a}_{\mathrm{pred}}[n,i]$ ，其中高斯核以 $c_i := \ell_i - \frac{1}{2}d_{\mathrm{pred}}[i]$ 为中心，超参数为 $\sigma$ ： $\mathcal { N } _ { c i } ( n ; \sigma ) : = \exp \left( - \frac { ( n - c _ { i } ) ^ { 2 } } { 2 \sigma ^ { 2 } } \right) \qquad (7) \quad \ell _ { i } : = \sum _ { k = 1 } ^ { i } d _ { \mathrm { p r e d } } [ k ]$ 符号解释：

$\mathcal{N}_{ci}(n; \sigma)$ ：高斯核函数，给定中心 $c_i$ 和标准差 $\sigma$ 。
$n$ ：语音帧的索引。
$c_i$ ：第 $i$ 个音素的中心位置。
$\ell_i$ ：第 $i$ 个音素的结束位置，即前 $i$ 个音素预测持续时间的总和。
$d_{\mathrm{pred}}[k]$ ：第 $k$ 个音素的预测持续时间。

然而，高斯上采样由于其高斯核的固定宽度（由 $\sigma$ 决定）而存在局限性。这种限制使其无法准确建模随 $d_{\mathrm{pred}}$ 变化的对齐。非注意力 Tacotron [57] 通过使 $\sigma_i$ 可训练来扩展此方法，但训练参数引入了对抗损失进行端到端训练的不稳定性，类似于基于注意力机制的上采样器的问题。

StyleTTS 2 提出了一种新的非参数可微分上采样器，无需额外训练，同时考虑了对齐长度的变化。对于每个音素 $\Delta t_i$ ，将对齐建模为随机变量 $a_i \in \mathbb{N}$ ，表示音素 $\Delta t_i$ 所对齐的语音帧索引。将第 $i$ 个音素的持续时间定义为另一个随机变量 $d_i \in \{1, \ldots, L\}$ ，其中 $L=50$ 是最大音素持续时间超参数（在他们的设置中相当于 1.25 秒）。作者观察到 $a_i = \sum_{k=1}^i d_k$ ，但每个 $d_k$ 相互依赖，使得总和难以建模。相反，他们近似 $a_i = d_i + \ell_{i-1}$ 。 $a_i$ 的近似概率质量函数 (Probability Mass Function, PMF) 为： $f _ { a _ { i } } [ n ] = f _ { d _ { i } + \ell _ { i - 1 } } [ n ] = f _ { d _ { i } } [ n ] * f _ { \ell _ { i - 1 } } [ n ] = \sum _ { k } f _ { d _ { i } } [ k ] \cdot \delta _ { \ell _ { i - 1 } } [ n - k ]$ 符号解释：

$f_{a_i}[n]$ ：第 $i$ 个音素的对齐随机变量 $a_i$ 在位置 $n$ 处的 PMF。
$f_{d_i}[n]$ ：第 $i$ 个音素的持续时间随机变量 $d_i$ 在位置 $n$ 处的 PMF。
$f_{\ell_{i-1}}[n]$ ：前 i-1 个音素的总持续时间 $\ell_{i-1}$ 在位置 $n$ 处的 PMF。
*：卷积操作。
$\delta_{\ell_{i-1}}[n-k]$ ：克罗内克 delta 函数 (Kronecker delta function)，表示 $\ell_{i-1}$ 是一个常数。

由于 $\delta_{\ell_{i-1}}$ 是不可微分的，作者将其替换为公式 7 中定义的高斯核 $\mathcal{N}_{\ell_{i-1}}$ ，并设置 $\sigma = 1.5$ 。

为了建模 $f_{d_i}$ ，他们修改了持续时间预测器，使其输出 q[k, i]，表示第 $i$ 个音素持续时间至少为 $k$ 的概率（其中 $k \in \{1, \ldots, L\}$ ），并通过交叉熵损失进行优化，使其在 $d_{\mathrm{gt}} \ge k$ 时接近 1。在这种新方案下，可以近似计算 $d_{\mathrm{pred}}[i] := \sum_{k=1}^L q[k, i]$ ，并通过 $\mathcal{L}_{\mathrm{dur}}$ 训练以匹配 $d_{\mathrm{gt}}$ ，如 3.1 节所述。向量 q[:, i] 可以被视为 $f_{d_i}$ 的未归一化版本，尽管它被训练成在区间 $[1, d_i]$ 内均匀分布。由于语音帧数 $M$ 通常大于输入音素数 $N$ ，这种均匀分布将单个音素对齐到多个语音帧，这正是期望的效果。最后，作者在音素轴上对可微分近似 $\tilde{f}_{a_i}[n]$ 进行归一化，如 [41] 中所示，使用 softmax 函数获得 $\pmb{a}_{\mathrm{pred}}$ ： $a _ { \mathrm { p r e d } } [ n , i ] : = \frac { e ^ { \big ( \tilde { f } _ { a _ { i } } [ n ] \big ) ) } } { \displaystyle \sum _ { i = 1 } ^ { N } e ^ { \big ( \tilde { f } _ { a _ _ { i } } [ n ] \big ) } } \qquad (10) \qquad \tilde { f } _ { a _ { i } } [ n ] : = \sum _ { k = 0 } ^ { \hat { M } } q [ n , i ] \cdot \mathcal { N } _ { \ell _ { i - 1 } } ( n - k ; \sigma )$ 符号解释：

$a_{\mathrm{pred}}[n,i]$ ：归一化后的预测对齐矩阵，表示第 $n$ 帧语音与第 $i$ 个音素的对齐概率。
$\tilde{f}_{a_i}[n]$ ：未归一化的近似对齐，通过 q[n,i] 与高斯核 $\mathcal{N}_{\ell_{i-1}}(n-k; \sigma)$ 的卷积得到。
$\hat{M} := \lceil \ell_N \rceil$ ：预测的语音总持续时间。
$n \in \{1, \ldots, \hat{M}\}$ ：语音帧索引。

下图（原文 Figure 4）展示了 StyleTTS 2 提出的可微分持续时间上采样器。

$Figure 4: Illustration of our proposed differentiable duration upsampler. (a) Probability output from the duration predictor for 5 input tokens with $L = 5$ . (b) Gaussian filter $\\mathcal { N } _ { \\ell _ { i - 1 } }$ centered at $\\ell _ { i - 1 }$ . (c) Unnormalized predicted alignment $\\tilde { f } _ { a _ { i } } \[ n \]$ from the convolution operation between (a) and (b). (d) Normalized predicted alignment $\\pmb { a } _ { \\mathrm { p r e d } }$ over the phoneme axis.$ 该图像是一个示意图，展示了我们提出的可微分的持续时间上采样器。图(a)展示了持续时间预测器的输出，图(b)为以 $ilde{oldsymbol{L}}_{i-1}$ 为中心的高斯滤波器，图(c)是通过卷积操作得到的未归一化预测对齐，图(d)展示了在音素轴上的归一化预测对齐。 Figure 4: StyleTTS 2 提出的可微分持续时间上采样器的示意图。(a) 持续时间预测器对 5 个输入词元（ $L=5$ ）的概率输出。(b) 以 $\ell_{i-1}$ 为中心的高斯滤波器 $\mathcal{N}_{\ell_{i-1}}$ 。(c) 通过 (a) 和 (b) 之间的卷积操作得到的未归一化预测对齐 $\tilde{f}_{a_i}[n]$ 。(d) 在音素轴上归一化的预测对齐 $\pmb{a}_{\mathrm{pred}}$ 。

5. 实验设置

5.1. 数据集

实验在三个数据集上进行：LJSpeech、VCTK 和 LibriTTS。

LJSpeech 数据集 [12]：
- 来源与特点： 单说话人数据集，包含 13,100 个短音频片段，总时长约 24 小时，由一位阅读有声读物的女性播音员录制。文本主要来自公共领域的有声读物。
- 规模与分割： 训练集 12,500 个样本，验证集 100 个样本，测试集 500 个样本，与 [3, 5, 6] 采用相同的分割。
- 用途： 用于训练单说话人模型。
- 域外文本 (OOD Texts)： LJSpeech 实验还包括 40 个来自 Librivox 的发音，这些发音由 LJSpeech 的叙述者朗读，但内容来自原始数据集中没有的有声读物，作为 OOD 文本的真实标注数据 (ground truth)。
VCTK 数据集 [13]：
- 来源与特点： 多说话人数据集，包含来自 109 位母语者的近 44,000 个短音频片段，具有各种口音。文本内容通常是标准段落。
- 规模与分割： 训练集 43,470 个样本，验证集 100 个样本，测试集 500 个样本，与 [3] 采用相同的分割。
- 用途： 用于训练多说话人模型。
LibriTTS 数据集 [14]：
- 来源与特点： 大型多说话人数据集，从 LibriSpeech 衍生而来，包含约 245 小时的音频，来自 1,151 位说话人。用于零样本说话人适应 (zero-shot speaker adaptation)。
- 规模与分割： 排除长于 30 秒或短于 1 秒的语音。训练集占比 98%，验证集 1%，测试集 1%，与 [6] 保持一致。
- 用途： 训练零样本适应模型。测试集中的 test-clean 子集用于零样本适应评估，使用 3 秒参考片段。
- 域外文本 (OOD Texts)： LibriTTS 训练集中的文本被用作 SLM 对抗训练的 OOD 文本。

共同处理：

所有数据集都重新采样到 24 kHz，以匹配 LibriTTS。
文本使用 phonemizer [58] 转换为音素。

5.2. 评估指标

对论文中出现的每一个评估指标，进行详细说明：

5.2.1. 自然度平均意见得分 (Mean Opinion Score of Naturalness, MOS-N)

概念定义： MOS-N 衡量语音样本听起来与自然人类语音的相似程度。它旨在评估合成语音的整体流畅性、语调、发音和节奏等感知质量，是否能被听众接受为自然的人声。
数学公式： $\mathrm{MOS} = \frac{1}{N} \sum_{i=1}^{N} S_i$
符号解释：
- $\mathrm{MOS}$ ：平均意见得分。
- $N$ ：评估的语音样本数量或评估者数量。
- $S_i$ ：第 $i$ 个评估者对语音样本的评分（通常在 1 到 5 的范围内）。

5.2.2. 相似度平均意见得分 (Mean Opinion Score of Similarity, MOS-S)

概念定义： MOS-S 评估合成语音与给定参考说话人的声音特征（例如音色、口音、说话习惯）的相似程度。此指标在多说话人 TTS 和零样本说话人适应任务中尤为重要。
数学公式： 同 MOS-N。
符号解释： 同 MOS-N。

5.2.3. 对比平均意见得分 (Comparative Mean Opinion Score, CMOS)

概念定义： CMOS 是一种主观评估方法，用于比较两个语音样本（例如，模型 A 生成的语音和模型 B 生成的语音，或合成语音和真实语音）的相对质量。评估者会同时听取两个样本，并根据一个相对量表（通常是 -3 到 +3 或 -6 到 +6）来判断一个样本相对于另一个样本的优劣。CMOS 能更敏感地捕捉质量上的细微差异，并用于确定统计学上的显著性。
数学公式： $\mathrm{CMOS} = \frac{1}{N} \sum_{i=1}^{N} C_i$
符号解释：
- $\mathrm{CMOS}$ ：对比平均意见得分。
- $N$ ：评估者数量。
- $C_i$ ：第 $i$ 个评估者对两个样本相对质量的评分（通常在 -6 到 +6 的范围内）。

5.2.4. 梅尔倒谱失真 (Mel-Cepstral Distortion, MCD)

概念定义： MCD 是一种客观评估合成语音质量的指标，通过计算合成语音的梅尔倒谱系数 (Mel-Cepstral Coefficients, MCCs) 与真实语音的 MCCs 之间的距离来衡量。较低的 MCD 值表示合成语音在频谱特征上更接近真实语音，通常意味着更好的音质。
数学公式： $\mathrm{MCD} = \frac{10}{\ln 10} \sqrt{2 \sum_{k=1}^{D} (c_k^{\mathrm{syn}} - c_k^{\mathrm{gt}})^2}$
符号解释：
- $D$ ：梅尔倒谱系数的维度。
- $c_k^{\mathrm{syn}}$ ：合成语音的第 $k$ 个梅尔倒谱系数。
- $c_k^{\mathrm{gt}}$ ：真实语音的第 $k$ 个梅尔倒谱系数。
- $\frac{10}{\ln 10}$ ：一个常数，用于将结果转换为分贝 (dB) 单位，使其更具可解释性。
- 注意： MCD 通常需要在语音对齐后计算，例如使用动态时间规整 (Dynamic Time Warping, DTW)。

5.2.5. 语音长度加权梅尔倒谱失真 (Mel-Cepstral Distortion weighted by Speech Length, MCD-SL)

概念定义： MCD-SL 是 MCD 的一个变体，它不仅考虑了频谱特征的失真，还间接考虑了语音对齐的质量和长度。它通过对齐后的梅尔倒谱失真进行计算，并可能通过某种方式惩罚不佳的对齐或不匹配的语音长度，从而更全面地评估合成语音的质量。
数学公式： 通常，MCD-SL 是在计算 MCD 时，结合动态时间规整 (DTW) 算法，确保在计算距离之前，合成语音和真实语音的时间轴被最佳对齐。具体的加权方式可能因实现而异，但核心思想是强调对齐和长度匹配的重要性。如果两个语音的长度或对齐不匹配，即使局部频谱相似，MCD-SL 也会更高。 $\mathrm{MCD-SL} = \frac{10}{\ln 10} \frac{1}{\sum_{i=1}^M \omega_i} \sum_{i=1}^{M} \omega_i \sqrt{2 \sum_{k=1}^{D} (c_{i,k}^{\mathrm{syn}} - c_{i,k}^{\mathrm{gt}})^2}$ 其中 $\omega_i$ 可以是 DTW 路径上的权重或简单地为 1，M 表示对齐后的帧数。
符号解释：
- $M$ ：对齐后的语音帧数。
- $\omega_i$ ：第 $i$ 帧的权重。
- $c_{i,k}^{\mathrm{syn}}$ ：合成语音第 $i$ 帧的第 $k$ 个梅尔倒谱系数。
- $c_{i,k}^{\mathrm{gt}}$ ：真实语音第 $i$ 帧的第 $k$ 个梅尔倒谱系数。
- 其他符号同 MCD。

5.2.6. 对数 F0 音高均方根误差 (Root Mean Square Error of log F0 pitch, $F_0$ RMSE)

概念定义： $F_0$ RMSE 衡量合成语音的基频（F0，即音高）与真实语音基频之间的差异。基频是反映语音语调和情感的重要特征。计算通常在对数域进行，因为人类对音高的感知更符合对数尺度。较低的 $F_0$ RMSE 值表示合成语音的语调更准确、自然。
数学公式： $F_0 \mathrm{RMSE} = \sqrt{\frac{1}{M} \sum_{i=1}^{M} (\log F_{0,i}^{\mathrm{syn}} - \log F_{0,i}^{\mathrm{gt}})^2}$
符号解释：
- $M$ ：语音帧数（通常经过对齐）。
- $F_{0,i}^{\mathrm{syn}}$ ：合成语音在第 $i$ 帧的基频。
- $F_{0,i}^{\mathrm{gt}}$ ：真实语音在第 $i$ 帧的基频。
- $\log$ ：自然对数。

5.2.7. 音素持续时间平均绝对偏差 (Mean Absolute Deviation of phoneme duration, DUR MAD)

概念定义： DUR MAD 衡量合成语音中每个音素的持续时间与真实语音中对应音素持续时间之间的平均绝对差异。它评估模型在控制语音节奏和持续时间方面的准确性。较低的 DUR MAD 值表示模型能更好地还原真实的音素持续时间。
数学公式： $\mathrm{DUR \, MAD} = \frac{1}{N} \sum_{i=1}^{N} |D_{i}^{\mathrm{pred}} - D_{i}^{\mathrm{gt}}|$
符号解释：
- $N$ ：音素数量。
- $D_{i}^{\mathrm{pred}}$ ：预测的第 $i$ 个音素的持续时间。
- $D_{i}^{\mathrm{gt}}$ ：真实标注的第 $i$ 个音素的持续时间。

5.2.8. 词错误率 (Word Error Rate, WER)

概念定义： WER 是衡量语音识别系统（或此处用于评估 TTS 系统可懂度）性能的常用指标。它通过计算将识别出的文本转换为参考文本所需的插入 (Insertions)、删除 (Deletions) 和替换 (Substitutions) 词的数量，然后除以参考文本的总词数来得到。在 TTS 评估中，通常使用预训练的自动语音识别 (ASR) 模型来识别合成语音，然后计算识别结果与原始文本之间的 WER。较低的 WER 表示合成语音更容易被识别，因此可懂度更高。
数学公式： $\mathrm{WER} = \frac{S + D + I}{N} \times 100\%$
符号解释：
- $S$ ：替换 (Substitutions) 的词数。
- $D$ ：删除 (Deletions) 的词数。
- $I$ ：插入 (Insertions) 的词数。
- $N$ ：参考文本中的总词数。

5.2.9. 持续时间变异系数 (Coefficient of Variation of Duration, $\mathrm{CV_{dur}}$ )

概念定义： $\mathrm{CV_{dur}}$ 衡量语音持续时间在多次合成同一文本时表现出的多样性或变异性。高 CV 值表明模型在生成语音时能产生更多不同的持续时间模式，这通常与更富有表现力和非机械感的语音相关。
数学公式： $\mathrm{CV_{dur}} = \frac{\sigma_{\mathrm{dur}}}{\mu_{\mathrm{dur}}}$
符号解释：
- $\sigma_{\mathrm{dur}}$ ：在多次合成中，语音持续时间的标准差。
- $\mu_{\mathrm{dur}}$ ：在多次合成中，语音持续时间的平均值。

5.2.10. 音高变异系数 (Coefficient of Variation of pitch curve, $\mathrm{CV_{f0}}$ )

概念定义： $\mathrm{CV_{f0}}$ 衡量语音基频 (F0) 在多次合成同一文本时表现出的多样性或变异性。高 CV 值表明模型在生成语音时能产生更多不同的音高模式，这通常与更富有表现力和情感的语调相关。
数学公式： $\mathrm{CV_{f0}} = \frac{\sigma_{\mathrm{f0}}}{\mu_{\mathrm{f0}}}$
符号解释：
- $\sigma_{\mathrm{f0}}$ ：在多次合成中，语音基频的标准差。
- $\mu_{\mathrm{f0}}$ ：在多次合成中，语音基频的平均值。

5.2.11. 实时因子 (Real-Time Factor, RTF)

概念定义： RTF 衡量 TTS 模型合成语音的速度，即合成一段语音所需的时间与语音本身的持续时间之比。RTF < 1 表示模型合成速度快于实时播放速度。RTF 越低越好，表示合成越快。
数学公式： $\mathrm{RTF} = \frac{\text{合成时间}}{\text{语音持续时间}}$
符号解释：
- $\text{合成时间}$ ：模型生成语音波形所需的实际计算时间。
- $\text{语音持续时间}$ ：生成的语音波形的长度。

5.3. 对比基线

实验将 StyleTTS 2 与以下高性能的基线模型进行了比较：

VITS [3]： 一个基于条件变分自编码器 (CVAE) 和对抗训练的端到端 TTS 模型，以其高质量和相对快速的推理速度而闻名，并在 LJSpeech 和 VCTK 上达到了接近人类水平的 MOS。
StyleTTS [6]： StyleTTS 2 的前身，一个基于风格的生成模型，利用风格编码器进行自然和多样化语音合成。作为 StyleTTS 2 的直接比较对象，用于展示新模型改进。
JETS [32]： 一个联合训练 FastSpeech 2 和 HiFi-GAN 的端到端 TTS 模型，旨在实现高效和高保真的语音合成。
YourTTS [60]： 一个用于零样本多说话人 TTS 和零样本语音转换的模型。
NaturalSpeech [5]： 一个端到端 TTS 模型，结合了 BERT 预训练和可微分持续时间建模，在 LJSpeech 上实现了统计学上与人类录音无法区分的质量。该模型未公开可用，样本由作者提供。
Vall-E [8]： 一个基于神经编解码器语言模型的零样本 TTS 合成器，以其在零样本适应方面的强大能力而闻名，但需要非常大量的训练数据。样本来自官方 Vall-E 演示页面。

基线模型的代表性：

VITS 和 JETS 代表了当时最先进的公开可用的端到端非自回归 TTS 模型。
StyleTTS 是 StyleTTS 2 的直接前身，用于展示架构改进的贡献。
YourTTS 是用于多说话人 TTS 和零样本适应的代表性模型。
NaturalSpeech 是另一个在人类水平 TTS 方面取得突破的模型，用于直接比较自然度。
Vall-E 是零样本 TTS 领域的领先模型，用于比较 StyleTTS 2 在零样本适应任务中的数据效率和性能。

音频处理： 为了公平比较，所有音频都重新采样以匹配基线模型的采样率：LJSpeech 和 VCTK 为 22.5 kHz，LibriTTS 为 16 kHz。

5.4. 训练细节

数据集与解码器选择：
- LJSpeech：使用 iSTFTNet 解码器，因其速度快且在此数据集上性能足够。
- VCTK 和 LibriTTS：使用 HifiGAN 解码器。
预训练与联合训练周期 (Epochs)：
- 声学模块预训练：LJSpeech 100 个 epoch，VCTK 50 个 epoch，LibriTTS 30 个 epoch。
- 联合训练：LJSpeech 60 个 epoch，VCTK 40 个 epoch，LibriTTS 25 个 epoch。
优化器： AdamW 优化器 [59]。
- $\beta_1 = 0$
- $\beta_2 = 0.99$
- 权重衰减 (weight decay) $\bar{\lambda} = 10^{-4}$
- 学习率 (learning rate) $\gamma = 10^{-4}$
批次大小 (Batch Size)： 预训练和联合训练均为 16 个样本。
损失权重： 采用 [6] 中的损失权重来平衡所有损失项。
波形分段： 波形随机分段，最大长度为 3 秒。
SLM 对抗训练： 真实标注数据和生成的样本时长均确保在 3 到 6 秒之间，与 WavLM 模型在各种下游任务中微调时的时长相同 [11]。
风格扩散步数： 训练期间随机采样 3 到 5 步以提高速度，推理时设置为 5 步以保证质量。
硬件： 在四块 NVIDIA A40 GPU 上进行训练。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. LJSpeech 数据集上的表现

以下是原文 [Table 1] 的结果，展示了 StyleTTS 2 相对于其他模型的自然度和相似度的对比平均意见得分 (CMOS)。

Model	Dataset	CMOS-N (p-value)	CMOS-S (p-value)
Ground Truth	LJSpeech	+0.28 (p = 0.021)
NaturalSpeech	LJSpeech	+1.07 (p < 10−6)
Ground Truth	VCTK	−0.02 (p = 0.628)	+0.30 (p = 0.081)
VITS	VCTK	+0.45 (p = 0.009)	+0.43 (p = 0.032)
Vall-E	LibriSpeech (zero-shot)	+0.67 (p < 10−3)	−0.47 (p < 10−3)

自然度：

超越人类录音： StyleTTS 2 在 LJSpeech 数据集上相对于真实标注数据 (Ground Truth) 获得了 +0.28 (p = 0.021) 的 CMOS-N。这表明 StyleTTS 2 的合成语音被英语母语者认为比原始人类录音更自然。作者推测这可能源于 LJSpeech 数据集中碎片化的有声读物片段，这些片段可能打断了叙事连贯性，使得原始录音听起来不那么自然。

显著优于 SOTA： 相较于 NaturalSpeech，StyleTTS 2 取得了 +1.07 (p < 10^-6) 的显著 CMOS-N，再次确认了其在该数据集上设定了新的性能标准。

以下是原文 [Table 2] 的结果，展示了 LJSpeech 数据集上 MOS 及其 95% 置信区间 (CI) 的比较。

Model	MOSID (CI)	MOSOOD (CI)
Ground Truth	3.81 (± 0.09)	3.70 (± 0.11)
StyleTTS 2	3.83 (± 0.08)	3.87 (± 0.08)
JETS	3.57 (± 0.09)	3.21 (± 0.12)
VITS	3.34 (± 0.10)	3.21 (± 0.11)
StyleTTS + HifiGAN	3.35 (± 0.10)	3.32 (± 0.12)

MOS 评估：

最高 MOS： StyleTTS 2 达到了 3.83 的 MOS，超越了所有先前的模型，与 CMOS 结果一致。
域外文本鲁棒性： 所有基线模型在域外文本 (OOD texts) 上的质量都有所下降，这证实了 [7] 中报告的差距。然而，StyleTTS 2 在 OOD 文本上的 MOS-N 甚至略高于其在域内文本上的表现（3.87 vs 3.83），且显著优于其他模型，展现了其强大的泛化能力和对 OOD 文本的鲁棒性。

6.1.2. VCTK 数据集上的表现

与人类录音持平： 在多说话人 VCTK 数据集上，StyleTTS 2 在自然度方面与真实标注数据表现相当（CMOS-N = -0.02, p >> 0.05），这与 LJSpeech 的结果（LJSpeech 中真实录音可能存在叙事连贯性问题）形成了对比，进一步支持了作者关于 LJSpeech 数据集伪影的假设。
风格相似度： StyleTTS 2 的样本在相似度方面比人类录音更接近参考说话人（CMOS-S = +0.30, p = 0.081），这表明模型有效利用了参考音频进行风格扩散。
优于 VITS： StyleTTS 2 在 VCTK 数据集上的 CMOS-N (+0.45, p = 0.009) 和 CMOS-S (+0.43, p = 0.032) 均高于先前最先进的模型 VITS。

6.1.3. LibriTTS 数据集上的零样本适应

以下是原文 [Table 3] 的结果，展示了 LibriTTS test-clean 子集上零样本说话人适应的 MOS 及其 95% 置信区间 (CI) 的比较。

Model	MOS-N (CI)	MOS-S (CI)
Ground Truth	4.60 (± 0.09)	4.35 (± 0.10)
StyleTTS 2	4.15 (± 0.11)	4.03 (± 0.11)
YourTTS	2.35 (± 0.07)	2.42 (± 0.09)
VITS	3.69 (± 0.12)	3.54 (± 0.13)
StyleTTS + HiFi-GAN	3.91 (± 0.11)	4.01 (± 0.10)

自然度优于 Vall-E： 在零样本适应测试中，StyleTTS 2 在自然度方面超越了 Vall-E（CMOS-N = +0.67, p < 10^-3）。
数据效率高： StyleTTS 2 仅使用 245 小时训练数据就达到了这些结果，而 Vall-E 使用了 60k 小时，相差 250 倍。这使得 StyleTTS 2 成为大型预训练方法（如 Vall-E）的数据高效替代方案。
相似度略逊： 尽管自然度表现优异，但在相似度方面略逊于 Vall-E（CMOS-S = -0.47, p < 10^-3）。MOS 结果也支持了这一发现，StyleTTS 2 的 MOS-N 和 MOS-S 均高于所有基线模型，但与 StyleTTS 的 MOS-S 差异不具有统计学意义，这指明了未来在说话人相似度方面改进的方向。

6.2. 风格扩散分析

6.2.1. 风格向量可视化

下图（原文 Figure 2）展示了通过风格扩散从五种情感文本中采样的风格向量的 t-SNE 可视化，显示出情感在可见和不可见说话者中的良好分离。

Figure 2: t-SNE visualization of style vectors sampled via style diffusion from texts in five emotions, showing that emotions are properly separated for seen and unseen speakers. (a) Clusters of emotion from styles sampled by the LJSpeech model. (b) Distinct clusters of styles sampled from 5 unseen speakers by the LibriTTS model. (c) Loose clusters of emotions from Speaker 1 in (b). Figure 2: t-SNE 可视化图，展示了通过风格扩散从五种情感文本中采样的风格向量，显示出情感在可见和不可见说话者中的良好分离。(a) 为 LJSpeech 模型的情感聚类，(b) 为 LibriTTS 模型中五个不可见说话者的样式聚类，(c) 为 (b) 中说话者 1 的放大聚类。

情感分离： 图 2a 展示了 LJSpeech 模型生成的风格向量在 t-SNE 空间中形成了明显的情感聚类，表明模型能够在没有明确情感标签的情况下，根据输入文本的情感合成富有表现力的语音。
说话人分离： 图 2b 展示了 LibriTTS 模型针对五个未见过的说话人（每个仅使用 3 秒参考音频）生成的风格向量也形成了不同的说话人聚类，这表明风格扩散能够从少量参考音频中捕捉并利用说话人特有的风格多样性。
情感-说话人解耦： 图 2c 更细致地展示了其中一个说话人的情感聚类。尽管存在一些重叠，但仍能看到基于情感的聚类，这说明模型可以操纵未见过的说话人的情感语调，而不受参考音频中原有语调的影响。这些重叠也部分解释了 LibriTTS 模型在零样本设置下性能不如 LJSpeech 模型的原因，因为在零样本设置中，文本和说话人风格的解耦更具挑战性。

6.2.2. 语音表现力

下图（原文 Figure 3）是图表，展示了使用五种不同情感文本合成的语音的平均 F0 和能量值的直方图及核密度估计。

Figure 3: Histograms and kernel density estimation of the mean F0 and energy values of speech, synthesized with texts in five different emotions. The blue color ("Ground Truth") denotes the distributions of the ground truth samples in the test set. StyleTTS 2 shows distinct distributions for different emotions and produces samples that cover the entire range of the ground truth distributions. Figure 3: 直方图和核密度估计图，显示了使用五种不同情感文本合成的语音的平均 F0 和能量值。蓝色部分（“真实标注数据”）表示测试集中真实标注样本的分布。StyleTTS 2 显示出不同情感的明显分布，并生成覆盖真实标注数据分布整个范围的样本。

StyleTTS 2： 图 3a 显示，StyleTTS 2 合成语音的平均 F0 和能量值在不同情感下呈现出明显的特征，尤其是在“愤怒 (anger)”和“惊喜 (surprise)”情感下，其分布与真实标注数据的平均值有显著偏离。这证实了 StyleTTS 2 能够根据特定情感文本生成具有情感的语音。此外，StyleTTS 2 生成的样本覆盖了 F0 和能量分布的整个范围，接近真实标注数据的分布范围，表明其具有优秀的模式覆盖能力。
VITS： 图 3b 中的 VITS 对情感变化表现出一定程度的不敏感，不同情感的 F0 和能量分布区分度不高。
JETS： 图 3c 中的 JETS 未能涵盖 F0 和能量的完整分布，生成的样本集中在模式周围。
概率模型优势： StyleTTS 2 和 VITS 都是概率模型，而 JETS 是确定性模型。结果表明，概率模型比确定性模型能生成更具表现力的语音。
扩散模型优势： StyleTTS 2 在能量平均分布的右尾部分表现出比 VITS 略好的模式覆盖，这可能归因于其使用基于扩散的模型，而非 VITS 所使用的变分自编码器 (variational autoencoder)。

以下是原文 [Table 4] 的结果，展示了语音多样性指标和实时因子 (RTF)。

Model CVdur ↑ CVf0 ↑ RTF ↓
StyleTTS 2 0.0321 0.6962 0.0185
VITS 0.0214 0.5976 0.0599
FastDiff 0.0295 0.6490 0.0769
ProDiff 2e-16 0.5898 0.1454
最高多样性： StyleTTS 2 在持续时间变异系数 ( $\mathrm{CV_{dur}}$ ) 和音高变异系数 ( $\mathrm{CV_{f0}}$ ) 上均取得了最高值（0.0321 和 0.6962），表明其在生成多样化语音方面具有卓越潜力。
快速推理： 尽管 StyleTTS 2 是基于扩散的模型，但其 RTF 仅为 0.0185，比 VITS (0.0599)、FastDiff (0.0769) 和 ProDiff (0.1454) 等最快的扩散 TTS 模型更快，即使在 5 次扩散迭代的情况下。这证明了其风格扩散方法的效率。

6.3. 消融实验 (Ablation Study)

以下是原文 [Table 5] 的结果，展示了消融研究中 CMOS-N 相对于 StyleTTS 2 基线在 OOD 文本上的表现。

Model	CMOS-N
w/o style diffusion	−0.46
w/o differentiable upsampler	-0.21
w/o SLM adversarial training	−0.32
w/o prosodic style encoder	-0.35
w/o OOD texts	−0.15

“无风格扩散 (w/o style diffusion)”：当风格向量被随机编码的向量（如 [6]）替代时，CMOS-N 急剧下降到 -0.46。这强调了文本依赖的风格扩散对于实现人类水平 TTS 的重要贡献。风格向量对语音的停顿、情感、语速和音质等所有方面都至关重要，因此风格扩散是生成接近真实标注数据和自然人声的最重要因素。
“无可微分上采样器 (w/o differentiable upsampler)”：在没有可微分上采样器的情况下进行训练，CMOS-N 下降到 -0.21。这验证了其在自然语音合成中的关键作用。客观评估中，它增加了 $F_0$ RMSE，但对 MCD、MCD-SL、DUR MAD 和 WER 没有影响。
“无 SLM 对抗训练 (w/o SLM adversarial training)”：在没有 SLM 判别器的情况下进行训练，CMOS-N 下降到 -0.32。这再次证明了 SLM 判别器在自然语音合成中的关键作用。客观评估中，MCD-SL 和 $F_0$ RMSE 略有下降，但 WER 未受影响。有趣的是，该版本产生了最低的持续时间误差，可能暗示 SLM 判别器可能会导致域内文本的轻微欠拟合。然而，主观评估显示，对于没有 SLM 判别器训练的模型，OOD 文本的差异显著。
“无韵律风格编码器 (w/o prosodic style encoder)”：移除韵律风格编码器导致 CMOS-N 下降到 -0.35。这也影响了所有客观指标，凸显了其在模型中的有效性。

“无 OOD 文本 (w/o OOD texts)”：在对抗训练中不使用 OOD 文本，CMOS-N 下降到 -0.15。这证明了 OOD 文本在改善 OOD 语音合成方面的有效性。客观评估中，仅影响了 $F_0$ RMSE。

以下是原文 [Table 6] 的结果，展示了消融研究中模型在 LJSpeech 数据集上的客观指标比较。

Model	MCD	MCD-SL	F0 RMSE	DUR MAD	WER	CMOS
Proposed model	4.93	5.34	0.651	0.521	6.50%	0
w/o style diffusion	8.30	9.33	0.899	0.634	8.77%	−0.46
w/o SLM adversarial training	4.95	5.40	0.692	0.513	6.52%	−0.32
w/o prosodic style encoder	5.04	5.42	0.663	0.543	6.92%	−0.35
w/o differentiable upsampler	4.94	5.34	0.880	0.525	6.54%	-0.21
w/o OOD texts	4.93	5.45	0.690	0.516	6.58%	-0.15

客观评估结果与主观 CMOS 结果高度一致，进一步证实了各组件的有效性。特别是，移除风格扩散对所有客观指标的影响最大。

6.4. SLM 判别器层级分析

下图（原文 Figure 7）是图表，展示了在不同数据集上，SLM 判别器各层的输入权重大小。

Figure 7: Layer-wise input weight magnitude to the SLM discriminators across different datasets. The layer importance shows a divergent pattern for the VCTK model relative to the LJSpeech and LibriTTS models, showcasing the impact of contextual absence on the SLM discriminators. Figure 7: SLM 判别器在不同数据集上的层级输入权重大小。VCTK 模型的层级重要性模式与 LJSpeech 和 LibriTTS 模型不同，展示了上下文缺失对 SLM 判别器的影响。

LJSpeech 和 LibriTTS 模型： 在这两个数据集中，初始层（1 和 2）和中间层（6 和 7）显示出最高的特征重要性，而最终层（10 和 11）的重要性逐渐降低。这与之前的发现一致，即最终层的主要作用是预文本任务，而非下游任务 [55, 10, 11]。特别地，编码声学信息（如能量、音高和信噪比 SNR）的 0、1 和 2 层最为关键。编码语义信息（如词汇身份和含义）的 5、6 和 7 层次之。这表明 SLM 判别器学会融合声学和语义信息，以推导出韵律、停顿、语调和情感等副语言属性，这些属性对于区分真实语音和合成语音至关重要。
VCTK 模型： 对于 VCTK 数据集，SLM 判别器没有表现出明显的层级偏好。这可能由于 VCTK 数据集的上下文信息有限。与 LJSpeech 和 LibriTTS 数据集中的叙事和有声读物不同，VCTK 数据集只涉及朗读标准段落，缺乏特定的上下文或情感。这种上下文的缺乏可以解释为什么 StyleTTS 2 在 VCTK 数据集上的性能提升（相对于 VITS）不如在 LJSpeech 和 LibriTTS 数据集上的显著（参见表 1、2、3），因为风格扩散和 SLM 对抗训练在表现力和情感多样性受限的数据集中优势不那么明显。

6.5. 扩散步数影响

以下是原文 [Table 7] 的结果，展示了不同扩散步数下梅尔倒谱失真 (MCD)、语音长度加权 MCD (MCD-SL)、对数 F0 音高均方根误差 ( $F_0$ RMSE)、词错误率 (WER)、实时因子 (RTF)、持续时间变异系数 ( $\mathrm{CV_{dur}}$ ) 和音高变异系数 ( $\mathrm{CV_{f0}}$ ) 的比较。

Step	MCD ↓	MCD-SL ↓	F0 RMSE ↓	WER ↓	RTF ↓	CVdur ↑	CVfo ↑
4	4.90	5.34	0.650	6.72%	0.0179	0.0207	0.5473
8	4.93	5.33	0.674	6.53%	0.0202	0.0466	0.7073
16	4.92	5.34	0.665	6.44%	0.0252	0.0505	0.7244
32	4.92	5.32	0.663	6.56%	0.0355	0.0463	0.7345
64	4.91	5.34	0.654	6.67%	0.0557	0.0447	0.7245
128	4.92	5.33	0.656	6.73%	0.0963	0.0447	0.7256

样本质量： 扩散步数在 4 到 128 之间时，MCD、MCD-SL、 $F_0$ RMSE 和 WER 等样本质量指标差异微乎其微。实验证明即使只有 3 步也能生成满意质量的样本。
推理速度： RTF 随扩散步数增加而增加，从 4 步的 0.0179 增加到 128 步的 0.0963。
多样性： 语音多样性（ $\mathrm{CV_{dur}}$ 和 $\mathrm{CV_{f0}}$ ）随扩散步数增加而提高，并在大约 16 步时达到平台期。之后多样性增加不明显，甚至在步数非常大时略有下降，这可能是因为祖先求解器在高步数下趋于固定的解决方案。
最佳权衡： 在 16 步扩散时，模型在样本质量、多样性和计算速度之间取得了最佳平衡。虽然 RTF 比 4 步增加了 30%，但仍比 VITS 快两倍，适用于实时应用。

6.6. 训练稳定性

下图（原文 Figure 6）是图表，展示了不同 $\sigma$ 值对 MCD 和最大梯度范数的影响。

$Figure 6: Effects of $\\sigma$ on MCD and max gradient norm. Our choice of $\\sigma = 1 . 5$ is marked with a star symbol. (a) MCD between samples synthesized with differentiable and non-differentiable upsampling over different $\\sigma$ . (b) The maximum norm of gradients from the SLM discriminator to the duration predictor over an epoch of training with different $\\sigma$ .$ Figure 6: $\sigma$ 值对 MCD 和最大梯度范数的影响。StyleTTS 2 选择的 $\sigma = 1.5$ 用星号标记。(a) 不同 $\sigma$ 值下，通过可微分和非可微分上采样合成的样本之间的 MCD。(b) 不同 $\sigma$ 值下，从 SLM 判别器到持续时间预测器在一个训练周期内的最大梯度范数。

$\sigma$ 的影响： $\sigma$ 是可微分持续时间建模中高斯核的标准差。图 6b 显示，即使 $\sigma = 1.5$ ，从 SLM 判别器到持续时间预测器的最大梯度范数也可以高达 200，这可能导致训练不稳定，因为其他模块的梯度范数通常小于 10。
梯度爆炸缓解： 为了缓解这一问题，作者采用了一种策略，对来自 SLM 判别器到持续时间预测器的所有梯度进行裁剪 (clip)，这在 GAN 训练中是常见的做法 [31]。当梯度范数超过 20 时，对其应用 0.2 的缩放因子。此外，为了解决持续时间预测器中 sigmoid 函数可能引起的不稳定性，他们将其最后一个投影层和 LSTM 层的梯度缩放 0.01。
$\sigma=1.5$ 的选择： 作者选择的 $\sigma = 1.5$ 在很大程度上最小化了 MCD 和梯度范数，使其成为上采样的最优选择。这个值也与 2 到 3 个语音帧的典型音素持续时间相符，因为 $\sigma = 1.5$ 的高斯核大约跨越 3 个语音帧。

7. 总结与思考

7.1. 结论总结

本研究提出了 StyleTTS 2，一个新颖的文本到语音 (TTS) 模型，通过风格扩散 (style diffusion) 和语音语言模型 (SLM) 判别器实现了人类水平的性能。

主要发现和贡献包括：

突破性性能： StyleTTS 2 在单说话人 LJSpeech 数据集上超越了人类录音，并在多说话人 VCTK 数据集上与其表现相当，这是首个在这些公开数据集上达到人类水平 TTS 质量的模型。
创新的风格建模： 通过将风格建模为潜在随机变量，并利用扩散模型进行采样，StyleTTS 2 无需参考语音即可生成多样化且富有表现力的语音风格。这种方法高效且对推理速度影响很小。
强大的知识迁移： 将大型预训练的 WavLM 等 SLM 作为判别器，通过对抗训练将 SLM 中丰富的语音知识有效迁移到生成器，显著提升了合成语音的自然度。
鲁棒的端到端训练： 引入新颖的可微分持续时间建模，解决了对抗训练中的稳定性问题，实现了从文本到波形的端到端可微分训练。
数据高效的零样本适应： 在 LibriTTS 数据集上的零样本说话人适应任务中，StyleTTS 2 在自然度方面优于 Vall-E 等大型模型，且仅使用了其约 1/250 的训练数据，展现了其卓越的数据效率。
域外鲁棒性： 对域外文本的合成质量没有明显下降，且显著优于其他模型，具有强大的泛化能力。

总而言之，StyleTTS 2 的工作凸显了风格扩散和与大型 SLM 对抗训练在实现人类水平 TTS 方面的巨大潜力。

7.2. 局限性与未来工作

作者指出的局限性：

大型数据集性能提升空间： 尽管 StyleTTS 2 在 LJSpeech 和 VCTK 上表现出色，但作者指出，在处理 LibriTTS 等包含数千或更多说话人、多种声学环境、口音和其他说话风格的大规模数据集时，仍有改进空间。
零样本适应中的说话人相似度： 在零样本适应任务中，虽然 StyleTTS 2 在自然度方面表现优异，但在说话人相似度方面略逊于一些模型（如 Vall-E），这表明未来工作可以进一步提升说话人相似度。
评估方法的上下文依赖性： 尽管人类评估者在 LJSpeech 数据集上对 StyleTTS 2 的偏好具有统计学意义，但这种偏好可能依赖于上下文。原始音频片段（例如来自有声读物的孤立片段）在脱离其更大语境时，其自然度可能会受到影响，从而可能导致评估偏向于合成语音。此外，人类语音固有的、与上下文无关的变异性，与 StyleTTS 2 更统一的输出相比，可能导致较低的评分。

作者提出的未来研究方向：

改进评估方法： 未来的研究应旨在改进评估方法，以解决上述局限性，并开发更自然、更像人类的、具有更长上下文依赖性的语音合成模型。
提升大规模数据集性能： 针对 LibriTTS 等大型复杂数据集，进一步提升模型在多样化说话人、环境和风格下的合成质量。
增强零样本适应中的说话人相似度： 探索新的方法，在保持自然度的同时，进一步提高零样本适应任务中合成语音与目标说话人的相似度。

道德与社会影响： 作者特别强调了零样本说话人适应技术可能被滥用和欺骗的潜力，例如模仿个人声音以传播虚假信息、进行盗窃、欺诈、骚扰或冒充公众人物。为管理潜在危害，作者承诺：

要求模型用户遵守行为准则，明确作为使用公开代码和模型的条件。
要求用户告知听众他们正在听合成语音，或获得关于在实验中使用 StyleTTS 2 合成样本的知情同意。
要求用户使用已同意其声音被改编的参考说话人。
公开源代码，以促进对说话人欺诈和身份冒充检测的进一步研究。

7.3. 个人启发与批判

个人启发：

风格解耦与扩散模型的协同： StyleTTS 2 将复杂的语音风格（而非整个声学序列）建模为潜在变量，并通过高效的扩散过程生成，这一思路非常巧妙。它充分利用了扩散模型在生成多样性方面的优势，同时避免了其计算成本高的缺点，为未来在其他复杂生成任务中（如图像生成中的风格或姿态控制）解耦高维属性提供了借鉴。
SLM 判别器的强大潜力： 将大型预训练 SLM 作为判别器进行对抗训练，是实现人类水平 TTS 的关键一步。SLM 包含了海量的语音知识，通过对抗学习，这些知识被有效地“蒸馏”到生成模型中，这比传统的特征匹配或重建损失更能捕捉到人类感知的微妙之处。这提示我们，在其他领域（如图像、文本生成），也可以探索利用大型预训练的感知模型作为判别器，以提升生成质量。
端到端训练的精细化： 可微分持续时间建模的提出，解决了端到端训练中的一个关键障碍。这种对核心组件可微分性的关注，使得整个系统能够进行更深度的联合优化，从而带来整体性能的提升。这提醒我们，在设计复杂深度学习系统时，对每个模块的梯度流和可微分性进行细致考量至关重要。
数据效率的价值： StyleTTS 2 仅用少量数据就超越了 Vall-E 在自然度上的表现，这在当前大模型“大数据”竞赛的背景下尤为突出。这表明，通过更精巧的模型架构和训练范式，依然有可能在数据效率上取得突破，尤其是在资源受限的场景下具有重要意义。

批判与可以改进的地方：

说话人相似度： 尽管在自然度上表现出色，StyleTTS 2 在零样本适应任务中的说话人相似度仍有提升空间。这可能是由于风格扩散主要关注通用风格而非说话人身份的细粒度特征。未来的工作可以探索将说话人身份信息（例如通过更强的说话人嵌入或身份损失）更紧密地整合到风格扩散和生成过程中。
鲁棒性与泛化： 尽管模型对 OOD 文本表现良好，但论文也指出在大规模多变的 LibriTTS 数据集上仍有提升空间。这表明模型在处理极度多样化的声学环境、口音和说话风格时可能仍会遇到挑战。未来的研究可以考虑更强大的自监督预训练策略，或者引入域适应技术来增强其在高度复杂真实世界数据中的泛化能力。
风格的解耦与控制粒度： 尽管风格扩散能够分离情感和说话人风格，但 Fig 2c 中情感聚类存在重叠，表明风格的完全解耦仍有挑战。未来可以探索更细粒度的风格控制，例如同时控制情感强度、语速的具体值等，并确保这些风格维度之间的正交性。
长文本连贯性： 论文提到 LJSpeech 数据集中的叙事连贯性问题可能导致人类录音得分较低。虽然 StyleTTS 2 引入了风格插值来处理长文本生成，但这仍是启发式方法。未来的模型可以设计更先进的机制，例如基于长期上下文的风格预测或调整，以在生成长文本时更好地保持风格的连贯性和自然度，避免听起来“完美但过于统一”的问题。
计算资源需求： 尽管 StyleTTS 2 比其他扩散模型高效，但作为一个结合了扩散模型、大型 SLM 和复杂对抗训练的端到端系统，其训练和推理的计算资源需求可能仍然较高。未来的研究可以探索模型压缩、量化或更轻量级的架构设计，以降低部署成本。
可解释性： 深度学习模型，特别是涉及对抗训练和扩散模型的模型，通常具有较低的可解释性。理解 StyleTTS 2 如何从 SLM 判别器中学习，以及风格扩散如何精确地塑造语音，可能有助于未来的模型设计和诊断。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Model	CVdur ↑	CVf0 ↑	RTF ↓
StyleTTS 2	0.0321	0.6962	0.0185
VITS	0.0214	0.5976	0.0599
FastDiff	0.0295	0.6490	0.0769
ProDiff	2e-16	0.5898	0.1454