论文状态：已完成

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

发表：2024/12/16

流式语音合成 (1)大型语言模型应用 (1)多语言数据集 (1)语音生成模型优化 (1)渐进语义解码 (1)

原文链接

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文介绍了CosyVoice 2，一个改进的流式语音合成模型，基于有限标量量化优化词元利用率，并简化文本-语音模型架构以利用预训练的大型语言模型，结合块感知因果流匹配模型实现了接近人类水平的自然度和几乎无损的合成质量。

摘要

In our previous work, we introduced CosyVoice, a multilingual speech synthesis model based on supervised discrete speech tokens. By employing progressive semantic decoding with two popular generative models, language models (LMs) and Flow Matching, CosyVoice demonstrated high prosody naturalness, content consistency, and speaker similarity in speech in-context learning. Recently, significant progress has been made in multi-modal large language models (LLMs), where the response latency and real-time factor of speech synthesis play a crucial role in the interactive experience. Therefore, in this report, we present an improved streaming speech synthesis model, CosyVoice 2, which incorporates comprehensive and systematic optimizations. Specifically, we introduce finite-scalar quantization to improve the codebook utilization of speech tokens. For the text-speech LM, we streamline the model architecture to allow direct use of a pre-trained LLM as the backbone. In addition, we develop a chunk-aware causal flow matching model to support various synthesis scenarios, enabling both streaming and non-streaming synthesis within a single model. By training on a large-scale multilingual dataset, CosyVoice 2 achieves human-parity naturalness, minimal response latency, and virtually lossless synthesis quality in the streaming mode. We invite readers to listen to the demos at https://funaudiollm.github.io/cosyvoice2.

思维导图

论文精读

中文精读约 46 分钟读完 · 29,165 字

1. 论文基本信息

1.1. 标题

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

1.2. 作者

Zhihao Du, Yuxuan Wang, Qian Chen, Xian Shi, Xiang Lv, Tianyu Zhao, Zhifu Gao, Yexin Yang, Changfeng Gao, Hui Wang, Fan Yu, Huadai Liu, Zhengyan Sheng, Yue Gu, Chong Deng, Wen Wang, Shiliang Zhang, Zhijie Yan, Jingren Zhou*

1.3. 发表期刊/会议

预印本（arXiv），通常预印本平台上的论文在同行评审通过后会在顶级会议或期刊上发表。该论文未明确指出最终发表的期刊或会议。

1.4. 发表年份

2024年

1.5. 摘要

该论文介绍了 CosyVoice 2，一个改进的流式语音合成模型，它在之前 CosyVoice 模型的基础上进行了全面系统的优化。CosyVoice 2 的研究目的是实现高自然度、低延迟且在流式模式下几乎无损的语音合成。核心方法包括引入有限标量量化 (finite-scalar quantization, FSQ) 来提高语音词元 (speech tokens) 的码本利用率，简化文本-语音语言模型 (text-speech LM) 架构以直接使用预训练的大型语言模型 (Large Language Models, LLMs) 作为骨干，以及开发块感知因果流匹配模型 (chunk-aware causal flow matching model) 以支持流式和非流式合成。通过在大规模多语言数据集上训练，CosyVoice 2 在流式模式下实现了接近人类水平的自然度 (human-parity naturalness)、最小响应延迟 (minimal response latency) 和几乎无损的合成质量 (virtually lossless synthesis quality)。

1.6. 原文链接

/files/papers/6913eab51c90891eaa5cfa27/paper.pdf 该论文目前以预印本形式发布。

2. 整体概括

2.1. 研究背景与动机

核心问题： 传统的文本到语音 (Text-to-Speech, TTS) 模型，尤其是零样本 TTS 模型，在提供高质量、高自然度语音合成方面取得了显著进展。然而，它们通常以非流式 (non-streaming) 模式运行，这意味着需要完整的输入文本，并在合成整个话语后才返回波形。这导致了高延迟 (high latency)，严重影响了多模态大型语言模型 (multi-modal LLMs) 驱动的交互式应用（如语音聊天）的用户体验。现有的流式 TTS 解决方案主要集中在基于语言模型的方法，而基于扩散模型 (diffusion models) 或混合系统的流式解决方案仍不完善。

重要性： 随着多模态 LLMs 的兴起，语音合成的响应延迟 (response latency) 和实时因子 (real-time factor) 对于提供流畅、自然的交互体验变得至关重要。降低延迟是提升这些应用可用性和用户满意度的关键。

切入点/创新思路： CosyVoice 2 旨在通过系统性优化，构建一个统一的流式和非流式 TTS 框架。它不仅要保持高自然度、内容一致性和说话人相似性，还要显著降低延迟，尤其是在流式模式下实现几乎无损的合成质量。

2.2. 核心贡献/主要发现

论文的主要贡献包括：

统一流式与非流式合成： 提出了统一的文本-语音语言模型 (unified text-speech language model) 和块感知因果流匹配模型 (chunk-aware causal flow matching model)，将流式和非流式合成统一在一个框架内，实现了与离线模式相比几乎无损的流式合成。
简化语言模型架构与 LLM 集成： 简化了语言模型架构，移除了文本编码器和说话人嵌入，允许直接使用预训练的文本大型语言模型 (pre-trained textual LLMs) 作为骨干，从而增强了对上下文的理解能力。
改进语音词元量化： 将语音词元器 (speech tokenizer) 中的矢量量化 (vector quantization, VQ) 替换为有限标量量化 (finite scalar quantization, FSQ)，显著提高了码本利用率，并捕获了更多的语音信息。
升级指令式 TTS 能力： 提升了指令式 TTS (instructed TTS) 能力，支持更多指令，包括情感、口音、角色风格和细粒度控制。将指令和零样本 (zero-shot) 能力集成到单一模型中，实现更通用、更生动的合成。

关键结论/发现：

CosyVoice 2 在流式模式下实现了接近人类水平的自然度 (human-parity naturalness)、最小响应延迟 (minimal response latency) 和几乎无损的合成质量 (virtually lossless synthesis quality)。
统一的框架降低了部署要求，使得单个模型可以支持流式和非流式合成。
升级的指令式 TTS 能力为用户提供了更强大、更简便的方式来生成各种语音。
块感知流匹配设计也可应用于非自回归 (non-autoregressive, NAR) TTS 模型，为流式 NAR 模型提供了潜力。
模块化消融研究表明，LLM 初始化、移除说话人嵌入和 FSQ 的引入对模型性能有显著提升，尤其是在内容一致性和码本利用率方面。

3. 预备知识与相关工作

3.1. 基础概念

文本到语音 (Text-to-Speech, TTS)： 一种将书面文本转换为人类语音的技术。
零样本 TTS (Zero-shot TTS)： 指模型能够在不进行特定说话人训练的情况下，通过模仿参考语音的音色 (timbre)、韵律 (prosody) 和风格来合成任何说话人的语音。
上下文学习 (In-Context Learning, ICL)： 一种机器学习范式，模型通过给定少量示例作为输入提示 (prompt)，无需权重更新就能适应新任务。在 TTS 中，指模型能够根据参考语音的提示信息，模仿其说话风格、音色等。
流式合成 (Streaming Synthesis)： 指语音合成模型在接收到部分输入文本时就开始生成语音，而不是等待所有文本输入完成后再进行合成。这对于实时交互式应用（如语音聊天）至关重要，因为它能显著降低首包延迟 (first-package latency)。
非流式合成 (Non-Streaming Synthesis)： 也称为离线合成，指模型必须接收完整的输入文本后才能开始合成语音，并在完成整个话语的合成后才返回波形。
语音词元 (Speech Tokens)： 离散化的语音表示，通过语音编码器将连续的语音信号转换为一系列离散的数字编码。这些词元捕获了语音的语义和声学信息。
码本利用率 (Codebook Utilization)： 在使用矢量量化 (Vector Quantization, VQ) 或标量量化 (Scalar Quantization, SQ) 将连续信号量化为离散词元时，码本是所有可能词元的集合。码本利用率指码本中实际被使用的词元所占的比例，高利用率通常意味着量化器能更有效地捕获信息。
大型语言模型 (Large Language Models, LLMs)： 具有数十亿甚至数万亿参数的深度学习模型，通过在大规模文本数据上进行预训练，学习语言的模式、语法和语义，能够执行各种自然语言处理任务，如文本生成、翻译等。在 CosyVoice 2 中，LLM 被用作文本-语音语言模型的骨干。
流匹配 (Flow Matching, FM)： 一种新的生成模型范式，通过学习从简单分布（如高斯噪声）到复杂数据分布的连续变换路径（即流），来生成高质量样本。它通过训练一个神经网络来预测流的向量场 (vector field)，从而避免了扩散模型中的马尔可夫链式采样，通常可以实现更快的采样速度。
梅尔频谱 (Mel Spectrogram)： 语音信号的一种时频表示，模拟了人类听觉系统对不同频率的感知敏感度。它通常用作语音合成和识别中的声学特征。
自回归模型 (Autoregressive Model)： 一种模型，其当前输出依赖于所有先前的输出。在 TTS 中，自回归模型逐个生成语音词元或声学特征。
非自回归模型 (Non-Autoregressive Model, NAR)： 一种模型，其输出不依赖于先前的输出，可以并行生成所有输出。NAR 模型通常比自回归模型更快，但在建模长距离依赖时可能面临挑战。
有限标量量化 (Finite Scalar Quantization, FSQ)： 一种量化方法，将连续值映射到有限个离散的标量值。相比于矢量量化 (VQ)，FSQ 通常更简单，但在 CosyVoice 2 中被证明能有效提高码本利用率。
分类器自由引导 (Classifier-Free Guidance, CFG)： 一种在条件生成模型（如扩散模型）中提高生成样本质量和多样性的技术。它通过结合有条件生成和无条件生成的结果，来增强模型对给定条件的遵循程度。

3.2. 前人工作

TTS 领域经历了从传统拼接和统计参数方法到神经 TTS 模型的演变。

神经 TTS 模型： 例如 Tacotron [1] 和 Deep Voice 3 [3] 等，实现了高保真度和自然度。
零样本 TTS 模型： 近年来取得了显著进展，能够模仿参考语音的音色、韵律和风格合成任意说话人的语音 [8]。

当前的零样本 TTS 模型大致分为三类：

编解码器语言模型 (Codec Language Models)：
- 利用语音编解码器 (speech codec model) [9-11] 提取离散语音表示。
- 使用自回归 (autoregressive) [8, 12-17] 或掩码 (masked) [18] 语言模型预测语音词元。
- 通过编解码器声码器 (codec vocoders) [19, 20] 将词元合成为波形。
- 优点：通过自回归采样生成多样且韵律一致的语音。
特征扩散模型 (Feature Diffusion Models)：
- 受图像生成启发，引入去噪扩散 (denoising diffusion) [22, 23] 和流匹配模型 (flow matching models) [24] 到非自回归语音合成中。
- 早期模型需要预测每个文本（音素）的持续时间以解决文本和语音特征之间的长度差异 [25-28]，但这可能导致韵律不自然。
- 通过引入交叉注意力 (cross-attention) 和 Diffusion Transformers (DiT) [29, 30] 来缓解问题。
- 近期研究探索了更简单的文本-语音对齐方法，如 E2 TTS [31]、F5-TTS [32] 和 Seed-TTS [33]。
- 优点：不受编解码器声码器限制，可实现卓越的语音质量。
混合系统 (Hybrid Systems)：
- 结合了文本到编解码器语言模型和编解码器到特征扩散模型 [33-35]。
- 语言模型负责文本与语音的对齐以及话语持续时间预测。
- 编解码器到特征扩散模型根据生成的编解码器和其他条件合成语音特征（梅尔频谱）。
- 优点：结合了两种生成模型的优势，实现高多样性、韵律一致性和语音质量。CosyVoice [34] 就是一个混合系统。

流式合成的挑战：

尽管 TTS 模型取得了成功，但它们通常在非流式模式下运行，导致高延迟。
流式合成已在基于语言模型的零样本 TTS 模型中进行了探索 [38-41]，但基于扩散模型的 TTS 模型和混合系统缺乏完善的流式解决方案。

3.3. 技术演进

CosyVoice 2 建立在其前身 CosyVoice [34] 的成功之上，继承了其将语音信号的语义信息和声学信息分离并独立建模的设计理念。CosyVoice 采用渐进式语义解码 (progressive semantic decoding)，结合语言模型和流匹配模型，在语音上下文学习中展现了高韵律自然度、内容一致性和说话人相似性。

CosyVoice 2 的改进点和技术演进：

码本优化： 从传统的 VQ 转向 FSQ，旨在提高码本利用率，更有效地捕获语音信息。
LM 架构简化与 LLM 集成： 移除了前代 CosyVoice 中的文本编码器和说话人嵌入，直接利用预训练的 LLM（如 Qwen2.5-0.5B）作为骨干，这得益于 LLM 强大的上下文理解能力，简化了模型结构并可能提升了泛化性。
流式 FM： 针对流匹配模型在流式合成中的不足，提出了块感知因果流匹配 (chunk-aware causal flow matching)，通过不同的掩码策略使其能够同时支持流式和非流式场景。
指令式 TTS 增强： 扩展了指令式控制能力，支持更细粒度的情感、口音、角色风格和 vocal burst 控制。
强化学习引入： 在微调阶段引入了强化学习 (Reinforcement Learning)，特别是直接偏好优化 (Direct Preference Optimization, DPO)，结合说话人相似性 (SS) 和词错误率 (WER) 作为奖励函数，以进一步提升合成质量和发音准确性。

3.4. 差异化分析

CosyVoice 2 相较于其前身 CosyVoice 以及其他主流 TTS 模型，主要差异和创新点在于：

统一的流式/非流式框架： 大多数现有模型要么是纯流式（通常是自回归 LM-based），要么是纯非流式（如扩散模型或混合系统）。CosyVoice 2 首次在混合系统框架内实现了对两种模式的统一支持，且在流式模式下性能几乎无损。
LLM 作为 LM 骨干： 直接将预训练的文本 LLM 作为文本-语音语言模型的骨干，而非从头训练或使用小型模型，这利用了 LLM 强大的语言理解能力和世界知识，简化了架构，提升了上下文理解和文本与语音词元对齐能力。
FSQ 提升码本效率： FSQ 相较于 VQ 在语音词元化中被证明能更有效地利用码本，捕获更多语义信息，从而改善下游 TTS 任务的性能。
块感知因果流匹配： 针对流匹配模型固有的离线特性，CosyVoice 2 提出了创新的块感知因果设计，通过不同掩码策略使其能够处理流式数据，这是对 NAR 生成模型在流式应用方面的重要突破。
增强的指令控制： 提供了更细致、更丰富的指令控制能力，使用户能够生成更具表现力和多样化的语音。

4. 方法论

CosyVoice 2 沿袭了其前身的设计理念 [34]，将语音信号的语义信息和声学信息分离并独立建模。语音生成过程被重新定义为渐进式语义解码 (gradual semantic decoding)，其中条件信息逐步引入。具体来说，文本-语音语言模型 (text-speech language model, LM) 专注于语义信息，将高层文本词元解码为监督语义语音词元 (supervised semantic speech tokens)。在流匹配模型 (Flow Matching model) 中，声学细节（如音色）通过说话人嵌入 (speaker embeddings) 和参考语音 (reference speech) 引入，将语音词元转换为特定说话人的梅尔频谱 (Mel spectrum)。最后，预训练的声码器模型 (vocoder model) 恢复相位，将梅尔频谱转换回原始音频信号。

下图（原文 Figure 1）提供了 CosyVoice 2 的整体概览：

fig 3 该图像是一个示意图，展示了CosyVoice 2模型的结构，包括监督语音标记器、文本-语音语言模型和块感知流匹配模型的组成部分。图中的步骤和输出目标标签详细说明了模型的处理流程，部分公式包括 $P(Y|X)$ 的条件概率表示。

4.1. 文本词元器 (Text Tokenizer)

CosyVoice 2 直接使用原始文本作为输入，并使用基于字节对编码 (Byte-Pair Encoding, BPE) 的文本词元器对其进行词元化。这种方法消除了对通过字素到音素 (grapheme-to-phoneme, g2p) 转换获取音素的前端模型的需求，从而简化了数据预处理工作流，并使模型能够以端到端的方式学习不同语境下单词的发音。

与文本 LLM 中常用的词元器不同，CosyVoice 2 会掩盖 (masks out) 长度超过一个字符的词元。这样可以防止词元的发音过长，并减少因数据稀疏性导致的边缘情况。具体而言，如果一个 BPE 词元编码了多个汉字，它将被掩盖，每个汉字在词元化过程中将被单独编码。对于其他语言（如英语、日语和韩语），则不进行特殊处理。

4.2. 监督语义语音词元器 (Supervised Semantic Speech Tokenizer)

如上图（原文 Figure 1 (a)）所示，研究人员将有限标量量化 (Finite Scalar Quantization, FSQ) 模块 [42] 插入到 SenseVoice-Large ASR 模型 [43] 的编码器中。

在训练阶段，输入语音 $X$ 经过 $Encoder_1$ 获得中间表示。 $Encoder_1$ 包含六个带有旋转位置嵌入 (rotary positional embedding) [44] 的 Transformer 块。然后，这些中间表示被馈送到 FSQ 模块进行量化，量化后的表示再通过 SenseVoice-Large 模型的其余模块（包括 $Encoder_2$ 和 ASR 解码器），以预测相应文本词元的后验概率。

在 FSQ 模块中，中间表示 $H$ 首先被投影到一个 $D$ 维的低秩空间。该低秩空间中每个维度上的值被量化到 $[-K, K]$ 范围内，通过有界舍入操作 (bounded round operation) ROUND 实现。然后，量化后的低秩表示 $\bar{H}$ 被投影回原始维度，供后续模块使用。这一过程由以下公式描述： $\begin{array}{rl} & {\bar{H} = \mathrm{ROUND}(\mathrm{Proj}_{down}(H))}\\ & {\bar{H} = \mathrm{Proj}_{up}(\bar{H})} \end{array} \quad (1)$ 其中：

$H$ ： $Encoder_1$ 输出的中间表示。
$\mathrm{Proj}_{down}$ ：将 $H$ 投影到 $D$ 维低秩空间的投影操作。
$\mathrm{ROUND}$ ：有界舍入操作，将值量化到 $[-K, K]$ 范围内。
$\bar{H}$ ：量化后的低秩表示。
$\mathrm{Proj}_{up}$ ：将 $\bar{H}$ 投影回原始维度的投影操作。

在训练阶段，使用直通估计 (straight-through estimation) 来近似 FSQ 模块和 $Encoder_1$ 的梯度。语音词元 (speech token) $\mu_i$ 可以通过计算量化后的低秩表示 $\bar{h}_i$ 在 $(2K+1)$ 进制系统中的索引来获得： $\mu_{i} = \sum_{j = 0}^{D - 1}\bar{h}_{i,j}(2K + 1)^{j} \quad (2)$ 其中：
$\mu_i$ ：第 $i$ 个语音词元。
$\bar{h}_{i,j}$ ：第 $i$ 个量化后的低秩表示 $\bar{h}_i$ 的第 $j$ 个维度上的值。
$D$ ：低秩空间的维度。
$K$ ：量化范围的上限（即值在 $[-K, K]$ 之间）。
$(2K+1)$ ：量化基数，因为每个维度有 $2K+1$ 个可能的值（从 -K 到 $K$ ）。

$Encoder_1$ 、FSQ 模块的低秩投影器、有界舍入操作和索引计算共同构成了 CosyVoice 2 的语音词元器。该语音词元器以 $25\mathrm{Hz}$ 的词元率工作，即每秒生成 25 个语音词元。

4.3. 统一文本-语音语言模型 (Unified Text-Speech Language Model)

在 CosyVoice 2 中，预训练的文本 LLM Qwen2.5-0.5B [45] 被用作文本-语音语言模型，用于以自回归 (autoregressively) 方式根据输入文本生成语音词元。

如下图（原文 Figure 2）所示，与一般语言模型类似，文本-语音 LM 也采用下一个词元预测 (next-token-prediction) 方案进行训练。

fig 2 该图像是示意图，展示了 CosyVoice 2 模型在流式和非流式模式下的工作机制。上部分表示流式模式，其中包含文本标记、语音标记、填充标记和忽略标记的分布；下部分表示非流式模式，展示了相同的元素。这些模式共享统一的流式与非流式语言模型架构。

与之前的 CosyVoice 不同，本模型移除了说话人嵌入 (speaker embedding)，以避免信息泄露。更重要的是，研究发现这种话语级别的向量不仅包含说话人身份，还包含语言和副语言信息 (paralinguage information)，这损害了文本-语音 LM 的韵律自然度和跨语言能力。此外，也放弃了之前 CosyVoice 的文本编码器，因为 Qwen2.5-0.5B 模型足够强大，能够对齐文本和语音词元，不再需要文本编码器。

得益于文本-语音 LM 的简洁性，研究人员可以构建一个统一的模型来支持流式 (streaming) 和非流式 (non-streaming) 合成。在这里，“流式模式”意味着输入文本以连续流的形式接收，而不是预先知道一个完整的句子。在 CosyVoice 2 中，流式和非流式模式的区别仅在于 LM 的序列构建方式：

非流式模式 (Non-Streaming mode)：
- 序列结构：“start of sequence” ( $\mathbb{S}$ ), 所有文本词元, “turn of speech” 词元 ( $\Upsilon$ ), 所有语音词元, “end of sequence” ( $\sqsubseteq$ )。
- 如上图（原文 Figure 2）底部所示，这些词元按顺序串联。
- “Ignore token” 意味着在最小化交叉熵目标函数时，其损失被忽略。
流式模式 (Streaming mode)：
- 序列结构：文本词元和语音词元以预定义的 N:M 比例混合。即每 $N$ 个文本词元后跟着 $M$ 个语音词元。
- 如上图（原文 Figure 2）顶部所示。
- 如果下一个词元是文本词元，模型应预测一个填充词元 (filling token)（而不是文本词元），这表示在推理阶段应串联接下来的 $N$ 个文本词元。
- 一旦文本词元用完，“turn of speech” 词元 ( $\Upsilon$ ) 和剩余的语音词元将按顺序串联，形成流式模式下的混合文本-语音词元序列。
- 在实验中， $N$ 和 $M$ 分别设置为 5 和 15。
  
  通过同时在上述两种序列上训练文本-语音 LM，可以在一个统一模型中执行流式和非流式语音生成。在实际场景中，例如说话人微调 (speaker fine-tuning, SFT) 和上下文学习 (in-context learning, ICL)，推理序列会有所不同：
ICL, 非流式：
- LM 需要来自参考音频的提示文本 (prompt text) 和提示语音词元 (prompt speech tokens) 来模仿口音、韵律、情感和风格。
- 在非流式模式下，提示文本和待合成文本词元被连接成一个整体，提示语音词元被视为预生成的固定结果："S", prompt_text, text, T, prompt_speech"。
- LM 的自回归生成从该序列开始，直到检测到 “End of sequence” 词元 $E$ 。
ICL, 流式：
- 假设待生成文本已提前知晓，语音词元应以流式方式生成。
- 提示文本和待生成文本被视为一个整体。然后，它与提示语音词元以 N:M 的比例混合："S, mixed_text_speech, T, remaining_speech"。
- 如果文本长度大于提示语音词元，LM 将生成“填充词元”。在这种情况下，手动填充 $N$ 个文本词元。
- 如果文本词元用完，将添加 “Turn of speech” 词元 $T$ 。
- 在流式模式下，每 $M$ 个词元返回一次生成结果，直到检测到 $E$ 。
SFT, 非流式：
- 在 SFT 场景中，LM 在特定说话人上进行微调，不再需要提示文本和语音。
- 初始序列非常简单："S, text, T"。
- 文本-语音 LM 从此开始自回归生成语音词元，直到 $T$ 。
SFT, 流式：
- 在 SFT 的流式模式下，从序列 “S, first_N_text” 开始语音生成。
- 然后，LM 将生成 $M$ 个语音词元，并手动填充接下来的 $N$ 个文本词元。
- 重复上述过程，直到所有文本词元用完，然后添加 $T$ 。
- 这种模式也可被语音到语音多模态大型语言模型 (speech-to-speech multi-modal large language models) 采用，以实现极低的延迟。

4.4. 块感知流匹配 (Chunk-aware Flow Matching)

在 CosyVoice 2 中，采用梅尔频谱 (Mel spectrogram) 作为声学特征，帧率为 $50\mathrm{Hz}$ ，采样率为 $24000\mathrm{Hz}$ 。由于语音词元和梅尔特征之间的帧率不匹配，将语音词元以二倍率上采样，以匹配梅尔频谱的帧率。在上采样操作之前，添加一个额外的先行卷积层 (look-ahead convolution layer)，为后续的因果模块提供未来信息。先行层通过右填充大小为 $P$ 且核大小为 $P+1$ 的 1-D 卷积实现。之后，跟随几个块感知因果 Transformer 块 (chunk-aware causal Transformer blocks)，以对齐语音词元的表示空间，使其与声学特征匹配。

如下图（原文 Figure 3）所示，接下来，目标是将语音词元进一步解码为由说话人嵌入和参考语音指定的梅尔频谱。

fig 4 该图像是一个示意图，展示了CosyVoice 2模型的架构，包括Causal Conv-Transformer UNet、上采样语音标记和因果变换器编码器等组件，以及不同类型的掩码（Non-causal Mask和Full-causal Mask）。

为实现此目标，研究人员采用条件流匹配 (conditional flow matching, CFM) 模型来采样梅尔频谱，其条件是语音词元、参考语音和说话人嵌入。在 CFM 模型中，目标梅尔频谱的分布由从先验分布 (prior distribution) $p_0(X)$ 到数据分布 (data distribution) q(X) 的概率密度路径 (probability density path) 描述。该概率密度路径可由一个时间依赖的向量场 (time-dependent vector field) 定义。为了采样效率，采用最优传输 (optimal-transport, OT) 流来匹配向量场 $\omega_t$ ，该向量场由以下常微分方程 (ordinary differential equation, ODE) 给出： $\begin{array}{r l} & {\omega_{t}(\phi_{t}^{Q T}(X_{0},X_{1})|X_{1}) = X_{1} - X_{0}}\\ & {\quad \phi_{t}^{O T}(X_{0},X_{1}) = (1 - t)X_{0} + tX_{1}}\\ & {\qquad X_{0}\sim p_{0}(X) = \mathcal{N}(0,I)}\\ & {\qquad X_{1}\sim q(X)} \end{array} \quad (5)$ 其中：

$X_0 \sim p_0(X) = \mathcal{N}(0,I)$ ：来自标准高斯分布的噪声样本。
$X_1 \sim q(X)$ ：来自目标数据分布（梅尔频谱）的样本。
$t \in [0, 1]$ ：时间步。
$\phi_t^{OT}(X_0, X_1)$ ：从 $X_0$ 到 $X_1$ 的最优传输路径上，在时间 $t$ 时的状态。
$\omega_t(\phi_t^{OT}(X_0, X_1)|X_1)$ ：在路径上，时间 $t$ 时的向量场，表示从当前状态指向目标 $X_1$ 的方向。

使用因果卷积 Transformer UNet (causal convolutional Transformer UNet) 来学习上述 ODE，条件是上采样后的词元 $\mu$ 、掩码后的语音特征 $\tilde{X}_1$ 、说话人嵌入 $\mathbf{v}$ 和时间步 $t$ ： $\nu_{t}(\phi_{t}^{OT}(X_{0},X_{1})|\theta) = \mathrm{UNet}_{\theta}\left(\phi_{t}^{OT}(X_{0},X_{1}),t;\mathbf{v},\{\mu \}_{1:L},{\tilde{X}}_{1}\right) \quad (7)$ 其中：
$\nu_t(\cdot|\theta)$ ：由参数为 $\theta$ 的 UNet 模型预测的向量场。
$\phi_t^{OT}(X_0,X_1)$ ：在时间 $t$ 时的路径状态。
$t$ ：时间步。
$\mathbf{v}$ ：说话人嵌入。
$\{\mu\}_{1:L}$ ：长度为 $L$ 的语音词元序列。
$\tilde{X}_1$ ：掩码后的梅尔频谱（在训练时随机掩码，在推理时从参考语音提取）。

在训练阶段，掩码后的梅尔频谱通过随机掩码 $X_1$ 中 $70\%$ 到 $100\%$ 的最终帧来获得。在推理阶段，它由从参考语音中提取的梅尔频谱提供。通过最小化预测 ODE 和真实 ODE 之间的 L1 损失，可以优化 UNet 参数 $\theta$ ： $\theta = \arg \min_{\theta}\mathbb{E}_{p_{0}(X),q(X),t}\Bigl |\omega_{t}(\phi_{t}^{OT}(X_{0},X_{1})) - \nu_{t}(\phi_{t}^{OT}(X_{0},X_{1})|\theta ;\mu ,\tilde{X}_{1},\mathbf{v})\Bigr |_{1} \quad (8)$ 其中：
$\mathbb{E}_{p_0(X),q(X),t}$ ：表示对 $X_0 \sim p_0(X)$ 、 $X_1 \sim q(X)$ 和 $t \sim U[0,1]$ 的期望。
$|\cdot|_1$ ：L1 范数，表示预测向量场与真实向量场之间的绝对差。

在训练阶段，时间步 $t$ 服从均匀分布 U[0,1]。然而，在推理阶段，采用余弦调度器 (cosine scheduler) 为初始生成阶段提供更多步骤： $t\coloneqq 1 - \cos \left(\frac{1}{2} t\pi\right) \quad (9)$

此外，模型还在有条件和无条件情况下进行训练，以在推理阶段启用分类器自由引导 (classifier-free guidance, CFG) [46-48]： $\tilde{\nu}_{t}(\phi_{t}^{a T}(X_{0},X_{1})|\theta ;\Psi) = (1 + \beta)\cdot \nu_{t}(\phi_{t}^{a T}(X_{0},X_{1})|\theta ;\Psi) - \beta \cdot \nu_{t}(\phi_{t}^{a T}(X_{0},X_{1})|\theta) \quad (10)$ 其中：

$\Psi$ 表示条件 $\{\mathbf{v}, \mu, \tilde{X_1}\}$ 。
$\nu_t(\cdot|\theta ;\Psi)$ 是有条件预测的向量场。
$\nu_t(\cdot|\theta)$ 是无条件预测的向量场（通过将条件置零或掩码获得）。
$\beta$ 是 CFG 强度，用于控制条件对生成结果的影响程度。当 $\beta > 0$ 时，模型会更强烈地遵循条件。

CFG 强度 $\beta$ 和流估计次数 (Number of Flow Estimations, NFE) 根据实验结果分别设置为 0.7 和 10。

当前的流匹配模型通常在离线模式下工作，即只有在所有语音词元都生成后，才能采样梅尔频谱，这不利于流式合成。为了解决这个问题，研究人员将多步流估计视为一个堆叠的更深层神经网络，将 UNet 重复十次。通过使展开的神经网络具有因果性 (causal)，可以将其应用于流式合成。为此，构建了四种掩码来适应不同的应用场景：

非因果掩码 (Non-causal Mask)： 用于离线模式，通过关注所有帧的条件可以实现最佳性能。适用于对延迟不敏感的场景。
部分掩码 (Partial mask)： 专为需要极低延迟的场景设计，仅能关注过去的帧。
块- $M$ 掩码 (Chunk- $M$ Mask)： 在延迟和性能之间进行权衡，可以利用过去信息和 $M$ 个未来帧的信息。更适用于低延迟的第一个生成块。
块-2M 掩码 (Chunk-2M Mask)： 通过牺牲更多延迟，可以实现接近离线模式的性能。可用于级联生成块以获得更好的性能。

在小批量训练中，对于每个训练案例，都会从上述四种掩码中以均匀分布随机采样一种。通过这种方式，一个流匹配模型可以兼容不同的场景，降低了部署复杂性。这种块感知训练 (chunk-aware training) 的另一个优势是，具有更多上下文的掩码可以作为上下文较少的掩码的“教师”，从而受益于隐式的自蒸馏 (self-distillation) 机制。

4.5. 流式模式的延迟分析 (Latency Analysis for Streaming Mode)

首包延迟 (first-package latency) 是流式合成模型的重要指标，尤其在基于 LLM 的语音聊天应用（如 GPT-4o [36]）中，它显著影响用户体验。在 TTS 的背景下，待合成文本是预先知道的，延迟来自语音词元生成、梅尔频谱重建和波形合成。因此，CosyVoice 2 的首包延迟 $L_{TTS}$ 可以通过以下公式获得： $L_{T T S} = {M\cdot d_{l m} + M\cdot d_{f m} + M\cdot d_{v o c}} \quad (11)$ 其中：

$M$ ：流式模式下每个块中语音词元的数量。
$d_{lm}$ ：LM 生成一个语音词元的计算时间。
$d_{fm}$ ：流匹配模型为对应一个语音词元生成梅尔频谱帧的计算时间。
$d_{voc}$ ：声码器合成对应一个语音词元的波形的计算时间。

在基于 LLM 的语音聊天背景下，还需要考虑首包所需的文本长度，此时首包延迟 $L_{Chat}$ 变为： $L_{C h a t}\leq N\cdot d_{l l m} + L_{T T S} \quad (12)$ 其中：
$N$ ：流式模式下每个块中文本词元的数量。
$d_{llm}$ ：LLM 生成一个文本词元的计算时间。

值得注意的是，由于 CosyVoice 2 的文本词元器中多字符词元被掩盖，文本 LLM 使用的文本词元总是比 CosyVoice 2 的词元编码更长的原始文本。因此，首包延迟 $L_{Chat}$ 必须低于 $N \cdot d_{llm}$ 和 $L_{TTS}$ 的总和。

4.6. 指令式生成 (Instructed Generation)

为了增强 CosyVoice 2 的可控性，研究人员将指令式数据集集成到基础训练集中。收集了 1500 小时的指令式训练数据，包括自然语言指令和细粒度指令，如表 1 所示。

自然语言指令： 在待合成输入文本前，添加自然语言描述和特殊的结束词元 $“<|endofprompt|>”$ 。这些描述涵盖情感、语速、角色扮演和方言等方面。

细粒度指令： 在文本词元之间插入发声爆发 (vocal bursts)，使用标记如 “[laughter]”（笑声）和 “[breath]”（呼吸声）。此外，对短语应用声学特征标签 (vocal feature tags)；例如， $“<strong><Xx></strong>”$ 表示对某些单词的强调，而 $“<laughter><laughter>”$ 表示带笑的说话。

以下是原文 Table 1 的示例：

Natural Language Instruction
Emotion: 高兴(Happy), 悲伤(Sad), 惊讶(Surprised), 愤怒(Angry), 恐惧(Fearful), 厌恶(Disgusted), 冷静(Calm), 严肃(Serious)	- 你能用高兴的情感说吗? <\|endofprompt\|>今天真是太开心了,马上要放假了！I'm so happy, Spring Festival is coming!
Speaking Rate: 快速(Fast), 非常快速(Very Fast), 慢速(Slow), 非常慢速(Very Slow)	- Please speaking very fast.<\|endofprompt\|> Today is a happy day, full of laughter and joy.
Dialect: 粤语, 四川话, 上海话, 郑州话, 长沙话, 天津话	- 请问你能模仿粤语的口音吗? <\|endofprompt\|> 多保重,早休息。
Role-playing: 神秘(Mysterious), 凶猛(Fierce), 好奇(Curious), 优雅(Elegant), 孤独(Lonely), 机器人(Robot), 小猪佩奇(Peppa), etc.	- 尝试一下以机器人的角色和我交流。<\|endofprompt\|> 接收知识光波!
Fine-grained Instruction
Vocal Bursts: [laughter], [breath], etc.	- [laughter]有时候,看着小孩子们的天真行为[laughter],我们总会会心一笑。
Vocal Features: {laughter}</laughter>, <strong></strong>	- She pursued her dreams with <strong>enthusiasm</strong> and <strong>grit</strong>

4.7. 多说话人微调 (Multi-Speaker Fine-tuning, mSFT)

在多说话人微调 (multi-speaker fine-tuning, mSFT) 中，预训练模型在多个说话人上同时进行微调，而不是单个说话人。这种方法确保了跨多个说话人的全面韵律和发音覆盖，并减轻了预训练模型可能出现的灾难性遗忘 (catastrophic forgetting)。为了避免不同说话人之间的音色混淆，对于特定说话人的输入文本，在前面加上说话人提示标签： $“Speaker A<|endofprompt|>”$ 。如果训练样本未标记说话人，则使用特殊标签 $“unknown<|endofprompt|>”$ 。在整个多说话人微调过程中，学习率设置为 1e-5。

4.8. 基于强化学习的 SFT (Reinforcement Learning for SFT)

强化学习 (Reinforcement Learning, RL) 是大型语言模型训练中常用的一种方法，可以使 LM 的输出与人类偏好保持一致。在 CosyVoice 2 中，研究人员使用说话人相似性 (Speaker Similarity, SS) 和自动语音识别 (ASR) 系统的词错误率 (Word Error Rate, WER) 作为奖励函数，以在微调阶段提高说话人相似性和发音准确性。

使用 WER 和 SS 来区分偏好样本 (preferred sample) $x^u$ 和拒绝样本 (rejected samples) $x^t$ ，并使用直接偏好优化 (Direct Preference Optimization, DPO) [49] 优化 TTS 系统，如下所示： $L_{DPO}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\log \sigma (\beta \log \frac{\pi_{\theta}(\mu^{w}|y)}{\pi_{\mathrm{ref}}(\mu^{w}|y)} -\beta \log \frac{\pi_{\theta}(\mu^{t}|y)}{\pi_{\mathrm{ref}}(\mu^{t}|y)}) \quad (13)$ 其中：

$L_{DPO}(\pi_{\theta};\pi_{\mathrm{ref}})$ ：DPO 损失函数，用于优化策略 $\pi_{\theta}$ 相对于参考策略 $\pi_{\mathrm{ref}}$ 。
$\pi_{\theta}(\mu|y)$ ：由当前模型 $\theta$ 生成语音词元 $\mu$ 给定文本 $y$ 的概率。
$\pi_{\mathrm{ref}}(\mu|y)$ ：由参考模型生成语音词元 $\mu$ 给定文本 $y$ 的概率。
$\mu^w$ ：从偏好样本 $x^w$ 中提取的语音词元。
$\mu^t$ ：从拒绝样本 $x^t$ 中提取的语音词元。
$y$ ：输入文本。
$\sigma(\cdot)$ ：Sigmoid 函数。
$\beta$ ：超参数，控制偏好差异的强度。

然而，这种方法耗时且计算量大，因为它需要重复通过 TTS 系统合成音频以获得可区分的偏好样本和拒绝样本。在训练期间，一个训练步骤需要进行四次前向操作。为了简化过程，研究人员将 LM 预测的词元 $\mu_i \in \{0,1,\ldots,(2K + 1)^D - 1\}$ 恢复为量化低秩表示 $\bar{H}$ ，并直接使用语音词元器的 ASR 后端重新预测输入文本。然后，预测的对数后验概率 (log posterior) 可以被视为 ASR 奖励函数，用于优化文本-语音语言模型。在训练期间，ASR 后端参数被冻结。 $\bar{h}_{i,j} = \left|\frac{\mu_{i}}{(2K + 1)^{j}}\right| \mod (2K + 1) \quad (14)$ 其中：
$\bar{h}_{i,j}$ ：第 $i$ 个语音词元 $\mu_i$ 恢复后，低秩表示的第 $j$ 个维度上的值。
$(2K+1)$ ：量化基数。

$\begin{array}{c}\hat{H} = \mathrm{Proj}_{\mu p}(\hat{H})\\ L_{ASR} = -\log P(Y|\hat{H};\theta_{ASR}) \end{array} \quad (15)$ 其中：
$Y$ ：输入文本。
$\hat{H}$ ：恢复的语音低秩表示。
$L_{ASR}$ ：ASR 损失函数，表示在给定恢复的语音表示 $\hat{H}$ 的情况下，预测输入文本 $Y$ 的负对数概率。
$P(Y|\hat{H};\theta_{ASR})$ ：ASR 后端在参数 $\theta_{ASR}$ 下，给定语音表示 $\hat{H}$ 时，预测文本 $Y$ 的概率。

由于采样操作 $\mu_i \sim P(\mu_i|\mu_{1:i-1},Y;\theta_{LM})$ 仍然阻止直接优化模型，研究人员使用Gumbel Softmax 采样 (Gumbel Softmax sampling) 使其可微分，然后通过 $L_{ASR}$ 优化 $\theta_{LM}$ 。

5. 实验设置

5.1. 数据集

5.1.1. 语音词元器的训练数据

一个 200,000 小时的数据集用于训练语音词元器，并带有标准化转录文本作为标签。训练数据来自三个不同来源：开源 ASR 数据集、内部工业数据集和 TTS 生成数据集。尽管训练语音词元器时仅使用了中文和英文数据，但后续实验表明，该语音词元器对其他语言（如日语和韩语）也具有零样本能力。

以下是原文 Table 2 的结果：

Language	Duration (hours)
Chinese	110,884
English	99,918

5.1.2. CosyVoice 2 的训练数据

CosyVoice 2 与其前一个版本 [34] 共享相同的训练数据。首先，使用内部语音处理工具收集仅语音数据。随后，使用 Paraformer [50] 和 SenseVoice [43] 分别为中文和其他语言生成伪文本标签。还使用内部强制对齐模型来过滤低质量数据并提高标点符号的准确性。

以下是原文 Table 3 的结果：

Language	Duration (hours)
Chinese	130,000
English	30,000
Japanese	4,600
Korean	2,200

5.2. 评估指标

论文使用了以下评估指标：

词错误率 (Word Error Rate, WER) / 字错误率 (Character Error Rate, CER)
- 概念定义： WER 或 CER 是衡量语音识别系统（或此处指 TTS 生成语音内容与文本内容一致性）性能的常见指标。它计算将识别出的词/字符序列转换为参考词/字符序列所需的最小编辑操作（插入、删除、替换）次数，然后除以参考序列的总词/字符数。较低的 WER/CER 表示更好的内容一致性。
- 数学公式： $\text{WER} = \frac{S + D + I}{N} \times 100\%$ 其中 CER 的计算方式相同，只是将词替换为字符。
- 符号解释：
  - $S$ ：替换 (Substitutions) 的次数。
  - $D$ ：删除 (Deletions) 的次数。
  - $I$ ：插入 (Insertions) 的次数。
  - $N$ ：参考（真实）序列中的词或字符总数。
说话人相似性 (Speaker Similarity, SS)
- 概念定义： SS 旨在量化合成语音与参考语音在说话人音色方面的相似程度。较高的 SS 值表示合成语音的音色更接近参考语音。
- 数学公式： 论文中提到使用 ERes2Net 模型 [52] 提取提示语音和生成话语的说话人嵌入，并将其原始余弦相似度 (raw cosine similarity) 作为说话人相似性。 $\text{SS}(\mathbf{e}_{\text{gen}}, \mathbf{e}_{\text{ref}}) = \frac{\mathbf{e}_{\text{gen}} \cdot \mathbf{e}_{\text{ref}}}{\|\mathbf{e}_{\text{gen}}\| \|\mathbf{e}_{\text{ref}}\|}$
- 符号解释：
  - $\mathbf{e}_{\text{gen}}$ ：从生成语音中提取的说话人嵌入向量。
  - $\mathbf{e}_{\text{ref}}$ ：从参考语音中提取的说话人嵌入向量。
  - $\cdot$ ：向量点积。
  - $\|\cdot\|$ ：向量的 L2 范数（模长）。
标准化平均意见得分 (Normalized Mean Opinion Score, NMOS)
- 概念定义： NMOS 是一种客观的语音质量评估指标，旨在衡量语音的感知质量。它通常通过对多个降噪模型进行评估，并将其归一化到 0-1 范围，以量化语音的自然度、清晰度等。较高的 NMOS 值表示更好的语音质量。论文中引用了 [53] 作为 NMOS 的来源，这通常是一个客观的、无侵入式的语音质量指标，无需人工听觉评估。
- 数学公式： 论文中未直接给出 NMOS 的计算公式，但通常它是一个由特定模型（如 DNSMOS P.835）预测的感知质量分数，并进行归一化。 $\text{NMOS} = \text{DNSMOS\_P.835\_score} \in [1, 5] \text{ or normalized } [0, 1]$ 由于 DNSMOS P835 [53] 是一种非侵入式感知客观语音质量度量，它通常输出一个 1 到 5 的分数，其中 5 代表最佳质量。论文中给出的分数也在此范围内，所以不进行额外归一化。
- 符号解释：
  - $\text{DNSMOS\_P.835\_score}$ ：由 DNSMOS P.835 模型预测的语音质量得分。
指令平均意见得分 (Mean Opinion Score for Instruction, MOS-I)
- 概念定义： MOS-I 是一种主观评估指标，用于衡量指令式生成语音中指令的准确性和自然度。评估员根据语音是否遵循了所有指定的指令（如情感、语速、方言、角色扮演等），以及这些指令的实现是否自然进行评分。分数范围通常从 1 到 5，较高的分数表示更好的指令执行准确性和自然度。
- 数学公式： $\text{MOS-I} = \frac{1}{N} \sum_{i=1}^{N} S_i$
- 符号解释：
  - $N$ ：参与评估的听众总数。
  - $S_i$ ：第 $i$ 位听众给出的得分。

5.3. 对比基线

研究团队将 CosyVoice 2 与以下模型进行了比较：

开源模型： ChatTTS [56], GPT-SoViTs [57], OpenVoice [58], ParlerTTS [59], EmotiVoice [60], CosyVoice [34] (前身)。
闭源模型： Seed-TTS [33] (商业模型), E2 TTS (32 NFE) [31], F5-TTS (32 NFE) [32] (这些在一些表格中被标记为 $\dagger$ 表示闭源)。
其他近期模型： FireRedTTS [35], MaskGCT [18]。
人类水平： 在某些指标中，也与人类语音的性能进行了比较。

这些基线模型代表了当前 TTS 领域的最先进 (state-of-the-art) 技术，包括基于编解码器语言模型、基于扩散模型以及混合系统的零样本 TTS 模型，覆盖了不同的模型架构和能力，从而能够全面评估 CosyVoice 2 的性能。

5.4. 评估设置

研究人员在两个主要测试集上评估 CosyVoice 2：

Librispeech test-clean 子集 [51]：
- 用途： 评估 CosyVoice 2 在有限英语领域中的性能。
- ASR 模型： Whisper-large V3 用于评估内容一致性（WER）。
- 说话人相似性 (SS) 模型： ERes2Net 模型 [52] 提取提示语音和生成话语的说话人嵌入，计算原始余弦相似度。
- 客观语音质量 (NMOS) 模型： NMOS score [53] 用于评估。
SEED 测试集 [33]：
- 用途： 广泛用于评估最新的 TTS 模型，涵盖各种文本领域和参考语音。
- test-zh 和 test-en： 分别从 CommonVoice 数据集 [54] 中选择约 2,000 个中文样本和 1,000 个英文样本。
- test-hard： 包含约 400 个困难测试案例 (hard test cases)，用于评估 TTS 模型在文本重复、绕口令和其他具有挑战性的合成情况下的鲁棒性。
- ASR 模型： Paraformer [50] 用于识别 test-zh 和 test-hard 的合成结果；Whisper-large V3 [54] 用于 test-en，评估内容一致性。
- 说话人验证 (SV) 模型： 使用两种模型评估说话人相似性：WavLM 微调 SV 模型和 ERes2Net。

5.4.1. 日本语和韩语的基准测试 (Benchmark for Japanese and Korean)

研究人员为日语和韩语语音合成准备了两个测试集，分别命名为 test-ja 和 test-ko。

test-ja：
- 由从 CommonVoice 数据集 [54] 中提取的 1,000 个样本组成，用于衡量模型在 WER、SS、MOS 等各项指标上的性能。
- 具体地，将整个 CommonVoice JA-test 集随机打乱并配对作为参考话语和目标话语。
- 考虑到 JA-test 集中话语文本长度范围广，从 8 到 32 个字符的长度范围内随机选择了 1,000 对参考-目标话语作为最终测试集。
test-ko：
- 选择了 1,000 个词错误率低于 5% 且没有删除或插入错误的语音样本，使用 Whisper-Large V3 [54] 作为 ASR 模型。这些样本用作韩语语音合成的参考话语。
- 对于输入文本，从剩余数据中随机选择了 1,000 个文本样本。
- 研究人员发布了这两个测试集的提示语音、提示转录和输入文本列表，以方便结果复现。通过提供这些开源数据，旨在建立一个评估日语和韩语 TTS 模型的基准。
- ASR 模型： Whisper-large V3 [54] 用于日语和韩语评估。

6. 实验结果与分析

6.1. 语音词元器评估 (Evaluations on Speech Tokenizer)

一个理想的语音词元器应该能够有效利用码本，以高保真度保留信息，并表现出说话人独立性。

以下是原文 Table 4 的结果：

Method	Codebook		ASR Error Rate (%)
Method	Size	Util.	C.V. EN	C.V. CN	Fluers EN	Fluers CN
VQ	4,096	963 (23%)	18.26	11.56	7.65	5.03
FSQ	6,561	6,561 (100%)	10.67	7.29	6.58	4.43

分析： 从 Table 4 可以看出，基于 FSQ 的词元器完全利用了码本（ $6,561 (100%)$ ），而传统的 VQ 码本利用率仅为 23%。在 ASR 错误率方面，FSQ 在所有 CommonVoice (C.V.) 和 Fluers 数据集上都显著低于 VQ，表明 FSQ 保持了更有效的信息，并捕获了更多的语义信息。这证实了 FSQ 在码本利用率和信息保留方面的优越性。

研究人员通过 t-SNE 可视化 (t-SNE visualization) 进一步分析了 FSQ 的特性。作为 TTS 任务的上游模型，词元器应尽量减少说话人身份信息与语音信号的纠缠。从 VoxCeleb1 数据集中选取了三位说话人各 100 个语音样本，并对相应的词元进行了可视化。

下图（原文 Figure 4）展示了语音表示的 t-SNE 可视化结果：

fig 1

分析：

Figure 4(a)（量化前）： 编码器输出在不同说话人之间呈现出不同的分布（清晰可分的聚类），表明量化前的表示包含了显著的说话人身份信息。
Figure 4(b)（量化后）： 量化表示的分布几乎无法区分，这意味着 FSQ 模块有效地解耦了说话人身份信息。
Figure 4(c)（码本利用率）： 展示了码本中每个量化值的词元百分比，证实了词元器充分利用了码本。

此外，使用 S3pr10 工具包 [55] 通过执行说话人识别 (Speaker Identification, SID) 任务来进一步评估说话人纠缠。使用带有 FSQ 的 Sensevoice-large 编码器作为上游特征提取器，并分别使用量化前和量化后的表示训练 SID 任务。

下图（原文 Figure 5）展示了 SID 训练的收敛曲线：

fig 5 该图像是一个训练和开发准确度的曲线图，展示了随着训练步骤的增加，SID准确度的变化情况。图中包含了四条曲线，分别表示编码器训练、编码器开发、量化训练和量化开发的准确度趋势，表现出不同的收敛速度和最终准确度。

分析： Figure 5 显示，使用量化后词元训练的 SID 层未能收敛，这进一步证明了词元器在解耦说话人信息方面的功能。这对于零样本 TTS 模型至关重要，因为它允许模型在合成语音时更好地分离内容和音色。

6.2. 与基线的比较结果 (Comparison Results with Baselines)

首先在有限的英语文本领域评估了 CosyVoice 2 模型，并与 ChatTTS [56]、GPT-SoViTs [57]、OpenVoice [58]、ParlerTTS [59]、EmotiVoice [60] 及其前身 CosyVoice [34] 等开源模型进行了比较。

以下是原文 Table 5 的结果：

Model	WER (%)	NMOS	SS
Human	2.66	3.84	0.697
ChatTTS [56]	6.84	3.89	-
GPT-SoViTs [57]	5.13	3.93	0.405
OpenVoice [58]	3.47	3.87	0.299
ParlerTTS [59]	3.16	3.86	-
EmotiVoice [60]	3.14	3.93	-
CosyVoice [34]	2.89	3.93	0.743
CosyVoice 2	2.47	3.96	0.745
CosyVoice 2-S	2.45	3.90	0.751

分析： 从 Table 5 可以看出，CosyVoice 2 在 Librispeech test-clean 数据集上取得了最先进的 (state-of-the-art) 性能，在所有评估指标上均超越了所有基线模型。值得注意的是，CosyVoice 2 甚至比人类语音表现出更高的内容一致性 (WER 2.47 vs 2.66)、语音质量 (NMOS 3.96 vs 3.84) 和说话人相似性 (SS 0.745 vs 0.697)，这表明其具有接近人类水平的合成质量 (human-parity synthesis quality)。CosyVoice 2-S (流式模式) 也表现出色，在 WER 和 SS 上略优于非流式 CosyVoice 2，NMOS 略低，但整体性能非常接近，体现了流式模式的有效性。

研究人员还在常用测试集：SEED test-zh、test-en 和 test-hard 上评估了 CosyVoice 2。

以下是原文 Table 6 的结果：

Model	test-zh		test-en		test-hard
Model	CER(%)↓	SS↑	WER(%)↓	SS↑
Human	1.26	0.755 (0.775)	2.14	0.734 (0.742)	-	-
Vocoder Resyn.	1.27	0.720	2.17	0.700	-	-
Seed-TTS†[33]	1.12	0.796	2.25	0.762	7.59	0.776
FireRedTTS [35]	1.51	0.635 (0.653)	3.82	0.460 (0.526)	17.45	0.621 (0.639)
MaskGCT [18]	2.27	0.774 (0.752)	2.62	0.714 (0.730)	10.27	0.748 (0.720)
E2 TTS (32 NFE)† [31]	1.97	0.730	2.19	0.710	-	-
F5-TTS (32 NFE) [32]	1.56	0.741 (0.794)	1.83	0.647 (0.742)	8.67	0.713 (0.762)
CosyVoice [34]	3.63	0.723 (0.775)	4.29	0.609 (0.699)	11.75	0.709 (0.755)
CosyVoice 2	1.45	0.748 (0.806)	2.57	0.652 (0.736)	6.83	0.724 (0.776)
CosyVoice 2-S	1.45	0.753 (0.812)	2.38	0.654 (0.743)	8.08	0.732 (0.785)

分析：

test-zh (中文测试集)： CosyVoice 2 在 CER (1.45%) 和 SS ( $0.748 (0.806)$ ) 方面超越了所有开源模型，仅略逊于商业模型 Seed-TTS ( $\dagger$ )。这表明其在中文合成方面表现出强大的能力。
test-en (英文测试集)： CosyVoice 2 在 WER (2.57%) 方面排名第四，在 SS ( $0.652 (0.736)$ ) 方面排名第三。论文指出这可能源于中文和英文训练数据量的不平衡，并计划在未来工作中通过数据扩展来增强英文内容一致性。
test-hard (困难测试集)： 离线模式的 CosyVoice 2 在 WER (6.83%) 和 SS ( $0.724 (0.776)$ ) 方面均取得了最先进的性能 (state-of-the-art performance)，超越了所有对比基线，这展示了其在挑战性合成场景中的鲁棒性。

与人类生成的语音相比，CosyVoice 2 展现出可比的内容一致性和卓越的说话人相似性。考虑到识别错误也可能源于 ASR 模型，可以得出结论 CosyVoice 2 达到了接近人类水平的合成能力 (human-parity synthesis capability)。

流式模式 (CosyVoice 2-S)： 在两种评估设置下，流式模式的性能在典型测试案例中几乎无损。仅在挑战性案例 (test-hard) 中内容一致性略有下降 (8.08% vs 6.83%)，这凸显了统一流式/非流式框架的强大之处。

说话人相似性评估： 论文指出不同 SV 模型（WavLM 和 ERes2Net）的说话人相似性结果不一致，这可能预示着如何自动评估 TTS 模型说话人相似性的新研究方向。因此，后续实验中统一使用 ERes2Net 进行说话人相似性评估。

6.3. 模块化消融研究 (Modular Ablation Study)

研究人员对文本-语音语言模型进行了模块化消融研究，以评估 LLM 初始化、移除说话人嵌入和使用 FSQ 等修改的影响。

以下是原文 Table 7 的结果：

Model	test-zh		test-en		test-hard
Model	CER (%)	SS	WER (%)	SS	WER (%)	SS
CosyVoice	3.63	0.775	4.29	0.699	11.75	0.755
+ LLM init.	2.96	0.808	4.57	0.730	9.94	0.789
+ Drop Spk Emb.	2.56	0.804	3.81	0.740	9.66	0.778
+ FSQ (CosyVoice 2)	1.45	0.806	2.57	0.736	6.83	0.776
+ Pitch Loss	1.19	0.802	2.40	0.728	6.29	0.769

分析：

基线 (CosyVoice)： 作为起点，各项指标表现一般。
+ LLM init. (LLM 初始化)： 通过用预训练 LLM 替换随机初始化的语言模型，test-zh 上的内容一致性相对改进了 18.46% ( $(3.63 - 2.96) / 3.63$ )，test-hard 上改进了 15.40% ( $(11.75 - 9.94) / 11.75$ )。这表明 LLM 强大的预训练能力显著提升了模型对文本和语音词元的对齐能力。
+ Drop Spk Emb. (移除说话人嵌入)： 移除文本-语音语言模型中的说话人嵌入后，内容错误显著减少（例如 test-zh CER 从 2.96% 降至 2.56%），同时说话人相似性得以保持。这支持了内容信息主要由 LM 建模，而说话人信息主要由流匹配模型恢复的设计理念。
+ FSQ (CosyVoice 2) (引入 FSQ)： 将 VQ 替换为 FSQ 后，内容一致性大幅提高（例如 test-zh CER 从 2.56% 降至 1.45%），而说话人相似性保持不变。这归因于 FSQ 充分利用码本，捕获更多内容信息和上下文变化，从而改善了文本与语音词元之间的对齐。
+ Pitch Loss (加入音高损失)： 在基于 FSQ 的语音词元器训练期间加入音高损失作为约束，进一步提高了下游 TTS 任务的性能，例如 test-zh CER 降至 1.19%。这表明音高信息对 TTS 任务的质量至关重要。

研究人员还进行了另一项模块分析，以评估流式模块对合成性能的影响。

以下是原文 Table 8 的结果：

Model	LM	FM	test-zh		test-en		test-hard
Model	LM	FM	CER (%)	SS	WER (%)	SS	CER (%)	SS
M1	Offline	Offline	1.45	0.806	2.57	0.736	6.83	0.776
M2	Offline	Stream.	1.46	0.811	2.60	0.743	7.12	0.788
M3	Stream.	Offline	1.38	0.806	2.51	0.737	7.88	0.773
M4	Stream.	Stream.	1.45	0.812	2.38	0.743	8.08	0.785

分析： 块大小在流式模块中设置为 15。

M1 (Offline LM, Offline FM)： 基线性能，即 CosyVoice 2 的离线模式性能。
M2 (Offline LM, Stream. FM)： 将流匹配模型切换到流式模式时，在典型案例 (test-zh, test-en) 上内容一致性略有下降或保持，说话人相似性略有提高。在困难案例 (test-hard) 上内容一致性略有下降。这表明流式流匹配模型的影响相对较小，这得益于 CosyVoice 2 中语义-声学解耦建模。
M3 (Stream. LM, Offline FM)： 将语言模型切换到流式模式时，在典型案例 (test-zh, test-en) 上性能变化不大，甚至在 test-zh 上 CER 略有下降。然而，在困难案例 (test-hard) 上内容一致性显著下降 (7.88% vs 6.83%)。这可能是由于流式 LM 在处理复杂文本时上下文信息丢失导致的。
M4 (Stream. LM, Stream. FM)： 整体流式模式下的 CosyVoice 2 性能。在典型案例上表现良好，但在困难案例 (test-hard) 上内容一致性下降最为明显 (8.08%)。

结论： 流式 LM 对典型案例的影响最小，验证了统一训练框架的有效性。其主要影响体现在困难案例中，这可能是由于流式模式下上下文信息丢失。流式流匹配模型对内容一致性的负面影响远小于流式 LM，这得益于 CosyVoice 2 中的语义-声学解耦建模。有趣的是，流式流匹配模型导致说话人相似性略高，这可能归因于流式模式中初始块的提示-生成比率更高，而离线模式中可能存在大量填充词元导致较低的提示-生成比率。

6.4. 日本语和韩语基准测试结果 (Results on Japanese and Korean Benchmarks)

除了中文和英文，CosyVoice 2 还支持日语和韩语。研究人员在构建的日语和韩语测试集上评估了内容一致性、说话人相似性和语音质量。

以下是原文 Table 9 的结果：

Model	test-ja			test-ko
Model	CER (%)	SS	NMOS	CER (%)	SS	NMOS
CosyVoice 2	18.79	0.630	3.42	7.98	0.707	3.73
CosyVoice 2-S	21.41	0.629	3.35	9.06	0.714	3.60

分析：

整体性能： CosyVoice 2 在韩语上的表现显著优于日语，在所有评估指标上都是如此。
日语性能下降： 日语的 CER 较高 (18.79%)，SS 和 NMOS 较低。论文指出这主要是由于日语和中文在字符集上的重叠，导致在日语语境中出现中文发音。未来工作计划增强多语言合成中的语言上下文。
韩语性能良好： 韩语的 CER 较低 (7.98%)，SS 和 NMOS 较高。由于韩语与其他语言没有字符重叠，其语音合成表现更好。
数据不平衡： 研究人员认为，增加训练数据量可以进一步提高日语和韩语的合成性能。

流式模式 (CosyVoice 2-S)： 在日语和韩语上，流式模式的性能相比非流式模式略有下降，但在 SS 方面表现出竞争力，甚至在韩语上 SS 略有提高。

6.5. 指令式生成结果 (Results on Instructed Generation)

为了评估指令式生成的性能，研究人员创建了一个包含 290 个样本的中文测试集。该测试集包括 29 种指令类型（如表 1 所示），每种类型有 10 个不同的输入文本。使用五个音频提示和来自五个说话人（三女两男）的说话人嵌入作为流匹配模型的条件。测试在离线模式下进行。客观评估指标包括内容一致性 (CER)、说话人相似性 (SS) 和语音质量 (NMOS)。主观评估采用指令平均意见得分 (MOS-I)，范围从 1 到 5，评估指令的准确性和自然度。每个样本由 10 位中文母语者评估，分数以 0.5 为增量。

以下是原文 Table 10 的结果：

Model	CER (%)	SS	NMOS	MOS-I
CosyVoice-Instruct [34]	1.72	0.797	3.94	3.09
CosyVoice 2	1.52	0.804	3.94	4.06
CosyVoice 2 w/o Instruction	0.97	0.817	4.02	2.28

分析：

CosyVoice 2 vs. CosyVoice-Instruct： CosyVoice 2 在内容一致性 (CER 1.52% vs 1.72%)、说话人相似性 (SS 0.804 vs 0.797) 和指令控制的准确性与自然度 (MOS-I 4.06 vs 3.09) 方面均表现优异，同时保持了与 CosyVoice-Instruct 可比的语音质量 (NMOS 3.94)。这表明 CosyVoice 2 的指令式生成能力有了显著提升。
CosyVoice 2 w/o Instruction (无指令输入)： 当从 CosyVoice 2 中移除输入指令时，MOS-I 显著下降 (2.28)，但内容一致性 (CER 0.97%)、说话人相似性 (SS 0.817) 和语音质量 (NMOS 4.02) 却有所改善。这表明指令的可控性难以从内容文本中隐式地浮现，需要明确的指令。同时，在没有额外指令约束的情况下，模型可以更专注于生成高质量、高内容一致性的语音。

6.6. 说话人微调模型结果 (Results on Speaker Fine-tuned Models)

在微调阶段，研究人员对同一说话人的说话人嵌入进行无监督聚类，以确保说话人音色的稳定性。结果表明，即使目标说话人只有 400 条音频录音，也能实现相当好的语音合成性能，不同说话人之间的客观指标仅有轻微差异。

下图（原文 Figure 6）展示了 CosyVoice 2 SFT 模型在 SEED 评估设置下的结果：

分析： Figure 6 展示了不同说话人（Spk A-E）在 SFT 后的性能。

内容一致性 (CER/WER)： 大多数说话人在微调后都能保持较低的错误率，例如 Spk A, B, C 在 test-zh 上 CER 都在 1% 左右。这表明 SFT 能够有效地将基础模型的鲁棒性继承到特定说话人上。
说话人相似性 (SS)： SFT 模型在大多数说话人上都取得了高 SS 值，验证了微调能够提升特定说话人的音色相似度。
鲁棒性： 即使是困难案例 (test-hard)，微调后的模型也表现出了一定的鲁棒性，虽然相较于典型案例错误率略高，但仍在可接受范围内。

研究表明，大多数说话人可以继承零样本 TTS 模型的强大上下文理解和感知能力，从而根据输入文本自然地表达各种情绪和情感。

6.7. 基于强化学习的 LM 微调 (LM Fine-tuning with Reinforcement Learning)

尽管 SFT 可以提高大多数说话人的性能，但 Spk E 的结果仍然比基础模型差，尤其是在英语方面。这是因为 Spk E 的声音更复杂，语速更快，并且只有中文录音可用。因此，研究人员对 Spk E 应用了强化学习以进一步改进。

对于 DPO，研究人员通过 SFT 模型合成了 10 万个样本对，以通过 ASR 和 SS 奖励改变 LM 的偏好。还使用可微分的 ASR 奖励来优化 LM 参数。在 RL 之后，评估了 Spk E 测试集上的内容一致性 (WER)、说话人相似性 (SS) 和语音质量 (NMOS)，并进一步评估了 SeedTTS 测试集上的 WER，以探究模型是否能保持对域外或跨语言输入文本的鲁棒性。

以下是原文 Table 11 的结果：

Model	Inhome Target Speaker			SEED tests(%)
Model	WER(%)	NMOS	SS	zh	en	hard
Ground Truth	6.00	3.87	0.697	1.26	2.14	-
CosyVoice 2	5.34	3.91	0.721	1.45	2.57	6.83
CosyVoice 2-SFT	7.15	3.96	0.795	1.50	4.26	7.90
+LASR	6.79	3.96	0.795	1.29	3.53	7.30
+ LDPO	6.83	3.96	0.792	1.43	4.02	8.31
+ LASR+LDPO	6.64	3.97	0.796	1.25	3.17	6.66

分析：

SFT 的影响： 与预训练的基础模型 (CosyVoice 2) 相比，SFT 模型 (CosyVoice 2-SFT) 展现出更高的说话人相似性 (0.795 vs 0.721) 和语音质量 (3.96 vs 3.91)。然而，WER 在目标说话人 (7.15% vs 5.34%) 和 SEED test-en (4.26% vs 2.57%) 上反而更高。研究发现，基础模型生成的音频语速通常比 SFT 和真实音频慢，这可能对 ASR 系统更友好，导致 WER 较低。
强化学习 (+LASR, +LDPO)：
- +LASR (可微分 ASR 奖励)： 在目标说话人上，WER 略有降低 (6.79% vs 7.15%)，且对 SS 和 NMOS 无害。在 SEED 测试集上，test-zh 显著降低 (1.29% vs 1.50%)，test-en 也有改善。这表明可微分 ASR 奖励在目标说话人和域外情况下都具有更好的泛化能力。
- +LDPO (DPO 偏好优化)： 在目标说话人上，WER 也有降低 (6.83% vs 7.15%)，对 SS 和 NMOS 影响不大。然而，在 SEED test-hard 上 WER 显著增加 (8.31% vs 7.90%)。论文解释这可能是因为 test-hard 样本包含许多重复词或短语，在 DPO 训练中可能被视为拒绝样本。
- +LASR+LDPO (结合两者)： 结合可微分 ASR 奖励和 DPO 偏好优化，在目标说话人上实现了最低的 WER (6.64%)，同时保持了高 SS 和 NMOS。在 SEED test-zh 上 WER 进一步降低 (1.25%)，test-en 也有改善，并且在 test-hard 上 WER 达到了所有 SFT 变体中的最低值 (6.66%)。这表明结合两种强化学习方法可以带来进一步的改进，尤其是在复杂和域外情况下。
  
  结论： 强化学习，特别是结合可微分 ASR 奖励和 DPO，能够有效降低微调模型的 WER，提升内容一致性，同时保持高说话人相似性和语音质量，即使对于复杂或特定说话人的语音也能取得良好效果，并展现出更好的泛化能力。

7. 总结与思考

7.1. 结论总结

本文介绍了 CosyVoice 2，一个在 CosyVoice 成功基础上改进的流式语音合成模型，其核心创新在于充分利用了大型语言模型。通过以下关键技术创新和系统优化，CosyVoice 2 实现了显著的性能飞跃：

统一的流式与非流式框架： 创新的统一文本-语音语言模型和块感知因果流匹配模型，使得单个模型能够灵活支持流式和非流式合成，且在流式模式下实现了几乎无损的合成质量。
高效的语音词元化： 引入有限标量量化 (FSQ) 改进码本利用率，更有效地捕获语音信息，从而提升了内容一致性。
LLM 驱动的语言模型： 简化了文本-语音语言模型架构，直接使用预训练文本 LLM 作为骨干，显著增强了上下文理解能力和文本-语音对齐效果。
增强的指令式生成： 提供了更细粒度、更丰富的指令控制能力，使用户能够灵活调整情感、口音、角色风格和插入发声爆发，生成更具表现力的语音。
强化学习微调： 结合可微分 ASR 奖励和 DPO 偏好优化，进一步提升了特定说话人模型的发音准确性和整体合成质量。

CosyVoice 2 在大规模多语言数据集上训练，在流式模式下实现了接近人类水平的自然度 (human-parity naturalness)、最小响应延迟 (minimal response latency) 和几乎无损的合成质量 (virtually lossless synthesis quality)。这不仅提供了卓越的合成质量，还降低了部署复杂性，使其适用于广泛的交互式语音应用。

7.2. 局限性与未来工作

论文作者指出了 CosyVoice 2 的几个局限性：

语言支持有限： 目前仅支持有限数量的语言。对于字符集重叠的语言（例如中文和日语），合成性能可能会下降，这仍是一个开放的挑战。
声学特征控制不足： 无法通过文本指令控制音色等声学特征，这对于角色扮演等应用来说是一个有趣的探索领域。
歌唱能力欠缺： CosyVoice 2 在歌唱合成任务上表现不佳。

基于这些局限性，论文提出了未来的研究方向：
增强多语言上下文： 探索提高字符集重叠语言（如日语）的合成性能。
数据扩展： 增加训练数据量以进一步提高日语和韩语等语言的合成性能。
文本指令控制声学特征： 研究如何通过文本指令实现对音色的细粒度控制。
提升歌唱能力： 改进模型以更好地支持歌唱合成。

7.3. 个人启发与批判

个人启发：

LLM 的潜力再验证： 本文再次验证了大型语言模型作为强大骨干网络的通用性，即使在跨模态任务（文本到语音词元）中也能显著提升性能，简化架构。这提示我们在更多传统机器学习任务中，可以考虑将 LLM 作为特征提取或序列建模的核心。
工程与学术的结合： 论文通过对现有技术的系统性优化（FSQ、块感知流匹配、LLM 集成），成功解决了实际应用中的高延迟痛点，实现了流式和非流式合成的统一。这种将学术前沿研究与实际工程需求紧密结合的思路非常值得借鉴。
解耦思想的成功： 语义-声学信息解耦的建模策略在 CosyVoice 2 中表现出色，使得模型能够更独立地处理内容、韵律和音色，从而在流式合成中保持了高保真度。
强化学习在 TTS 中的应用： 将 DPO 和可微分 ASR 奖励引入 TTS 微调，为提升语音质量和内容一致性提供了新的优化途径，尤其是在处理特定说话人或复杂语音时。

批判：

跨语言字符集重叠问题： 论文明确指出了日语和中文字符集重叠导致性能下降的问题，并归因于“中文发音”。这可能涉及到文本词元化或 LM 在处理多语言时对字符-发音映射的学习不充分。未来的工作可以探索更复杂的跨语言词元对齐策略，或者引入明确的语言ID来指导发音。
客观指标的局限性： 论文提到了不同说话人验证 (SV) 模型在说话人相似性评估上结果不一致的问题。这暗示了当前客观评价指标可能存在局限性，尤其是在复杂的、多变的语音特征面前。未来的研究可能需要开发更鲁棒、更符合人类感知的客观评估指标，或者更依赖于大规模、多样化的主观评估。
计算资源需求： 尽管论文提到了模型简化和效率提升，但基于 LLM 和流匹配的复杂架构，加上大规模多语言数据集的训练，必然需要庞大的计算资源。这对于计算资源有限的研究者或小型团队来说，可能仍然是难以企及的。论文对此的讨论较少。
泛化到更广泛的音色/情感： 虽然增强了指令式生成，但模型对“音色”的控制仍然是文本指令的盲区，且在歌唱等复杂场景表现不佳。这可能意味着模型在捕获和生成更细粒度、更复杂的声学表现力方面仍有提升空间，可能需要引入更丰富的多模态输入（如音乐信息、情感标签）或更先进的条件控制机制。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。