ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech
TL;DR 精炼摘要
本文提出了一种新颖的情感语音转换框架ClapFM-EVC,能够通过自然语言提示和参考语音生成高质量语音,并具备可调节的情感强度。关键技术包括情感对比语言-音频预训练模型EVC-CLAP和自适应强度门的FuEncoder,旨在提高情感表达和语音自然度。
摘要
Despite great advances, achieving high-fidelity emotional voice conversion (EVC) with flexible and interpretable control remains challenging. This paper introduces ClapFM-EVC, a novel EVC framework capable of generating high-quality converted speech driven by natural language prompts or reference speech with adjustable emotion intensity. We first propose EVC-CLAP, an emotional contrastive language-audio pre-training model, guided by natural language prompts and categorical labels, to extract and align fine-grained emotional elements across speech and text modalities. Then, a FuEncoder with an adaptive intensity gate is presented to seamless fuse emotional features with Phonetic PosteriorGrams from a pre-trained ASR model. To further improve emotion expressiveness and speech naturalness, we propose a flow matching model conditioned on these captured features to reconstruct Mel-spectrogram of source speech. Subjective and objective evaluations validate the effectiveness of ClapFM-EVC.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech
1.2. 作者
Yu Pan1, Yanni Hu3, Yuguang Yang3, Jixun Yao3, Jianhao Ye3, Hongbin Zhou3, Lei Ma2, Jianjun Zhao1
- 1Department of Information Science and Technology, Kyushu University, Japan
- 2Department of Computer Science, The University of Tokyo, Japan
- 3EverestAI, Ximalaya Inc., China
1.3. 发表期刊/会议
预印本 (arXiv)
1.4. 发表年份
2025年5月20日 (UTC)
1.5. 摘要
尽管情感语音转换 (Emotional Voice Conversion, EVC) 技术已取得显著进展,但实现具有灵活、可解释控制的高保真 EVC 仍然充满挑战。本文介绍了 ClapFM-EVC,这是一种新颖的 EVC 框架,能够生成由自然语言提示词 (natural language prompts) 或参考语音驱动的、具有可调节情感强度的高质量转换语音。作者首先提出了 EVC-CLAP,一个情感对比语言-音频预训练模型 (emotional contrastive language-audio pre-training model),该模型通过自然语言提示词和分类标签进行指导,以提取和对齐语音和文本模态中的细粒度情感元素。接着,提出了一个带有自适应强度门 (adaptive intensity gate) 的 FuEncoder,用于将情感特征与来自预训练 ASR 模型的声音后验图 (Phonetic PosteriorGrams, PPG) 无缝融合。为了进一步提高情感表达力和语音自然度,作者提出了一个以这些捕获的特征为条件的流匹配模型 (flow matching model) 来重建源语音的 Mel 频谱图。主观和客观评估均验证了 ClapFM-EVC 的有效性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2505.13805v1
PDF 链接: https://arxiv.org/pdf/2505.13805v1.pdf
发布状态: 该论文于 2025 年 5 月 20 日作为预印本发表在 arXiv 上。
2. 整体概括
2.1. 研究背景与动机
情感语音转换 (EVC) 旨在将源语音的情感状态转换为目标类别,同时保留原始内容和说话人身份。EVC 在语音助手、有声读物制作和配音等许多实际应用中具有巨大潜力。然而,当前的 EVC 系统面临以下挑战:
-
情感多样性、自然度和语音质量不足: 现有基于生成对抗网络 (
GANs) 和自编码器 (autoencoders) 的EVC方法在情感多样性、自然度以及语音质量方面仍有很大的提升空间。尽管一些研究通过引入强度控制模块来允许更精确地操纵情感表达,但这些系统仍未完全解决这些问题。 -
控制方式的局限性: 目前的方法通常依赖于参考语音或分类文本标签作为条件来控制有限的情感表达集。这种范式不仅限制了用户体验,还限制了情感表达的多样性,并且在所传达情感的直观性和可解释性方面存在不足。
为了解决上述问题,本研究旨在开发一个能够提供灵活、直观控制,并能生成高保真语音的新型
EVC框架。
2.2. 核心贡献/主要发现
本文提出了 ClapFM-EVC,一个创新的、高保真的任意到一 (any-to-one) EVC 框架,其核心贡献和主要发现如下:
- 提出 EVC-CLAP 模型: 引入
EVC-CLAP(Emotional Contrastive Language-Audio Pretraining) 模型,该模型通过自然语言提示词和情感分类标签共同指导,有效地提取和对齐语音和文本模态中的细粒度情感特征,从而实现对情感的灵活和直观控制。 - 软标签引导的对比学习: 采用基于对称
Kullback-Leibler散度 (symKL-loss) 的软标签引导对比学习策略来训练EVC-CLAP,增强了模型的情感表示能力。 - 设计 FuEncoder 与 AIG: 提出了一个
FuEncoder(融合编码器),它包含一个自适应强度门 (AIG) 模块。FuEncoder能够将从预训练ASR模型中提取的内容特征 (PPG) 与EVC-CLAP捕获的情感嵌入无缝融合,并且AIG模块允许灵活调节转换情感的强度。 - 引入条件流匹配解码器: 整合了一个基于条件流匹配 (
Conditional Flow Matching, CFM) 的解码器,以从随机高斯噪声中采样并重建源语音的Mel频谱图,显著提高了转换语音的自然度和语音质量。 - 双重控制模式:
ClapFM-EVC支持通过自然语言提示词或参考语音进行情感控制,并在推断阶段提供了三种获取目标情感嵌入的模式,极大增强了系统的灵活性和用户友好性。 - 优越的性能表现: 广泛的实验和消融研究表明,
ClapFM-EVC在情感表达力、语音自然度和语音质量方面显著优于现有多种EVC方法,特别是在自然语言提示词驱动的EVC方面展现出强大的能力。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 情感语音转换 (Emotional Voice Conversion, EVC)
EVC 的目标是将源语音中携带的情感信息转换为目标情感,同时保持原始语音的内容(即说的什么)和说话人身份(即谁在说)不变。这使得用户可以根据需要,以不同的情感表达方式来呈现相同的语音内容。
3.1.2. 对比学习 (Contrastive Learning)
对比学习是一种自监督学习范式,其核心思想是学习一个嵌入空间,使得相似的数据点在嵌入空间中距离较近,而不同类型的数据点距离较远。在本文中,EVC-CLAP 利用对比学习来对齐不同模态(语音和文本)中情感特征,确保语音和文本中的相同情感表达能够被映射到相近的嵌入空间。
3.1.3. Kullback-Leibler (KL) 散度
KL 散度(也称为相对熵)是衡量两个概率分布之间差异的非对称度量。如果两个分布越相似,KL 散度值越小。在本文中,symKL-loss(对称 KL 散度损失)用于比较预测的相似度分布与软标签定义的真实相似度分布,以优化模型的特征对齐能力。
3.1.4. 流匹配 (Flow Matching, FM)
流匹配是一种新兴的生成模型技术,它通过学习一个时间依赖的向量场 (vector field),来将一个简单的参考分布(通常是标准高斯分布)连续地“变形”为复杂的目标数据分布。与传统的扩散模型类似,但流匹配可以直接学习将噪声转换为数据的确定性路径,从而在生成质量和采样速度上具有优势。在本文中,CFM (Conditional Flow Matching) 模型被用来从高斯噪声中重建 Mel 频谱图。
3.1.5. 傅立叶编码器 (FuEncoder)
FuEncoder 是本文提出的一个定制编码器模块,其名称中的 "Fu" 暗示了其“融合” (Fusion) 功能。它专门设计用于无缝地融合来自不同来源的特征——具体来说,是来自 ASR 模型的语音内容特征 (PPG) 和来自 EVC-CLAP 模型的情感嵌入。此外,它还集成了 AIG (Adaptive Intensity Gate) 模块来实现情感强度的调节。
3.1.6. 声音后验图 (Phonetic PosteriorGrams, PPG)
PPG 是从预训练的自动语音识别 (ASR) 模型中提取的特征。它们代表了输入语音在每个时间帧上属于不同音素 (phoneme) 的概率分布。PPG 是一种高度解耦的语音内容表示,因为它移除了说话人身份、情感和语速等非内容信息,仅保留了语音的语言学内容。在 EVC 中,PPG 常用作保留源语音内容的表示。
3.1.7. 声码器 (Vocoder)
声码器是一种将声学特征(如 Mel 频谱图)转换回可听语音波形的技术。在语音合成和语音转换系统中,声码器是最后一步,负责生成最终的语音输出。
3.2. 前人工作
现有的 EVC 方法主要基于以下两类模型:
-
生成对抗网络 (GANs): 例如
StarGAN[11] 使用循环一致性和类别条件GAN来实现EVC。GAN通过对抗训练的方式生成接近真实数据分布的样本。 -
自编码器模型 (Autoencoders): 这些模型通过编码器将语音压缩到潜在空间,再通过解码器重建语音。
AINN[16] 提出了一种基于注意力的交互式解耦网络,通过两阶段流水线实现细粒度EVC。尽管这些方法取得了一定的进展,但它们在情感多样性、自然度和语音质量方面仍有提升空间。为了解决情感表达多样性不足的问题,一些研究开始将情感强度控制模块集成到
EVC框架中:
Emovox[18] 通过在连续空间中编码情感,解耦了说话人风格并控制了情感强度。EINet[17] 通过情感评估器和强度映射器预测情感类别和强度,实现了可控的情感强度,以增强情感转换的自然度和多样性。
3.3. 技术演进
EVC 领域的技术演进经历了从早期基于信号处理的方法(如 VQ、GMM),到后来基于深度学习的 GAN 和 Autoencoder。这些方法逐渐提升了语音质量,但在情感多样性和灵活控制上仍有欠缺。为了实现更精细的情感控制,研究开始引入情感强度调节机制。本文的工作在此基础上,进一步引入了自然语言提示词作为情感控制的新范式,结合对比学习和流匹配技术,旨在解决现有方法的局限性,特别是在情感多样性、自然度、语音质量以及控制的直观性和可解释性方面。
3.4. 差异化分析
ClapFM-EVC 与相关工作的核心区别和创新点在于:
- 自然语言提示词控制: 现有方法大多依赖参考语音或有限的分类标签进行情感控制。
ClapFM-EVC首次引入了自然语言提示词,极大地增强了情感控制的灵活性、多样性和可解释性,允许用户以更直观的方式描述所需情感。 - EVC-CLAP 模型: 提出了一个新颖的
EVC-CLAP模型,通过结合自然语言提示词和分类标签进行软标签引导的对比学习,实现了语音和文本模态之间细粒度情感元素的对齐和提取,这在之前的工作中是缺乏的。 - FuEncoder 与 AIG: 设计了带有自适应强度门 (
AIG) 的FuEncoder,不仅有效地融合了内容和情感特征,还提供了对情感强度进行灵活调节的能力,这比简单的情感强度控制模块更为精细和自适应。 - 流匹配解码器: 引入了基于流匹配的解码器来重建
Mel频谱图,这与传统的GAN或自编码器解码器相比,能够生成更高质量和更自然的语音,提升了系统的整体性能。 - 任意到一 (any-to-one) 框架:
ClapFM-EVC提供了一个统一的框架,可以处理来自不同源语音的情感转换,并支持多种情感控制输入(自然语言、参考语音),这在灵活性上超越了许多特定于某种输入条件的EVC系统。
4. 方法论
ClapFM-EVC 框架是一个条件潜在模型,其核心组件包括 EVC-CLAP、FuEncoder、CFM (Conditional Flow Matching) 解码器,以及预训练的 ASR 模型和声码器。整个系统旨在实现高保真和灵活的情感语音转换。
该图像是展示 ClapFM-EVC 框架整体训练结构的示意图。图中包括了多种音频与文本编码模块,利用 symKL-Loss 进行情感标签的融合,并展示了通过条件流匹配生成转换语音的过程。
Figure 1: Overall training architecture of the proposed ClapFM-EVC framework.
4.1. 系统总览
如图 1 所示,ClapFM-EVC 的训练过程可以分为两个主要阶段:
-
EVC-CLAP训练: 首先,EVC-CLAP模型被训练用于提取和对齐语音和文本模态中的情感表示。它利用对称Kullback-Leibler散度 (symKL-loss) 和由自然语言提示词及对应分类情感标签派生出的软标签进行训练。这使得EVC-CLAP能够捕捉自然语言提示词所传达的细粒度情感信息。 -
AdaFM-VC训练: 随后,AdaFM-VC(Adaptive Flow Matching Voice Conversion) 模型被训练。它利用EVC-CLAP提取的情感元素和预训练HybridFormerASR模型提取的内容表示。AdaFM-VC中的FuEncoder负责无缝融合情感和内容特征,并通过其AIG(Adaptive Intensity Gate) 模块明确控制情感转换的强度。同时,AdaFM-VC中的CFM模型从随机高斯噪声中采样FuEncoder的输出,并以EVC-CLAP生成的目标情感向量为条件,生成目标语音的Mel频谱图特征。最后,生成的
Mel频谱图特征被输入到预训练的声码器中,以合成转换后的语音。
在推断阶段,ClapFM-EVC 框架提供了三种获取目标情感嵌入的模式:
- 直接基于提供的参考语音。
- 直接基于给定的自然语言情感提示词。
EVC-CLAP使用指定的自然语言情感提示词从预构建的高质量参考语音语料库中检索相关数据,然后从检索到的语音中提取目标情感元素。
4.2. 软标签引导的 EVC-CLAP
EVC-CLAP 训练的目的是最小化同一类别内数据对之间的距离,同时最大化不同类别数据对之间的距离。
假设输入数据对为 ,其中 是源语音, 和 分别表示其对应的情感标签和自然语言提示词,,其中 是批次大小。
4.2.1. 特征提取与相似度计算
EVC-CLAP 首先使用一个预训练的基于 HuBERT [26] 的音频编码器和一个预训练的基于 XLMRoBERTa [27] 的文本编码器,将 和 压缩成两个潜在变量 和 。其中 等于 512,代表隐藏状态的维度。
随后,计算语音和文本潜在变量之间的相似度预测得分 和 : 其中:
- : 批次中所有语音样本的潜在表示矩阵。
- : 批次中所有文本提示词的潜在表示矩阵。
- : 文本潜在表示矩阵 的转置。
- : 计算批次中每个语音样本与每个文本提示词之间的点积相似度矩阵。
- 和 : 两个可学习的超参数,其初始值根据经验设置为 2.3。它们用于缩放相似度得分,以更好地适应对比学习的损失函数。
4.2.2. 软标签生成
EVC-CLAP 使用软标签 进行训练,这些软标签由 和 派生而来:
其中:
- : 基于分类情感标签 的真实相似度矩阵。如果批次中不同数据对的分类情感标签相同,则其对应的真实值为 1;否则为 0。
- : 基于自然语言提示词标签 的真实相似度矩阵。如果批次中不同数据对的自然语言提示词标签相同,则其对应的真实值为 1;否则为 0。
- : 一个超参数,用于调整 和 的权重,在本文中经验性地设置为 0.2。
- 为了确保批次内标签分布的一致性,类相似度矩阵 和 会进行归一化,使得每行的和为 1,从而有效捕捉数据对之间的相对相似性。
4.2.3. 对称 KL 散度损失 (symKL-loss)
EVC-CLAP 的训练损失函数采用 symKL-loss:
其中,辅助分布 定义为:
是 Kullback-Leibler 散度的计算公式:
其中:
- : 计算从分布 到分布 的
KL散度。 - : 音频编码器预测的相似度分布。
- : 软标签定义的真实相似度分布。
- : 是一个经过平滑处理的软标签分布,通过引入小常数 来防止 中出现零值导致对数计算问题,并增加模型的鲁棒性。 是一个超参数,经验性地设置为 。 是批次大小。
- 该损失函数通过计算两个方向的
KL散度(从预测到真实,以及从平滑真实到预测),并求和,形成一个对称的损失,以更全面地优化音频和文本表示的对齐。
4.3. AdaFM-VC
AdaFM-VC 旨在利用 EVC-CLAP 捕获的情感特征和内容特征,结合流匹配技术,生成高质量的 Mel 频谱图。
4.3.1. FuEncoder with AIG (自适应强度门控融合编码器)
作为 ClapFM-EVC 的关键中间组件,FuEncoder 的目标是无缝地整合由 HybridFormer [20] 提取的内容特征和由 EVC-CLAP 派生的情感嵌入,同时通过自适应强度门 (AIG) 提供对情感强度的灵活控制。
FuEncoder 包含以下几个部分:
- 预处理网络 (PreNet): 用于将源内容特征 压缩到潜在空间,并通过
dropout机制防止过拟合。 - 位置编码模块: 采用正弦位置编码来提取 的位置特性,并与 进行元素级相加,以确保
FuEncoder学习其序列和结构信息。 - AIG 模块: 提出了一种
AIG模块,通过将一个可学习的超参数与EVC-CLAP提取的情感特征相乘,从而灵活地调整情感强度。 - 自适应融合模块: 作为
FuEncoder的核心,该模块由多个融合块组成。每个融合块包含一个多头自注意力层、两个情感自适应层归一化 (emotion adaptive layer norm) 层 [28] 和一个逐点前馈网络层。这些模块使得内容和情感信息能够高效融合,从而生成包含语言和情感特征的丰富嵌入表示。 - 线性映射层: 融合后的特征最终通过一个全连接层映射到特定维度 。
4.3.2. 条件流匹配解码器 (Conditional Flow Matching-based Decoder)
为了进一步提高语音的自然度和语音质量,本文整合了一个基于最优传输 (OT) 的 CFM 模型,用于从标准高斯噪声 x_0 = p_0(x) = \mathcal{N}(x; 0, I) 中重建目标 Mel 频谱图 x_1 = p_1(x)。
具体来说,以 EVC-CLAP 捕获的情感嵌入为条件,采用一个 OT 流 来训练 CFM 解码器。该解码器由 6 个带有时间步融合的 CFM 块组成。每个 CFM 块包含一个 ResNet [29] 模块、一个多头自注意力 [30] 模块和一个 FiLM [31] 层。通过使用常微分方程 (ODE) 来建模一个可学习且时间依赖的向量场 ,该流可以近似从 到目标分布 的最优传输路径:
其中:
-
: 在时间 时的流状态。
-
: 在当前状态 和时间 时的向量场。它指导数据点如何从一个分布转换到另一个分布。
-
: 流的初始状态,即从输入 开始。
-
: 时间步长,从 0 到 1 连续变化。
借鉴先前工作 [32] 的启发,为了简化
OT流公式,并采用更直的轨迹,本文将其简化为: 其中: -
: 均值函数,随时间 线性增长,由条件 决定。
-
: 标准差函数,随时间 线性减小。
-
: 表示随机条件输入,在这里是目标
Mel频谱图 。 -
: 表示引入扰动个体样本的白噪声的最小标准差,其值经验性地设置为 0.0001。
因此,
AdaFM-VC的训练损失定义为: 其中: -
: 从标准高斯分布中采样的噪声。
-
: 从目标数据(真实
Mel频谱图)分布中采样的样本。 -
: 在 0 到 1 之间均匀采样的时间步。
-
: 表示数据的真实分布,它可能不是高斯分布。
-
: 在这里表示时间步 下的噪声尺度。在原始论文的公式中,
sigma通常是 的简化表示,或者是一个与时间步 相关的特定噪声项。 -
: 由
CFM模型预测的向量场,它以EVC-CLAP提取的条件情感嵌入 为条件。 -
: 表示欧几里得范数的平方,即预测值与目标值之间的均方误差。
此损失函数旨在训练向量场 ,使其能够准确地将从 到 的路径建模出来,从而在给定情感条件 的情况下,有效地从噪声中重建
Mel频谱图。
5. 实验设置
5.1. 数据集
由于目前没有可公开获取的、包含全面情感自然语言提示词的 EVC 语料库,本文使用了内部开发的富有表现力的单说话人普通话语料库进行训练。
- 规模: 该语料库包含 20 小时的语音数据,采样率为 24 kHz。
- 情感类别: 从中特别选择了 12,000 条话语,代表 7 种原始分类情感类别:中性 (neutral)、高兴 (happy)、悲伤 (sad)、愤怒 (angry)、恐惧 (fear)、惊讶 (surprise)、厌恶 (disgust)。
- 标注: 为了确保高质量的标注,作者邀请了 15 名专业标注员为选定的波形提供自然语言提示词。
5.2. 评估指标
为了评估 ClapFM-EVC 的语音质量和情感相似度,本文采用了主观和客观评估方法。
5.2.1. 客观评估指标
-
梅尔倒谱失真 (Mel-cepstral Distortion, MCD)
- 概念定义:
MCD用于衡量转换语音的梅尔倒谱系数与目标语音之间的差异。值越小表示转换语音的声学特性与目标语音越接近,语音质量越高。 - 数学公式:
- 符号解释:
- : 梅尔倒谱系数的维度。
- : 目标语音的第 个梅尔倒谱系数。
- : 转换语音的第 个梅尔倒谱系数。
- 概念定义:
-
均方根误差 (Root Mean Squared Error, RMSE)
- 概念定义:
RMSE衡量预测值与实际值之间差异的度量。在语音评估中,常用于比较转换语音的基频 (F0) 或能量与目标语音的相应参数。值越小表示差异越小,语音质量越好。 - 数学公式:
- 符号解释:
- : 样本数量。
- : 目标语音的第 个样本值(例如,基频值)。
- : 转换语音的第 个样本值。
- 概念定义:
-
字符错误率 (Character Error Rate, CER)
- 概念定义:
CER衡量语音识别系统中,识别出的字符序列与真实字符序列之间的差异。在EVC中,它用于评估转换过程是否损害了语音内容的清晰度,值越低表示内容保留得越好,语音质量越高。 - 数学公式:
- 符号解释:
- : 替换错误 (Substitutions) 的数量。
- : 删除错误 (Deletions) 的数量。
- : 插入错误 (Insertions) 的数量。
- : 真实字符序列中的总字符数。
- 概念定义:
-
预测平均意见得分 (Predicted MOS, UTMOS)
- 概念定义:
UTMOS是一种通过预训练模型预测的语音质量评分,模拟人类对语音自然度的主观评价。分数范围通常为 1 到 5,值越高表示预测的语音质量越好。 - 数学公式: 该指标通常由一个预训练的神经网络模型直接输出,没有简单的数学公式。
- 概念定义:
-
情感嵌入余弦相似度 (Emotion Embedding Cosine Similarity, EECS)
- 概念定义:
EECS衡量转换语音的情感嵌入与参考语音的情感嵌入之间的余弦相似度。值越接近 1 表示情感相似度越高。 - 数学公式:
- 符号解释:
- : 转换语音的情感嵌入向量。
- : 参考语音的情感嵌入向量。
- : 向量 的欧几里得范数(长度)。
- : 向量 和 的点积。
- 概念定义:
5.2.2. 主观评估指标
-
自然度平均意见得分 (Naturalness MOS, nMOS)
- 概念定义:
nMOS是人类听众对语音自然度的主观评分。评分范围为 1 到 5(1 = 非常不自然,5 = 非常自然),值越高表示语音听起来越自然。
- 概念定义:
-
情感相似度平均意见得分 (Emotion Similarity MOS, eMOS)
- 概念定义:
eMOS是人类听众对转换语音情感与目标情感相似度的主观评分。评分范围为 1 到 5(1 = 情感完全不匹配,5 = 情感完美匹配),值越高表示情感相似度越高。
- 概念定义:
实践操作:
CER和UTMOS分别使用预训练的基于CTC的ASR和MOS预测方法计算。- 邀请 12 名专业评分员参与主观评估。评分范围为 1 到 5,增量为 1,分数越高表示性能越好。
5.3. 对比基线
为了评估 ClapFM-EVC 的性能,本文将其与几个现有 EVC 方法进行了比较。由于这些基线方法通常使用参考波形进行 EVC,因此最初的比较也是基于参考语音进行的。
- StarGAN-EVC [11]: 一个基于
StarGAN的EVC模型,利用循环一致性和类别条件GAN进行情感转换。 - Seq2seq-EVC [34]: 一个基于序列到序列 (
Seq2seq) 架构的EVC模型,通常采用两阶段训练。 - MixEmo [35]: 一个旨在通过混合不同情感特征来增强情感表现力的
EVC模型。
6. 实验结果与分析
6.1. EVC by Reference Speech (基于参考语音的情感语音转换)
为了评估 ClapFM-EVC 的性能,作者将其与 StarGAN-EVC [11]、Seq2seq-EVC [34] 和 MixEmo [35] 等多个现有 EVC 方法进行了比较。由于这些基线模型使用参考波形进行 EVC,因此首先使用参考语音来测试它们的性能。
以下是原文 Table 1 的结果:
| Model | MCD () | RMSE () | CER () | UTMOS (↑) | nMOS (↑) | EECS (↑) | eMOS (↑) |
| StarGAN-EVC [11] | 8.85 | 19.48 | 13.07 | 1.45 | 2.09 ± 0.12 | 0.49 | 1.97 ± 0.09 |
| Seq2seq-EVC [34] | 6.93 | 15.79 | 10.56 | 1.81 | 2.52 ± 0.11 | 0.54 | 2.23 ± 0.11 |
| MixEmo [35] | 6.28 | 13.84 | 8.93 | 2.09 | 2.98 ± 0.07 | 0.65 | 2.58 ± 0.13 |
| ClapFM-EVC | 5.83 | 10.91 | 6.76 | 3.68 | 4.09 ± 0.09 | 0.82 | 3.85 ± 0.06 |
核心结果分析:
从 Table 1 中可以看出,ClapFM-EVC 在语音质量和情感相似度方面均取得了最先进的性能:
-
情感相似度方面:
ClapFM-EVC在EECS(情感嵌入余弦相似度) 和eMOS(情感相似度平均意见得分) 上均显著优于所有基线方法。EECS达到了 0.82,比表现最好的基线MixEmo的 0.65 相对提高了 。eMOS达到了 3.85,比MixEmo的 2.58 相对提高了 。- 这表明
ClapFM-EVC框架能够精确捕捉并有效转换目标情感特征。
-
语音质量方面:
ClapFM-EVC在多项客观指标上表现出色,MCD(梅尔倒谱失真) 为 5.83,RMSE(均方根误差) 为 10.91,CER(字符错误率) 为 6.76,均为最低值,这意味着更好的语音质量和内容保留。- 主观评估也证实了
ClapFM-EVC的优越性,nMOS(自然度平均意见得分) 达到 4.09,UTMOS(预测平均意见得分) 达到 3.68。 - 与表现最好的基线方法相比,
nMOS相对提高了 ,UTMOS相对提高了 。 - 这些结果强调了
ClapFM-EVC在保持卓越感知质量方面的能力。
6.2. EVC by Natural Language Prompt (基于自然语言提示词的情感语音转换)
为了比较 ClapFM-EVC 在使用参考语音 (Reference) 和自然语言提示词 (Prompt) 时的性能,作者进行了一项 ABX 偏好测试。
该图像是图表,展示了情感相似度和语音质量的ABX偏好测试结果。测试结果表明,在情感相似度中,57.4%的参与者选择‘无偏好’,而在语音质量中,51.1%的参与者选择‘无偏好’。
Figure 2: The ABX preference test results compare the Reference with Prompt.
核心结果分析:
如图 2 所示,ABX 偏好测试结果分析如下:
-
情感相似度:
- 第一个测试旨在评估由
Reference和Prompt驱动的转换语音之间的情感相似度。 - 47 名参与者被要求对
Prompt生成的语音样本进行评分,以Reference作为基准,评分范围从 -1 到 1(-1 表示Reference驱动的语音情感相似度更好,0 表示无偏好)。 - 结果显示,
57.4%的参与者选择了“无偏好”,而19.1%的参与者倾向于“Prompt”。 - 这表明
ClapFM-EVC能够通过Prompt有效控制转换语音的情感表达,并且在很大程度上能够与参考语音达到相似的情感效果。
- 第一个测试旨在评估由
-
语音质量:
- 此外,作者还评估了转换语音相对于真实 (
ground truth) 样本的质量。 - 参与者被要求选择在语音质量上更接近真实语音的转换语音样本。
- 结果显示,
Reference和Prompt驱动的语音的偏好率分别为25.5%和23.4%。 - 这表明
ClapFM-EVC能够在Prompt驱动下实现高质量的EVC,与参考语音驱动的方式相比,在语音质量上表现相当。
- 此外,作者还评估了转换语音相对于真实 (
6.3. 消融实验 (Ablation Study)
为了评估所提出系统中每个组件的贡献和有效性,作者进行了消融研究。所有结果总结在 Table 2 中。
以下是原文 Table 2 的结果:
| Model | UTMOS (↑) | nMOS (↑) | EECS (↑) | eMOS (↑) |
| ClapFM-EVC | 3.63 | 4.01 ± 0.06 | 0.79 | 3.72 ± 0.08 |
| w/o emo label | 3.61 | 3.96 ± 0.11 | 0.66 | 3.01 ± 0.07 |
| w/o symKL | 3.57 | 3.89 ± 0.05 | 0.71 | 3.28 ± 0.08 |
| w/o AIG | 3.25 | 3.62 ± 0.12 | 0.74 | 3.52 ± 0.05 |
核心结果分析: 从 Table 2 中可以得出以下结论:
-
移除情感分类标签 (
w/o emo label):- 当训练
EVC-CLAP时移除情感分类标签后,EECS和eMOS分数显著下降(EECS从 0.79 降至 0.66,eMOS从 3.72 降至 3.01),而语音质量指标 (UTMOS,nMOS) 基本保持不变。 - 这表明所提出的软标签引导训练策略在
EVC-CLAP中对于准确捕捉和表示情感是至关重要的。情感分类标签为模型提供了强监督信号,帮助对齐细粒度情感特征。
- 当训练
-
移除对称
KL散度损失 (w/o symKL):- 当用普通的
KL-Loss替换symKL-Loss训练EVC-CLAP时,EECS和eMOS值分别相对下降了 (0.79 -> 0.71) 和 (3.72 -> 3.28)。 - 这表明
symKL-Loss能够有效增强EVC-CLAP的情感表示能力,通过对称地衡量预测分布和真实分布之间的差异,提供了更稳定的优化方向。
- 当用普通的
-
移除
AIG模块 (w/o AIG):-
移除
AdaFM-VC中的AIG模块导致语音质量 (UTMOS从 3.63 降至 3.25,nMOS从 4.01 降至 3.62) 显著恶化,并且情感相似度 (EECS从 0.79 降至 0.74,eMOS从 3.72 降至 3.52) 也有轻微下降。 -
这突显了
AIG模块在自适应整合内容和情感特征方面的关键作用。它不仅有助于精确控制情感强度,还对维持整体语音质量和情感转换的准确性至关重要。这些消融实验有力地证明了
ClapFM-EVC中每个核心组件(软标签引导、symKL-Loss、AIG)的有效性和合理性。
-
7. 总结与思考
7.1. 结论总结
本研究提出了 ClapFM-EVC,一个创新且高效的高保真任意到一 EVC 框架,其特点是具有灵活且可解释的情感控制以及可调节的情感强度。具体而言,ClapFM-EVC 首先利用 EVC-CLAP 模型,通过自然语言提示词及其对应的情感分类标签导出的软标签,并采用 symKL-Loss 进行训练,以提取和对齐跨音频-文本模态的情感元素,从而增强情感表示能力。为了提升语音质量和自然度,该框架随后引入了一个基于流匹配的 AdaFM-VC 模型和一个预训练的声码器来实现高保真情感语音转换。广泛的实验结果表明,所提出的 ClapFM-EVC 能够生成具有精确情感控制和高语音质量的转换语音,并且可以通过自然语言提示词进行驱动。
7.2. 局限性与未来工作
尽管 ClapFM-EVC 取得了显著的进展,但论文中并未明确指出其局限性或未来的具体研究方向。然而,从其研究背景和实验设置中可以推断出一些潜在的局限性:
- 数据集通用性: 论文主要使用了内部开发的单说话人普通话语料库进行训练。虽然该语料库质量高且带有自然语言提示词,但单说话人语料库可能限制了模型在多说话人或跨语言场景下的泛化能力。未来工作可能需要扩展到更多样化的多说话人、多语种语料库。
- 情感强度控制的粒度: 尽管引入了
AIG模块,并实现了情感强度的调节,但关于其调节的精细程度和用户感知的准确性,以及如何通过自然语言提示词更细粒度地控制强度,仍有探索空间。 - 实时性与计算效率: 流匹配模型虽然在生成质量上有优势,但其计算开销和实时推理能力(尤其是在边缘设备上)可能需要进一步优化。
- 长文本输入和复杂情感组合: 论文主要侧重于单一情感的转换,对于更复杂的情感组合、情感随时间动态变化或更长的自然语言提示词的理解和实现,可能需要更复杂的模型架构和训练策略。
7.3. 个人启发与批判
7.3.1. 个人启发
- 自然语言控制的巨大潜力: 引入自然语言提示词作为情感控制的方式是
EVC领域的一个重要方向。这极大地提升了用户体验和情感表达的自由度,从固定的类别标签或参考语音中解放出来,使得情感转换更加直观和富有创意。 - 多模态对比学习的有效性:
EVC-CLAP通过将语音和文本在情感维度上进行对齐,成功地将自然语言的丰富语义与语音的情感表现联系起来。这种多模态对比学习的范式对于理解和生成细粒度情感特征具有很强的借鉴意义。 - 流匹配模型的优势: 将流匹配模型应用于
Mel频谱图的重建,在语音质量和自然度方面展现出优于传统GAN或自编码器方法的潜力。这表明流匹配作为生成模型,在语音合成和转换领域具有广泛的应用前景。 - 组件化设计的精妙:
ClapFM-EVC将整个EVC任务解耦为情感特征提取 (EVC-CLAP)、特征融合与强度控制 (FuEncoder+AIG) 和高质量语音生成 (CFM解码器) 三个相对独立的模块,这种模块化的设计使得系统易于理解和维护,并且每个模块都可以独立优化。
7.3.2. 批判
- 单说话人语料的局限性: 论文使用单说话人语料库进行训练,这使得模型对于“任意到一”的声纹保持能力(即源语音可以是任意说话人)的验证不够充分。如果
ClapFM-EVC旨在实现任意说话人到目标情感的转换,那么在多说话人语料库上的表现将是关键。 - 超参数的经验性设置: 论文中提及了
EVC-CLAP中 以及CFM中 等超参数的经验性设置。虽然这是常见的做法,但缺乏对其敏感性分析或自动调整机制的讨论,可能会在模型迁移到其他数据集时带来调优挑战。 - 情感强度的量化与可控性: 尽管
AIG模块提供了情感强度控制,但论文中并未详细阐述用户如何精确指定强度等级(例如,是否是连续的滑块、离散的等级,以及这些等级如何映射到模型参数)。此外,在评估中也没有针对不同强度等级进行细致的客观或主观评价。 - ABX 测试结果的解读: 在
ABX偏好测试中,57.4%的参与者选择“无偏好”表明Prompt控制的情感表现与Reference相当,但仅19.1%倾向于Prompt,而23.4%倾向于Reference在语音质量上。这可能说明尽管Prompt提供了灵活性,但其在完全复现Reference语音的质量和情感精确度方面,仍有微小差距或特定情况下未能超越Reference。 - 缺乏对模型泛化能力的深入探讨: 论文并未深入探讨模型在未见过的说话人、未见过的自然语言提示词或未见过的情感类别上的泛化能力。这将是衡量其“灵活”和“可解释”的关键方面。
相似论文推荐
基于向量语义检索推荐的相关论文。