CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training
TL;DR 精炼摘要
本文介绍了CosyVoice 3,一个针对真实环境的零样本多语言语音合成模型。其通过新型语音分词器、可微奖励优化技术及大规模数据扩展,显著提高了内容一致性、说话者相似度和韵律自然度,优于前作CosyVoice 2。
摘要
In our prior works, we introduced a scalable streaming speech synthesis model, CosyVoice 2, which integrates a large language model (LLM) and a chunk-aware flow matching (FM) model, and achieves low-latency bi-streaming speech synthesis and human-parity quality. Despite these advancements, CosyVoice 2 exhibits limitations in language coverage, domain diversity, data volume, text formats, and post-training techniques. In this paper, we present CosyVoice 3, an improved model designed for zero-shot multilingual speech synthesis in the wild, surpassing its predecessor in content consistency, speaker similarity, and prosody naturalness. Key features of CosyVoice 3 include: 1) A novel speech tokenizer to improve prosody naturalness, developed via supervised multi-task training, including automatic speech recognition, speech emotion recognition, language identification, audio event detection, and speaker analysis. 2) A new differentiable reward model for post-training applicable not only to CosyVoice 3 but also to other LLM-based speech synthesis models. 3) Dataset Size Scaling: Training data is expanded from ten thousand hours to one million hours, encompassing 9 languages and 18 Chinese dialects across various domains and text formats. 4) Model Size Scaling: Model parameters are increased from 0.5 billion to 1.5 billion, resulting in enhanced performance on our multilingual benchmark due to the larger model capacity. These advancements contribute significantly to the progress of speech synthesis in the wild. We encourage readers to listen to the demo at https://funaudiollm.github.io/cosyvoice3.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training (CosyVoice 3:通过规模扩展与后训练实现面向真实环境的语音生成)
1.2. 作者
Zhihao Du, Changfeng Gao, Yuxuan Wang, Fan Yu 等(共22位作者)。 作者隶属于 阿里巴巴集团通义实验室语音团队 (Speech Team, Tongyi Lab, Alibaba Group)。
1.3. 发表期刊/会议
该论文目前发布于 arXiv 预印本平台(2025年5月发布 v2 版本)。由于其前作 CosyVoice 2 的广泛影响力,该版本代表了阿里巴巴在语音生成领域的最前沿进展。
1.4. 发表年份
2025年。
1.5. 摘要
本文介绍了 CosyVoice 3,这是对前作 CosyVoice 2 的重大升级。CosyVoice 3 旨在实现零样本 (zero-shot)、多语言且面向真实环境 (in-the-wild) 的语音合成。其核心改进包括:
- 新型语音分词器 (Speech Tokenizer): 通过多任务监督学习(ASR、情感识别等)提升韵律自然度。
- 可微奖励优化 (Differentiable Reward Optimization, DiffRO): 一种新型的后训练技术,用于优化语音词元的生成质量。
- 规模扩展 (Scaling-up): 训练数据从1万小时扩展至100万小时,模型参数从5亿 (0.5B) 增加到15亿 (1.5B)。
- 基准测试: 引入了
CV3-Eval真实环境基准测试。实验表明,CosyVoice 3 在内容一致性、说话者相似度和韵律自然度方面均达到了最先进水平。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
近年来,零样本语音合成 (Zero-shot TTS) 取得了巨大进步,其目标是仅凭几秒钟的参考音频就克隆出目标人物的音色和风格。虽然前作 CosyVoice 2 已经实现了极低延迟的流式合成和类人质量,但在面对“真实环境”时仍有力不从心之处:
- 语言覆盖不足: 难以处理多种小语种及方言。
- 领域多样性有限: 无法胜任嘈杂背景、复杂情感或特定领域的专业文本。
- 数据规模瓶颈: 1万小时的数据量难以训练出具有极强泛化能力的超大型模型。
- 后训练缺失: 传统的 TTS 模型大多停留在预训练阶段,缺乏类似 NLP 领域 RLHF(人类反馈强化学习)的优化手段。
2.2. 核心贡献/主要发现
-
提出的新模型:
CosyVoice 3通过 100 万小时数据的洗礼,显著增强了跨语言克隆和复杂场景下的稳定性。 -
技术创新:
- 开发了基于 多任务监督学习 的语音分词器,使其不仅能编码语义,还能捕捉情感和环境特征。
- 提出了 可微奖励优化 (DiffRO) 算法,解决了语音模型在强化学习中计算开销大、反馈信号模糊的问题。
-
能力突破: 实现了“单语说话者变多语者”的能力,支持 9 种语言和 18 种中文方言,并能通过自然语言指令控制情感(如“请开心地跟我说话”)。
3. 预备知识与相关工作
3.1. 基础概念
- 零样本语音合成 (Zero-shot TTS): 指模型在训练过程中从未见过某个说话者的音频,但在推理阶段只需该说话者的一段短音频作为提示 (Prompt),就能合成出其音色的语音。
- 语音分词器 (Speech Tokenizer): 将连续的音频信号转化为离散的、类似单词的数字序列(词元/Token)。这是让大语言模型(LLM)处理音频的关键步骤。
- 流匹配 (Flow Matching, FM): 一种生成模型技术,类似于扩散模型 (Diffusion),它通过学习如何将简单的噪声分布“流动”到复杂的语音分布,从而生成高质量音频。
- 有限标量量化 (Finite Scalar Quantization, FSQ): 一种将连续向量映射到有限离散集合的方法。相比传统的 VQ (Vector Quantization),FSQ 不需要复杂的“码本更新”策略,训练更稳定。
3.2. 前人工作与技术演进
语音合成经历了从拼接合成到参数合成,再到如今生成式神经网络合成的演变。
- 第一代: 自回归 (AR) 模型: 如
VALL-E,将语音视为一种语言,用 LLM 预测语音 Token。 - 第二代: 非自回归 (NAR) 模型: 如
Voicebox、F5-TTS,利用流匹配或扩散模型直接生成特征。 - 第三代: 混合系统 (Hybrid): 如
CosyVoice 2和Seed-TTS。这类系统先用一个 AR 模型(LLM)生成粗略的语义 Token,再用一个 NAR 模型(流匹配)补充细节。CosyVoice 3 继承并优化了这一混合架构。
3.3. 差异化分析
相较于其他模型,CosyVoice 3 的独特之处在于:
-
分词器的语义化: 很多模型使用自监督分词器(如 HuBERT),而 CosyVoice 3 使用了包含 ASR(语音识别)标签在内的多种监督任务来训练分词器,确保 Token 包含精准的文字对应关系。
-
RL 的引入: 它是少数成功将强化学习理念引入离散 Token 语音生成的工业级模型。
4. 方法论
4.1. 方法原理
CosyVoice 3 的核心思想是:通过高质量、多任务的语义 Token 作为桥梁,将文本映射到语音空间,并利用大规模数据扩展和可微强化学习提升表现。
4.2. 核心方法详解
4.2.1. 基于多任务监督训练的语音分词器 (Speech Tokenizer)
为了让生成的语音在韵律上更自然,CosyVoice 3 重新设计了分词器。该组件基于 MinMo(一种大型音频理解模型)。
具体步骤:
-
中间表示获取: 输入语音 经过包含 12 个 Transformer 块的语音编码器 ,得到中间表示 。
-
有限标量量化 (FSQ): 为了将连续的 转化为离散 Token,引入了 FSQ 模块。它先将 投影到低维空间,然后进行四舍五入量化: 这里 是量化后的低秩表示。
-
索引计算: 将量化值转换成唯一的索引 ,作为语音词元: 其中 是维度, 是每个维度的量化等级。该分词器的采样率为 。
-
多任务监督: 在训练分词器时,不仅仅让它预测音频,还让它同时完成 ASR(识别)、LID(语种识别)、SER(情感识别)、AED(音频事件检测)和 SA(说话者分析)。这保证了生成的 Token 包含极其丰富的副语言信息。
下图(原文 Figure 2)展示了分词器及整体训练流程:
该图像是 CosyVoice 3 的训练流程示意图,包括 (a) 多任务训练的语音分词器和 (b) 训练流程。图中展示了如何通过多项任务训练提升语音分词器性能,以及大型预训练和后训练方法的应用。
4.2.2. 可微奖励优化 (Differentiable Reward Optimization, DiffRO)
传统强化学习在语音任务中很难做,因为需要合成完整音频后才能打分,计算量巨大。CosyVoice 3 提出了 DiffRO。
核心逻辑:
- 直接优化词元: 不去优化最终音频,而是优化 LLM 输出的离散词元序列 。
- 可微采样: 使用
Gumbel-Softmax操作,使得从概率分布中采样 Token 的过程变得可导: 其中 是输入文本, 是正在训练的模型参数。 - 奖励函数 (Reward): 训练一个
Token2Text的 ASR 模型作为奖励器。如果生成的 Token 能被 ASR 正确还原为输入文本,则奖励越高: - 优化目标: 结合 KL 散度(防止模型偏离预训练版本太远)最大化预期奖励: 通过这种方式,模型学会了如何生成更“准确”且“符合文本语义”的语音 Token。
4.2.3. 文本处理与指令生成
-
发音修复 (Pronunciation Inpainting): 支持文本与音素(Phoneme)混合输入。当遇到多音字(如“重”)或罕见词时,用户可以直接提供拼音或音素来强制纠正。
-
文本标准化 (TN): 使用大模型(如 Qwen-Max)自动将“2025年”转化为“二零二五年”,减少手写规则的盲区。
-
指令控制: 支持超过 100 种风格指令(见下文 Table 1)。
5. 实验设置
5.1. 数据集
- 预训练数据: 规模达到 100万小时。涵盖 9 种语言(中、英、日、俄、法、德、西、韩、意)和 18 种中国方言。
- 指令数据: 5000 小时的高质量指令数据,包含情感、语速、音调等标签。
- CV3-Eval (本文提出的新基准):
-
多语言测试: 从 Common Voice 和 FLUERS 采样,包含真实环境噪声。
-
跨语言测试: 例如用英语 Prompt 合成中文(en2zh)。
-
情感测试: 包含“高兴”、“愤怒”、“悲伤”等。
以下是原文 Table 1 列出的部分风格指令示例:
adventurous (冒险的) artistic (艺术的) calm (冷静的) ancient (古老的) angry (愤怒的) happy (快乐的) heroic (英雄的) sad (悲伤的) fast (快速的) slow (缓慢的) cantonese (粤语) shanghai (上海话) sichuan (四川话) robot (机器人) witch (女巫)
-
5.2. 评估指标
- 内容一致性 (Content Consistency): 使用字错误率 CER (Character Error Rate) 或词错误率 WER (Word Error Rate) 衡量。
- 公式: ,其中 为替换, 为删除, 为插入, 为总词数。
- 说话者相似度 (Speaker Similarity, SS): 计算合成语音与参考音频的特征向量之间的余弦相似度 (Cosine Similarity)。
- 公式: 。
- 音频质量 (Audio Quality): 使用 DNSMOS 评分,这是一种自动模拟人类感知的客观评分模型,范围通常在 1-5 分。
5.3. 对比基线
比较了包括 Seed-TTS、F5-TTS、MaskGCT、GPT-SoVITS 和 CosyVoice 2 在内的 10 种主流 SOTA 模型。
6. 实验结果与分析
6.1. 核心结果分析
在 SEED-TTS-Eval 公开测试集上,CosyVoice 3 展现了统治级的性能。
以下是原文 Table 4 的完整转录:
| 模型 (Model) | 中文测试 (test-zh) | 英文测试 (test-en) | 困难测试 (test-hard) | |||
|---|---|---|---|---|---|---|
| CER (%) ↓ | 相似度 (SS) ↑ | WER (%) ↓ | 相似度 (SS) ↑ | CER(%) ↓ | 相似度 (SS) ↑ | |
| 人类语音 (Human) | 1.26 | 0.755 | 2.14 | 0.734 | - | - |
| CosyVoice 2 | 1.45 | 0.748 | 2.57 | 0.652 | 6.83 | 0.724 |
| CosyVoice 3-0.5B | 1.16 | 0.780 | 2.02 | 0.718 | 6.08 | 0.758 |
| CosyVoice 3-1.5B + RL | 0.71 | 0.775 | 1.45 | 0.695 | 5.66 | 0.750 |
分析点:
- 准确性超越人类: 在中文测试中,CosyVoice 3 的错误率 (0.71%) 甚至低于测试集本身的真实标注转录错误率。
- RL 的威力: 引入
DiffRO(即表中 RL 后缀) 后,模型在所有任务上的错误率下降了 20%-50%。 - 模型规模: 1.5B 模型相比 0.5B 模型在英文和复杂文本上表现更稳健。
6.2. 跨语言克隆能力
CosyVoice 3 解决了前作中“日语 Prompt 生成中文”容易失败的问题。通过 1.5B 模型的强大容量,其在跨语言 WER 上取得了显著进步。
以下是原文 Table 7 的部分跨语言测试结果:
| 模型 (Model) | 英转中 (en2zh) | 日转中 (ja2zh) | 中转英 (zh2en) | 中转日 (zh2ja) |
|---|---|---|---|---|
| CosyVoice 2 | 13.5 | 48.1 | 6.47 | 13.1 |
| CosyVoice 3-1.5B + RL | 5.09 | 3.05 | 2.98 | 7.08 |
(注:数值为 WER/CER %,越低越好。可以看到 ja2zh 的提升最为恐怖,从 48.1% 降至 3.05%。)
7. 总结与思考
7.1. 结论总结
CosyVoice 3 通过 “数据大、模型大、任务杂、训练巧” 四个维度,将零样本语音合成推向了生产级的新高度。
- 数据: 100万小时确立了极强的泛化能力。
- 模型: 1.5B 参数支撑了复杂的跨语言理解。
- 分词器: 多任务监督让 Token 蕴含了更多情感和韵律特征。
- 后训练: DiffRO 为语音生成的模型对齐开辟了新路径。
7.2. 局限性与未来工作
- 音色控制精度: 目前虽然能控制情感,但还无法通过纯文本指令精准调整“音色细节”(如:让声音再沙哑一点)。
- 歌唱能力: CosyVoice 3 在歌唱合成上表现一般,因为训练数据中歌唱占比较小。
- 计算开销: 1.5B 模型的推理成本高于轻量化模型,在实时性要求极高的端侧设备上仍有挑战。
7.3. 个人启发与批判
- 启发: 语音生成的“Scaling Law”(规模定律)依然生效。当数据量从 1 万小时跃升到 100 万小时后,很多原本困扰研究者的边缘 case(如跨语言干扰)会由于模型的“见多识广”而自然消解。
- 批判: 尽管 RL 提升了准确度,但作者也提到 RL 可能会轻微降低说话者的相似度(即“Hack 奖励”现象)。这说明当前的奖励函数(主要是 ASR 准确率)还不够全面,未来可能需要引入类似“音色判别器”或“情感匹配度”的多元奖励。
- 应用前景: 该模型对于数字人、多语言同声传译、以及高质量有声书制作具有极高的商业价值。其开源后的生态表现值得持续关注。
相似论文推荐
基于向量语义检索推荐的相关论文。