论文状态：已完成

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

发表：2024/07/05

多语言语音识别与生成 (1)情感语音识别 (1)语音到语音翻译 (1)零样本语音克隆 (1)人机自然语音交互 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本报告介绍了FunAudioLLM模型家族，旨在增强人与大语言模型（LLM）之间的自然语音交互。其包含的SenseVoice模型提供多语言语音识别和情感识别，而CosyVoice则致力于自然语音生成。两者均已开源，支持语音翻译、情感聊天等多种应用，推动语音交互技术的发展。

摘要

This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.

思维导图

论文精读

中文精读约 15 分钟读完 · 8,150 字

1. 论文基本信息

1.1. 标题

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs （FunAudioLLM：用于人类与大语言模型自然交互的语音理解与生成基础模型）

1.2. 作者

Tongyi Speech Team (通义语音团队) 隶属机构：阿里巴巴集团 (Alibaba Group) 通讯地址：FunAudioLLM@list.alibaba-inc.com 注：论文第7章列出了按姓氏首字母排序的具体贡献者名单，包括 Keyu An, Zhihao Du, Shiliang Zhang, Zhijie Yan 等多位研究人员。

1.3. 发表信息

发布状态: 预印本 (Preprint)
发布平台: arXiv
发布时间: 2024年7月4日 (v1), 当前版本 v3
原文链接: https://arxiv.org/abs/2407.04051

1.4. 摘要

本报告介绍了 FunAudioLLM 模型家族，其核心由两个创新模型组成：

SenseVoice: 专注于语音理解，支持多语言语音识别（ASR）、情感识别和音频事件检测。其中 SenseVoice-Small 具有极低的延迟，SenseVoice-Large 支持 50 多种语言的高精度识别。
CosyVoice: 专注于自然语音生成，支持多语言、音色、说话风格和说话人身份的控制。它擅长零样本（Zero-shot）语境学习、跨语言语音克隆和指令跟随。

这两个模型已在 Modelscope 和 Huggingface 上开源。通过将它们与 LLM 集成，FunAudioLLM 实现了语音到语音翻译、情感语音聊天、交互式播客等应用。

2. 整体概括

2.1. 研究背景与动机

近年来，以 GPT-4o 和 Gemini-1.5 为代表的 AI 模型改变了人机交互方式。然而，要实现真正的自然语音交互，现有的语音处理技术仍面临挑战：

理解能力的局限: 传统的自动语音识别（ASR）往往只关注文本内容，忽略了语音中的情感（Emotion）和音频事件（Audio Events，如笑声、掌声），而这些是人类交流中至关重要的非语言信息。
生成能力的单一: 现有的语音合成（TTS）模型在零样本语音克隆（Zero-shot Voice Cloning）和细粒度控制（如在说话中插入笑声、改变语气）方面表现不足，或者推理速度无法满足实时交互需求。
高延迟: 像 OpenAI 的 Whisper 虽然准确，但在推理速度上较慢，难以满足实时对话的低延迟要求。

FunAudioLLM 旨在通过提供高性能的理解（SenseVoice）和生成（CosyVoice）基础模型，填补人类与大语言模型（LLMs）之间自然语音交互的空白。

下图（原文 Figure 1）展示了 FunAudioLLM 的整体概览，涵盖了其核心模型及下游应用：

fig 10 该图像是一个示意图，展示了 FunAudioLLM 中 SenseVoice 和 CosyVoice 模型的核心功能与特点。图中包括多语言语音识别、高精度语音克隆和情感合成等技术亮点，强调了它们在语音交互中的重要性。

2.2. 核心贡献

SenseVoice 模型: 提出了两个版本的语音理解模型。
- SenseVoice-Small: 采用非自回归架构，推理速度极快（比 Whisper-Small 快 5 倍以上），支持 5 种语言及情感/事件检测。
- SenseVoice-Large: 支持 50+ 种语言的高精度识别，并在中文和粤语上表现优异。
CosyVoice 模型: 提出了一个强大的语音生成模型，支持多语言、跨语言克隆，并能通过自然语言指令控制说话风格和副语言特征（Paralinguistics，如呼吸声、笑声）。
$S^3$ Tokenizer: 提出了一种监督语义语音词元分析器（Supervised Semantic Speech Tokenizer），有效连接了语音理解与生成，提高了生成模型对语义的保持能力。
开源: 所有的模型代码、训练脚本和推理代码均已开源，极大地推动了社区的发展。

3. 预备知识与相关工作

3.1. 基础概念

在深入方法论之前，我们需要理解以下关键概念：

ASR (Automatic Speech Recognition): 自动语音识别，即“语音转文字”技术。
TTS (Text-to-Speech): 语音合成，即“文字转语音”技术。
Zero-shot Learning (零样本学习): 指模型在没有针对特定任务或特定说话人进行过专门训练（Fine-tuning）的情况下，仅凭推理时的少量示例（如一段 3 秒的参考录音）就能完成任务（如克隆该人的声音）。
Tokenization (词元化): 在自然语言处理中，文本被切分为 Token（词元）。在语音处理中，连续的音频波形也需要被转化为离散的 Token 序列，以便使用类似 GPT 的 Transformer 模型进行处理。
Mel Spectrogram (梅尔频谱图): 一种模拟人类听觉感知的音频频域特征表示，通常作为语音生成的中间产物。
Prosody (韵律): 指语音中的抑扬顿挫、节奏、重音和语调，是自然语音的关键特征。

3.2. 技术演进与差异化

语音识别 (ASR):
- Whisper (OpenAI): 目前的主流基线。它使用 Transformer 的编码器-解码器结构，采用自回归（Autoregressive）方式生成文本，即一个字一个字地预测，准确度高但速度慢。
- SenseVoice 的改进: SenseVoice-Small 采用了非自回归（Non-autoregressive）架构，可以并行输出结果，大幅降低了延迟，更适合实时交互。
语音生成 (TTS):
- VALL-E / SoundStream: 展示了将语音量化为 Token 并使用语言模型进行生成的潜力。
- CosyVoice 的改进: 引入了监督语义 Token ( $S^3$ ) 和流匹配（Flow Matching）技术，不仅提高了音质，还实现了通过文本指令（Instruction）对情感和副语言特征的精细控制，这是之前多数模型做不到的。

4. 方法论

本章详细拆解 FunAudioLLM 的核心技术组件：语音理解模型 SenseVoice、语义语音词元分析器 $S^3$ ，以及语音生成模型 CosyVoice。

4.1. 语音理解模型: SenseVoice

SenseVoice 旨在从语音中提取多维度的信息，不仅是文本，还包括语种、情感和音频事件。

下图（原文 Figure 2）展示了 SenseVoice 的两种架构变体：

fig 11 该图像是示意图，展示了两种模型：SenseVoice Small 和 SenseVoice Large 的架构。上半部分标示了SenseVoice Small的任务嵌入、特征提取器和SAN-M编码器，强调了多任务损失输出。而下半部分则描述了SenseVoice Large采用变换器编码器和解码器的结构，显示了其自回归格式和开始提示符。整体结构旨在增强语音识别和生成的效率与准确性。

4.1.1. 模型架构设计

SenseVoice 提供了两种不同规模和架构的模型，以适应不同的应用场景：

SenseVoice-Small (极速版):
- 架构: 仅编码器 (Encoder-only) 的非自回归模型。
- 核心组件: 使用了带有记忆机制的自注意力网络 (SAN-M, Memory-equipped Self-Attention Network)。
- 优势: 推理速度极快，适合对延迟敏感的端侧设备。
SenseVoice-Large (高精版):
- 架构: 编码器-解码器 (Encoder-Decoder) 的自回归模型（类似 Whisper）。
- 优势: 支持 50 多种语言，识别精度极高，尤其针对中文和粤语进行了优化。

4.1.2. 多任务学习与输入表征

SenseVoice 的核心创新在于它如何通过特殊词元 (Special Tokens) 来指示模型执行不同的任务（如识别语言、识别情感、检测事件）。

步骤 1: 特征提取 模型首先计算音频的 80 维 Log-mel 滤波器组特征，并进行降采样。提取出的特征被映射到编码器的维度 $D$ ，记为 $\mathbf{X}_{\text {speech}} \in \mathbb{R}^{T \times D}$ ，其中 $T$ 是时间步长。

步骤 2: 任务嵌入 (Task Embeddings) 为了告诉模型需要执行什么任务，SenseVoice 将四个特殊的嵌入向量（Embeddings）拼接到语音特征的前面。

公式 1 (输入构造): $\mathbf{X} = \mathrm{concat}(\mathbf{e}_{\mathrm{LID}},\mathbf{e}_{\mathrm{SER}},\mathbf{e}_{\mathrm{AEC}},\mathbf{e}_{\mathrm{ITN / NoITN}},\mathbf{X}_{\mathrm{speech}})$

符号解释:

$\mathbf{X}$ : 最终输入到编码器的序列。
$\mathrm{concat}$ : 拼接操作。
$\mathbf{e}_{\mathrm{LID}}$ : 语种识别 (LID) 嵌入。指示模型预测语言（如中文、英文）。
$\mathbf{e}_{\mathrm{SER}}$ : 语音情感识别 (SER) 嵌入。指示模型预测情感标签（如开心、悲伤）。
$\mathbf{e}_{\mathrm{AEC}}$ : 音频事件分类 (AEC) 嵌入。指示模型检测背景事件（如音乐、掌声）。
$\mathbf{e}_{\mathrm{ITN / NoITN}}$ : 逆文本标准化 (ITN) 嵌入。指示输出文本是否包含标点符号和格式化数字。
$\mathbf{X}_{\mathrm{speech}}$ : 原始语音特征序列。

步骤 3: 预测输出 经过编码器处理后，模型通过一个线性层和 Softmax 函数预测输出概率。

公式 2 (输出概率): $\mathbf{P} = \operatorname {Softmax}(\operatorname {Linear}_{D \to |V'|}(\operatorname {Encoder}(\mathbf{X}))$

符号解释:

$\mathbf{P}$ : 输出的概率分布。
$|V'|$ : 词汇表大小，包含了文字 Token 和任务相关的特殊 Token。
$\operatorname{Encoder}(\mathbf{X})$ : 编码器对输入 $\mathbf{X}$ 的处理结果。

通过这种设计，SenseVoice 可以在一次前向传播中同时完成语音识别、情感分析和事件检测。

4.2. 监督语义语音词元分析器 ( $S^3$ Tokenizer)

在连接语音理解和语音生成时，如何将连续的语音信号转换为离散的 Token 是一个关键问题。

4.2.1. 问题背景

以往的模型（如 HuBERT）使用无监督学习来训练 Tokenizer。这种方法的缺点是 Token 与语音的语义内容关联较弱，且对训练数据的噪音非常敏感，导致生成语音时内容容易出错。

4.2.2. $S^3$ 方法原理

FunAudioLLM 提出了一种监督语义语音词元分析器 (Supervised Semantic Speech Tokenizer, $S^3$ )。

下图（原文 Figure 3）展示了 $S^3$ Tokenizer 的结构：

fig 7 该图像是一个示意图，展示了语音识别模型中的关键组件。图中展示了 ASR 解码器、两个编码器以及语音标记的处理流程，涉及到向量量化及位置编码的使用，说明了输入语音 $X$ 如何通过不同阶段的处理生成输出 $Y$ 。

基础: 基于预训练好的 SenseVoice-Large 模型。
提取位置: 在编码器的前 6 层之后插入一个向量量化器 (Vector Quantizer)。
监督信号: 由于 SenseVoice 是通过有监督的文本数据（ASR任务）训练的，因此其编码器提取的特征天然包含了丰富的语义信息和副语言信息。
量化: 使用一个包含 4096 个条目的码本（Codebook），将连续的语音向量映射为离散的 Token 索引。
优势: $S^3$ Token 具有极强的语义对应性，大大提高了后续 CosyVoice 生成内容的准确性和稳定性，并且对训练数据的噪音有更强的鲁棒性。

4.3. 语音生成模型: CosyVoice

CosyVoice 是一个能够生成高质量、多语言、且可控的语音生成模型。

下图（原文 Figure 4）展示了 CosyVoice 的系统架构图，包含 LLM、流匹配和声码器三个主要部分：

fig 1 该图像是示意图，展示了生成语音的流程。图中包含了参考语音、文本标记器、自动回归变换器、流匹配和HiFTNet声码器等模块，最终生成语音。各步骤通过不同的Token进行连接，形成语音生成的完整路径。

4.3.1. 系统概览

CosyVoice 的生成过程分为三个阶段：

文本到语音 Token (Text-to-Token): 使用一个自回归的 Transformer 语言模型（LM），将输入文本转化为语音 Token 序列（使用 $S^3$ Tokenizer 的定义）。
Token 到梅尔频谱 (Token-to-Mel): 使用流匹配 (Flow Matching) 模型，根据语音 Token 重建梅尔频谱。
梅尔频谱到波形 (Mel-to-Waveform): 使用基于 HiFTNet 的声码器（Vocoder）生成最终的音频波形。

4.3.2. 流匹配模型 (Flow Matching)

这是 CosyVoice 生成高质量音频的核心。流匹配是一种基于常微分方程（ODE）的生成模型，比传统的扩散模型（Diffusion）收敛更快。

模型的目标是估计条件概率 $P(S|X,v,S_{ref})$ ，其中：

$S$ : 目标语音的梅尔频谱。
$X$ : 语音 Token 序列（由第一步的 LM 生成）。
$v$ : 说话人嵌入向量 (Speaker Embedding)。
$S_{ref}$ : 参考语音的梅尔频谱（用于 Zero-shot 克隆）。

通过在推理阶段求解 ODE，CosyVoice 仅需 5 到 10 步迭代即可生成高质量的梅尔频谱。

4.3.3. 零样本语境学习 (Zero-shot In-context Learning)

CosyVoice 能够仅凭 3 秒的参考语音克隆任何人的声音。

下图（原文 Figure 5）展示了零样本克隆（a）和跨语言克隆（b）的输入序列构造方式：

fig 2

原理:

将参考语音（Prompt Speech）和目标文本（Input Text）拼接在一起。
对于同语言克隆：参考语音的 Token 被视为“预生成”的内容，模型接着续写后续的 Token。
对于跨语言克隆（如用中文参考语音生成英文）：模型会丢弃参考语音的文本内容和 Prosody（韵律），仅保留音色特征，以避免源语言的口音干扰目标语言。

4.3.4. 指令微调 (Instruction Fine-tuning)

CosyVoice 的另一个强大功能是支持自然语言指令。通过在训练数据中引入指令文本（如“”或自然语言描述），模型学会了根据指令调整生成的语音风格。

例如，输入指令：“A happy girl with high tone and quick speech”（一个说话语调高且语速快的快乐女孩），CosyVoice 就能生成符合该描述的语音。

5. 实验设置

5.1. 数据集

为了训练这一庞大的系统，作者收集了海量的数据。

SenseVoice 训练集:
- SenseVoice-Small: 约 30 万小时音频，覆盖中、粤、英、日、韩 5 种语言。
- SenseVoice-Large: 额外增加了 10 万小时的多语言数据。
- 丰富标注: 使用开源模型生成了 1.5 亿条音频事件（AED）标签和 3000 万条情感（SER）标签，用于多任务训练。
CosyVoice 训练集:
- 总计约 17 万小时，包含 5 种语言。
- 指令数据: 专门构建了包含说话人身份、风格和副语言特征的指令微调数据集（见原文 Table 5）。
  
  下图（原文 Figure 8）展示了 SenseVoice 训练数据在不同语言上的分布（对数刻度）：
  
  该图像是一个柱状图，展示了多种语言的语音识别数据量。横轴标识不同语言的缩写，纵轴表示各语言的数据数量，从中文（zh）和英语（en）开始，高峰值达到了76800，随后逐渐递减，显示出语音识别在不同语言中的数量分布情况。

5.2. 评估指标

论文使用了多种指标来全面评估模型性能：

CER / WER (Character/Word Error Rate):
- 定义: 用于评估 ASR 的准确性。CER 用于中文等字符语言，WER 用于英文等单词语言。数值越低越好。
- 公式: $\text{WER} = \frac{S + D + I}{N}$
- 符号解释: $S$ 为替换错误数， $D$ 为删除错误数， $I$ 为插入错误数， $N$ 为参考文本的总字数/词数。
RTF (Real-Time Factor):
- 定义: 实时率，衡量推理速度。
- 公式: $\text{RTF} = \frac{\text{Processing Time}}{\text{Audio Duration}}$
- 解释: RTF < 1 表示处理速度快于说话速度。
Speaker Similarity (SS):
- 定义: 说话人相似度，衡量克隆的声音像不像原主。通过计算生成语音和参考语音的声纹嵌入（Speaker Embedding）之间的余弦相似度得出。
UA / WA / F1:
- 定义: 用于评估情感识别性能。UA (Unweighted Accuracy) 是各类别准确率的平均，WA (Weighted Accuracy) 是加权平均，F1 Score 综合了精确率和召回率。

5.3. 对比基线

ASR: Whisper (OpenAI), Paraformer (Alibaba).
SER: EmoBox, Qwen-Audio.
TTS: ChatTTS, GPT-SoVITS, OpenVoice.

6. 实验结果与分析

6.1. 多语言语音识别性能 (ASR)

实验结果表明，SenseVoice 在准确率和速度上都极具竞争力。

以下是原文 [Table 6] 的结果，展示了不同模型在中文和英文公开数据集上的 CER/WER 对比：

	Whisper-S	Whisper-LV3	SenseVoice-S	SenseVoice-L	Paraformer-zh
AISHELL-1 test	10.04	5.14	2.96	2.09	1.95
AISHELL-2 test_ios	8.78	4.96	3.80	3.04	2.85
WenteSpeech test_meeting	25.62	18.87	7.44	6.73	6.97
WenteSpeech test_net	16.66	10.48	7.84	6.01	6.74
LibriSpeech test_clean	3.13	1.82	3.15	2.57	-
LibriSpeech test_other	7.37	3.50	7.18	4.28	-
CommonVoice zh-CN	19.60	12.55	10.78	7.68	10.30
CommonVoice en	14.85	9.39	14.71	9.00	-
CommonVoice yue	38.97	10.41	7.09	6.78	-

核心结果分析:

中文与粤语优势: SenseVoice-Large (SenseVoice-L) 在所有中文数据集（AISHELL, WenetSpeech）和粤语数据集上均显著优于 Whisper-Large-V3。例如在 CommonVoice yue（粤语）上，错误率从 10.41% 降至 6.78%。
速度优势: 如下表（原文 Table 7）所示，SenseVoice-Small (SenseVoice-S) 的推理延迟极低。

以下是原文 [Table 7] 的结果：

Model Framework Parameters Support Language RTF 10s Audio Latency(ms)

Whisper-S Autoregressive 224M 50+ 0.042 518

SenseVoice-S Non-autoregressive 234M zh,yue,en,jiao 0.007 70

Model	Framework	Parameters	Support Language	RTF	10s Audio Latency(ms)
Whisper-S	Autoregressive	224M	50+	0.042	518
SenseVoice-S	Non-autoregressive	234M	zh,yue,en,jiao	0.007	70

分析: SenseVoice-S 处理 10 秒音频仅需 70 毫秒，比 Whisper-S 快 7 倍以上，这对于实时对话至关重要。

6.2. 语音情感识别 (SER) 与音频事件检测 (AED)

SenseVoice 不仅能听懂字，还能听懂“情绪”和“环境”。

下图（原文 Figure 12）展示了 SenseVoice 在多个情感数据集上的加权平均准确率（WA）：

fig 12

结果分析: SenseVoice-Large 在大多数数据集（如 CASIA, ESD, IEMOCAP）上均超越了专门的情感识别模型（如 EmoBox）和音频大模型（Qwen-Audio）。这证明了在大量 ASR 数据上联合训练情感任务是非常有效的。

在音频事件检测方面（原文 Figure 9），SenseVoice 同样表现出色，能够准确识别笑声、咳嗽声等，这对于理解用户当前的生理状态或环境背景非常有用。

fig 9 该图像是一个图表，展示了不同模型在各种音频信号识别任务（如欢呼、笑声、咳嗽等）的准确率。图表中显示了 BEATS、CNN14、Qwen-audio、SenseVoice-S 和 SenseVoice-L 五种模型的比较，涵盖了 ESC-50、婴儿哭声检测、Casual 和 In-home Talkshow 等数据集。

6.3. CosyVoice 生成质量

CosyVoice 在生成语音的自然度和说话人相似度上达到了人类水平（Human Parity）。

以下是原文 [Table 10] 的结果，评估了英文生成质量（LibriTTS test-clean）：

Model	WER(%)	#Ins.&Del.	SS
Original	2.66	92	69.67
ChatTTS	8.32	441	-
CosyVoice	$2.89{\pm }0.18$	$88.60{\pm }3.88$	$74.30{\pm }0.15$
+5x re-ranking	1.51	47	74.30