FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
TL;DR 精炼摘要
本报告介绍了FunAudioLLM模型家族,旨在增强人与大语言模型(LLM)之间的自然语音交互。其包含的SenseVoice模型提供多语言语音识别和情感识别,而CosyVoice则致力于自然语音生成。两者均已开源,支持语音翻译、情感聊天等多种应用,推动语音交互技术的发展。
摘要
This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs (FunAudioLLM:用于人类与大语言模型自然交互的语音理解与生成基础模型)
1.2. 作者
Tongyi Speech Team (通义语音团队) 隶属机构:阿里巴巴集团 (Alibaba Group) 通讯地址:FunAudioLLM@list.alibaba-inc.com 注:论文第7章列出了按姓氏首字母排序的具体贡献者名单,包括 Keyu An, Zhihao Du, Shiliang Zhang, Zhijie Yan 等多位研究人员。
1.3. 发表信息
- 发布状态: 预印本 (Preprint)
- 发布平台: arXiv
- 发布时间: 2024年7月4日 (v1), 当前版本 v3
- 原文链接: https://arxiv.org/abs/2407.04051
1.4. 摘要
本报告介绍了 FunAudioLLM 模型家族,其核心由两个创新模型组成:
-
SenseVoice: 专注于语音理解,支持多语言语音识别(ASR)、情感识别和音频事件检测。其中 SenseVoice-Small 具有极低的延迟,SenseVoice-Large 支持 50 多种语言的高精度识别。
-
CosyVoice: 专注于自然语音生成,支持多语言、音色、说话风格和说话人身份的控制。它擅长零样本(Zero-shot)语境学习、跨语言语音克隆和指令跟随。
这两个模型已在 Modelscope 和 Huggingface 上开源。通过将它们与 LLM 集成,FunAudioLLM 实现了语音到语音翻译、情感语音聊天、交互式播客等应用。
2. 整体概括
2.1. 研究背景与动机
近年来,以 GPT-4o 和 Gemini-1.5 为代表的 AI 模型改变了人机交互方式。然而,要实现真正的自然语音交互,现有的语音处理技术仍面临挑战:
-
理解能力的局限: 传统的自动语音识别(ASR)往往只关注文本内容,忽略了语音中的情感(Emotion)和音频事件(Audio Events,如笑声、掌声),而这些是人类交流中至关重要的非语言信息。
-
生成能力的单一: 现有的语音合成(TTS)模型在零样本语音克隆(Zero-shot Voice Cloning)和细粒度控制(如在说话中插入笑声、改变语气)方面表现不足,或者推理速度无法满足实时交互需求。
-
高延迟: 像 OpenAI 的 Whisper 虽然准确,但在推理速度上较慢,难以满足实时对话的低延迟要求。
FunAudioLLM 旨在通过提供高性能的理解(SenseVoice)和生成(CosyVoice)基础模型,填补人类与大语言模型(LLMs)之间自然语音交互的空白。
下图(原文 Figure 1)展示了 FunAudioLLM 的整体概览,涵盖了其核心模型及下游应用:
该图像是一个示意图,展示了 FunAudioLLM 中 SenseVoice 和 CosyVoice 模型的核心功能与特点。图中包括多语言语音识别、高精度语音克隆和情感合成等技术亮点,强调了它们在语音交互中的重要性。
2.2. 核心贡献
-
SenseVoice 模型: 提出了两个版本的语音理解模型。
- SenseVoice-Small: 采用非自回归架构,推理速度极快(比 Whisper-Small 快 5 倍以上),支持 5 种语言及情感/事件检测。
- SenseVoice-Large: 支持 50+ 种语言的高精度识别,并在中文和粤语上表现优异。
-
CosyVoice 模型: 提出了一个强大的语音生成模型,支持多语言、跨语言克隆,并能通过自然语言指令控制说话风格和副语言特征(Paralinguistics,如呼吸声、笑声)。
-
Tokenizer: 提出了一种监督语义语音词元分析器(Supervised Semantic Speech Tokenizer),有效连接了语音理解与生成,提高了生成模型对语义的保持能力。
-
开源: 所有的模型代码、训练脚本和推理代码均已开源,极大地推动了社区的发展。
3. 预备知识与相关工作
3.1. 基础概念
在深入方法论之前,我们需要理解以下关键概念:
- ASR (Automatic Speech Recognition): 自动语音识别,即“语音转文字”技术。
- TTS (Text-to-Speech): 语音合成,即“文字转语音”技术。
- Zero-shot Learning (零样本学习): 指模型在没有针对特定任务或特定说话人进行过专门训练(Fine-tuning)的情况下,仅凭推理时的少量示例(如一段 3 秒的参考录音)就能完成任务(如克隆该人的声音)。
- Tokenization (词元化): 在自然语言处理中,文本被切分为 Token(词元)。在语音处理中,连续的音频波形也需要被转化为离散的 Token 序列,以便使用类似 GPT 的 Transformer 模型进行处理。
- Mel Spectrogram (梅尔频谱图): 一种模拟人类听觉感知的音频频域特征表示,通常作为语音生成的中间产物。
- Prosody (韵律): 指语音中的抑扬顿挫、节奏、重音和语调,是自然语音的关键特征。
3.2. 技术演进与差异化
- 语音识别 (ASR):
- Whisper (OpenAI): 目前的主流基线。它使用 Transformer 的编码器-解码器结构,采用自回归(Autoregressive)方式生成文本,即一个字一个字地预测,准确度高但速度慢。
- SenseVoice 的改进: SenseVoice-Small 采用了非自回归(Non-autoregressive)架构,可以并行输出结果,大幅降低了延迟,更适合实时交互。
- 语音生成 (TTS):
-
VALL-E / SoundStream: 展示了将语音量化为 Token 并使用语言模型进行生成的潜力。
-
CosyVoice 的改进: 引入了监督语义 Token () 和流匹配(Flow Matching)技术,不仅提高了音质,还实现了通过文本指令(Instruction)对情感和副语言特征的精细控制,这是之前多数模型做不到的。
-
4. 方法论
本章详细拆解 FunAudioLLM 的核心技术组件:语音理解模型 SenseVoice、语义语音词元分析器 ,以及语音生成模型 CosyVoice。
4.1. 语音理解模型: SenseVoice
SenseVoice 旨在从语音中提取多维度的信息,不仅是文本,还包括语种、情感和音频事件。
下图(原文 Figure 2)展示了 SenseVoice 的两种架构变体:
该图像是示意图,展示了两种模型:SenseVoice Small 和 SenseVoice Large 的架构。上半部分标示了SenseVoice Small的任务嵌入、特征提取器和SAN-M编码器,强调了多任务损失输出。而下半部分则描述了SenseVoice Large采用变换器编码器和解码器的结构,显示了其自回归格式和开始提示符。整体结构旨在增强语音识别和生成的效率与准确性。
4.1.1. 模型架构设计
SenseVoice 提供了两种不同规模和架构的模型,以适应不同的应用场景:
- SenseVoice-Small (极速版):
- 架构: 仅编码器 (Encoder-only) 的非自回归模型。
- 核心组件: 使用了带有记忆机制的自注意力网络 (SAN-M, Memory-equipped Self-Attention Network)。
- 优势: 推理速度极快,适合对延迟敏感的端侧设备。
- SenseVoice-Large (高精版):
- 架构: 编码器-解码器 (Encoder-Decoder) 的自回归模型(类似 Whisper)。
- 优势: 支持 50 多种语言,识别精度极高,尤其针对中文和粤语进行了优化。
4.1.2. 多任务学习与输入表征
SenseVoice 的核心创新在于它如何通过特殊词元 (Special Tokens) 来指示模型执行不同的任务(如识别语言、识别情感、检测事件)。
步骤 1: 特征提取 模型首先计算音频的 80 维 Log-mel 滤波器组特征,并进行降采样。提取出的特征被映射到编码器的维度 ,记为 ,其中 是时间步长。
步骤 2: 任务嵌入 (Task Embeddings) 为了告诉模型需要执行什么任务,SenseVoice 将四个特殊的嵌入向量(Embeddings)拼接到语音特征的前面。
公式 1 (输入构造):
符号解释:
- : 最终输入到编码器的序列。
- : 拼接操作。
- : 语种识别 (LID) 嵌入。指示模型预测语言(如中文、英文)。
- : 语音情感识别 (SER) 嵌入。指示模型预测情感标签(如开心、悲伤)。
- : 音频事件分类 (AEC) 嵌入。指示模型检测背景事件(如音乐、掌声)。
- : 逆文本标准化 (ITN) 嵌入。指示输出文本是否包含标点符号和格式化数字。
- : 原始语音特征序列。
步骤 3: 预测输出 经过编码器处理后,模型通过一个线性层和 Softmax 函数预测输出概率。
公式 2 (输出概率):
符号解释:
-
: 输出的概率分布。
-
: 词汇表大小,包含了文字 Token 和任务相关的特殊 Token。
-
: 编码器对输入 的处理结果。
通过这种设计,SenseVoice 可以在一次前向传播中同时完成语音识别、情感分析和事件检测。
4.2. 监督语义语音词元分析器 ( Tokenizer)
在连接语音理解和语音生成时,如何将连续的语音信号转换为离散的 Token 是一个关键问题。
4.2.1. 问题背景
以往的模型(如 HuBERT)使用无监督学习来训练 Tokenizer。这种方法的缺点是 Token 与语音的语义内容关联较弱,且对训练数据的噪音非常敏感,导致生成语音时内容容易出错。
4.2.2. 方法原理
FunAudioLLM 提出了一种监督语义语音词元分析器 (Supervised Semantic Speech Tokenizer, )。
下图(原文 Figure 3)展示了 Tokenizer 的结构:
该图像是一个示意图,展示了语音识别模型中的关键组件。图中展示了 ASR 解码器、两个编码器以及语音标记的处理流程,涉及到向量量化及位置编码的使用,说明了输入语音 如何通过不同阶段的处理生成输出 。
-
基础: 基于预训练好的 SenseVoice-Large 模型。
-
提取位置: 在编码器的前 6 层之后插入一个向量量化器 (Vector Quantizer)。
-
监督信号: 由于 SenseVoice 是通过有监督的文本数据(ASR任务)训练的,因此其编码器提取的特征天然包含了丰富的语义信息和副语言信息。
-
量化: 使用一个包含 4096 个条目的码本(Codebook),将连续的语音向量映射为离散的 Token 索引。
-
优势: Token 具有极强的语义对应性,大大提高了后续 CosyVoice 生成内容的准确性和稳定性,并且对训练数据的噪音有更强的鲁棒性。
4.3. 语音生成模型: CosyVoice
CosyVoice 是一个能够生成高质量、多语言、且可控的语音生成模型。
下图(原文 Figure 4)展示了 CosyVoice 的系统架构图,包含 LLM、流匹配和声码器三个主要部分:
该图像是示意图,展示了生成语音的流程。图中包含了参考语音、文本标记器、自动回归变换器、流匹配和HiFTNet声码器等模块,最终生成语音。各步骤通过不同的Token进行连接,形成语音生成的完整路径。
4.3.1. 系统概览
CosyVoice 的生成过程分为三个阶段:
- 文本到语音 Token (Text-to-Token): 使用一个自回归的 Transformer 语言模型(LM),将输入文本转化为语音 Token 序列(使用 Tokenizer 的定义)。
- Token 到梅尔频谱 (Token-to-Mel): 使用流匹配 (Flow Matching) 模型,根据语音 Token 重建梅尔频谱。
- 梅尔频谱到波形 (Mel-to-Waveform): 使用基于 HiFTNet 的声码器(Vocoder)生成最终的音频波形。
4.3.2. 流匹配模型 (Flow Matching)
这是 CosyVoice 生成高质量音频的核心。流匹配是一种基于常微分方程(ODE)的生成模型,比传统的扩散模型(Diffusion)收敛更快。
模型的目标是估计条件概率 ,其中:
-
: 目标语音的梅尔频谱。
-
: 语音 Token 序列(由第一步的 LM 生成)。
-
: 说话人嵌入向量 (Speaker Embedding)。
-
: 参考语音的梅尔频谱(用于 Zero-shot 克隆)。
通过在推理阶段求解 ODE,CosyVoice 仅需 5 到 10 步迭代即可生成高质量的梅尔频谱。
4.3.3. 零样本语境学习 (Zero-shot In-context Learning)
CosyVoice 能够仅凭 3 秒的参考语音克隆任何人的声音。
下图(原文 Figure 5)展示了零样本克隆(a)和跨语言克隆(b)的输入序列构造方式:

原理:
- 将参考语音(Prompt Speech)和目标文本(Input Text)拼接在一起。
- 对于同语言克隆:参考语音的 Token 被视为“预生成”的内容,模型接着续写后续的 Token。
- 对于跨语言克隆(如用中文参考语音生成英文):模型会丢弃参考语音的文本内容和 Prosody(韵律),仅保留音色特征,以避免源语言的口音干扰目标语言。
4.3.4. 指令微调 (Instruction Fine-tuning)
CosyVoice 的另一个强大功能是支持自然语言指令。通过在训练数据中引入指令文本(如“
例如,输入指令:“A happy girl with high tone and quick speech”(一个说话语调高且语速快的快乐女孩),CosyVoice 就能生成符合该描述的语音。
5. 实验设置
5.1. 数据集
为了训练这一庞大的系统,作者收集了海量的数据。
-
SenseVoice 训练集:
- SenseVoice-Small: 约 30 万小时音频,覆盖中、粤、英、日、韩 5 种语言。
- SenseVoice-Large: 额外增加了 10 万小时的多语言数据。
- 丰富标注: 使用开源模型生成了 1.5 亿条音频事件(AED)标签和 3000 万条情感(SER)标签,用于多任务训练。
-
CosyVoice 训练集:
-
总计约 17 万小时,包含 5 种语言。
-
指令数据: 专门构建了包含说话人身份、风格和副语言特征的指令微调数据集(见原文 Table 5)。
下图(原文 Figure 8)展示了 SenseVoice 训练数据在不同语言上的分布(对数刻度):
该图像是一个柱状图,展示了多种语言的语音识别数据量。横轴标识不同语言的缩写,纵轴表示各语言的数据数量,从中文(zh)和英语(en)开始,高峰值达到了76800,随后逐渐递减,显示出语音识别在不同语言中的数量分布情况。
-
5.2. 评估指标
论文使用了多种指标来全面评估模型性能:
-
CER / WER (Character/Word Error Rate):
- 定义: 用于评估 ASR 的准确性。CER 用于中文等字符语言,WER 用于英文等单词语言。数值越低越好。
- 公式:
- 符号解释: 为替换错误数, 为删除错误数, 为插入错误数, 为参考文本的总字数/词数。
-
RTF (Real-Time Factor):
- 定义: 实时率,衡量推理速度。
- 公式:
- 解释: RTF < 1 表示处理速度快于说话速度。
-
Speaker Similarity (SS):
- 定义: 说话人相似度,衡量克隆的声音像不像原主。通过计算生成语音和参考语音的声纹嵌入(Speaker Embedding)之间的余弦相似度得出。
-
UA / WA / F1:
- 定义: 用于评估情感识别性能。UA (Unweighted Accuracy) 是各类别准确率的平均,WA (Weighted Accuracy) 是加权平均,F1 Score 综合了精确率和召回率。
5.3. 对比基线
-
ASR: Whisper (OpenAI), Paraformer (Alibaba).
-
SER: EmoBox, Qwen-Audio.
-
TTS: ChatTTS, GPT-SoVITS, OpenVoice.
6. 实验结果与分析
6.1. 多语言语音识别性能 (ASR)
实验结果表明,SenseVoice 在准确率和速度上都极具竞争力。
以下是原文 [Table 6] 的结果,展示了不同模型在中文和英文公开数据集上的 CER/WER 对比:
| Whisper-S | Whisper-LV3 | SenseVoice-S | SenseVoice-L | Paraformer-zh | |
|---|---|---|---|---|---|
| AISHELL-1 test | 10.04 | 5.14 | 2.96 | 2.09 | 1.95 |
| AISHELL-2 test_ios | 8.78 | 4.96 | 3.80 | 3.04 | 2.85 |
| WenteSpeech test_meeting | 25.62 | 18.87 | 7.44 | 6.73 | 6.97 |
| WenteSpeech test_net | 16.66 | 10.48 | 7.84 | 6.01 | 6.74 |
| LibriSpeech test_clean | 3.13 | 1.82 | 3.15 | 2.57 | - |
| LibriSpeech test_other | 7.37 | 3.50 | 7.18 | 4.28 | - |
| CommonVoice zh-CN | 19.60 | 12.55 | 10.78 | 7.68 | 10.30 |
| CommonVoice en | 14.85 | 9.39 | 14.71 | 9.00 | - |
| CommonVoice yue | 38.97 | 10.41 | 7.09 | 6.78 | - |
核心结果分析:
-
中文与粤语优势: SenseVoice-Large (SenseVoice-L) 在所有中文数据集(AISHELL, WenetSpeech)和粤语数据集上均显著优于 Whisper-Large-V3。例如在
CommonVoice yue(粤语)上,错误率从 10.41% 降至 6.78%。 -
速度优势: 如下表(原文 Table 7)所示,SenseVoice-Small (SenseVoice-S) 的推理延迟极低。
以下是原文 [Table 7] 的结果:
Model Framework Parameters Support Language RTF 10s Audio Latency(ms) Whisper-S Autoregressive 224M 50+ 0.042 518 SenseVoice-S Non-autoregressive 234M zh,yue,en,jiao 0.007 70
分析: SenseVoice-S 处理 10 秒音频仅需 70 毫秒,比 Whisper-S 快 7 倍以上,这对于实时对话至关重要。
6.2. 语音情感识别 (SER) 与音频事件检测 (AED)
SenseVoice 不仅能听懂字,还能听懂“情绪”和“环境”。
下图(原文 Figure 12)展示了 SenseVoice 在多个情感数据集上的加权平均准确率(WA):

结果分析: SenseVoice-Large 在大多数数据集(如 CASIA, ESD, IEMOCAP)上均超越了专门的情感识别模型(如 EmoBox)和音频大模型(Qwen-Audio)。这证明了在大量 ASR 数据上联合训练情感任务是非常有效的。
在音频事件检测方面(原文 Figure 9),SenseVoice 同样表现出色,能够准确识别笑声、咳嗽声等,这对于理解用户当前的生理状态或环境背景非常有用。
该图像是一个图表,展示了不同模型在各种音频信号识别任务(如欢呼、笑声、咳嗽等)的准确率。图表中显示了 BEATS、CNN14、Qwen-audio、SenseVoice-S 和 SenseVoice-L 五种模型的比较,涵盖了 ESC-50、婴儿哭声检测、Casual 和 In-home Talkshow 等数据集。
6.3. CosyVoice 生成质量
CosyVoice 在生成语音的自然度和说话人相似度上达到了人类水平(Human Parity)。
以下是原文 [Table 10] 的结果,评估了英文生成质量(LibriTTS test-clean):
| Model | WER(%) | #Ins.&Del. | SS |
|---|---|---|---|
| Original | 2.66 | 92 | 69.67 |
| ChatTTS | 8.32 | 441 | - |
| CosyVoice | |||
| +5x re-ranking | 1.51 | 47 | 74.30 |
核心结果分析:
- 内容一致性: CosyVoice 生成的语音的词错误率(WER)极低(2.89%),甚至接近原始录音的识别率。通过重排序(re-ranking)技术,WER 甚至可以进一步降低到 1.51%,优于 ChatTTS。
- 说话人相似度 (SS): 得分 74.30,甚至高于原始录音的自相似度(69.67,这可能由于原始录音片段较短或质量波动),说明其克隆能力极强。
6.4. 应用演示
论文展示了几个基于 FunAudioLLM 的核心应用场景:
-
语音到语音翻译 (S2ST): 结合 SenseVoice 的识别、LLM 的翻译和 CosyVoice 的跨语言克隆,用户可以用自己的声音说外语。
该图像是一个示意图,展示了 FunAudioLLM 中 SenseVoice 和 CosyVoice 模型之间的关系。通过集成这两个模型,系统利用 LLM 进行自然语音交互,并实现用户的语音问题,如“你今天打算吃什么?”。 -
情感语音聊天: LLM 根据 SenseVoice 识别出的用户情绪生成回复,并指示 CosyVoice 带着相应的情感说出来。
该图像是一个示意图,展示了 FunAudioLLM 模型中的 SenseVoice 和 CosyVoice 两个部分。图中示意了用户通过语音表达情感信息流向 SenseVoice 进行处理,并最终通过 CosyVoice 生成情感反馈,连接到大型语言模型(LLM)。 -
交互式播客: 多智能体系统生成脚本,CosyVoice 分饰多角进行演绎。
该图像是一幅示意图,展示了 FunAudioLLM 的两个核心模型:SenseVoice 和 CosyVoice。SenseVoice 处理多语言语音识别和情感识别,而 CosyVoice 则实现自然语音生成。通过实时知识库和地球知识的结合,这些模型能够实现更加自然的人机语音交互。
7. 总结与思考
7.1. 结论总结
FunAudioLLM 通过推出 SenseVoice 和 CosyVoice,提供了一套完整的语音交互解决方案。
- SenseVoice 解决了“听得快”和“听得全”(包含情感和事件)的问题,是非自回归 ASR 的一次成功实践。
- CosyVoice 解决了“说得像”和“说得准”(指令控制)的问题,利用流匹配和监督语义 Token 提升了生成质量。
- 两者的开源为构建下一代拟人化 AI 助手奠定了坚实基础。
7.2. 局限性与未来工作
作者在文中(Section 6)诚恳地指出了当前的局限性:
- 低资源语言: 对于训练数据稀缺的语言,ASR 性能仍有待提高。
- 流式处理: SenseVoice 目前主要是非流式的(即需要整句输入),未来需要开发流式版本以进一步降低感知延迟。
- 歌唱能力: CosyVoice 目前不擅长生成歌唱声音。
- 级联误差: 目前系统是级联的(ASR -> LLM -> TTS),上游的错误会传播到下游。未来可能需要探索端到端的语音-语音模型(Speech-to-Speech Model)。
7.3. 个人启发与批判
- Tokenizer 的价值: 论文证明了使用有监督 ASR 模型提取的语义 Token 优于无监督的 HuBERT Token。这提示我们在多模态对齐任务中,利用已有的强监督信号可能比纯粹的自监督学习更高效。
- 情感维度的引入: 传统的语音交互往往是冰冷的。FunAudioLLM 将情感识别和情感生成作为核心功能(First-class citizen)集成到基础模型中,这是向“类人”交互迈出的重要一步。
- 复杂系统的工程化: 尽管端到端(如 GPT-4o 的原生音频模式)是趋势,但在当前阶段,像 FunAudioLLM 这样模块化、高质量的组件组合,对于开发者来说可能更具可控性和落地性。开发者可以灵活替换其中的 LLM 部分,以适应不同的垂直领域需求。
相似论文推荐
基于向量语义检索推荐的相关论文。