Fun-ASR Technical Report
TL;DR 精炼摘要
Fun-ASR系统融合了大规模数据、大模型与大语言模型的深度集成,通过强化学习优化解决其幻觉问题,特别针对生产环境进行了流式识别、抗噪声与语码转换等方面优化。实验表明,该系统在真实工业应用数据集中取得领先性能,展示出有效性与鲁棒性。
摘要
In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present Fun-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integration, and reinforcement learning to achieve state-of-the-art performance across diverse and complex speech recognition scenarios. Moreover, Fun-ASR is specifically optimized for practical deployment, with enhancements in streaming capability, noise robustness, code-switching, hotword customization, and satisfying other real-world application requirements. Experimental results show that while most LLM-based ASR systems achieve strong performance on open-source benchmarks, they often underperform on real industry evaluation sets. Thanks to production-oriented optimizations, Fun-ASR achieves state-of-the-art performance on real application datasets, demonstrating its effectiveness and robustness in practical settings.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Fun-ASR 技术报告 (Fun-ASR Technical Report)
该标题直接点明了本文的核心内容:一份关于 Fun-ASR 系统的技术报告。这预示着文章将详细介绍一个名为 Fun-ASR 的自动语音识别系统的技术细节、架构、训练方法和性能表现。
1.2. 作者
作者是来自阿里巴巴集团的通义Fun团队 (Tongyi Fun Team, Alibaba Group)。这表明该研究具有强大的工业背景和资源支持,其研究成果很可能以实际应用和生产部署为导向。
1.3. 发表期刊/会议
本文是一篇预印本 (Preprint),发布在 arXiv.org 上。arXiv 是一个开放获取的学术论文预印本平台,广泛用于物理学、数学、计算机科学等领域。研究人员可以在此快速分享最新的研究成果,但需要注意的是,预印本论文通常未经同行评审 (Peer Review),其结论的可靠性需要读者审慎评估。
1.4. 发表年份
预印本发布于 2025 年 9 月 15 日(根据元数据)。这表示该工作反映了截至 2025 年下半年的最新技术进展。
1.5. 摘要
论文摘要概括了 Fun-ASR 系统的核心特点和贡献。Fun-ASR 是一个基于大语言模型(LLM)的大规模自动语音识别(ASR)系统。它融合了当前 ASR 领域的三大主流范式:大规模数据、大规模模型和与大语言模型的深度集成。为了解决 LLM 固有的“幻觉”问题,该系统还引入了强化学习进行优化。
Fun-ASR 不仅追求学术上的高精度,更针对生产环境进行了深度优化,涵盖了流式识别、噪声鲁棒性、中英混杂的语码转换、热词定制等真实世界需求。
实验结果显示,尽管许多基于 LLM 的 ASR 系统在开源基准测试中表现优异,但在真实的工业评测集上却表现不佳。而 Fun-ASR 凭借其面向生产的优化,在真实的工业应用数据集上取得了最先进的性能,证明了其在实际场景中的有效性和鲁棒性。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2509.12508
- PDF 链接: https://arxiv.org/pdf/2509.12508v3
- 发布状态: 预印本 (Preprint),未经同行评审。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 当前的自动语音识别 (Automatic Speech Recognition, ASR) 技术正朝着更大规模、更智能化的方向发展,特别是通过与大语言模型 (Large Language Models, LLMs) 的集成,取得了显著性能提升。然而,这种集成也带来了新的挑战,其中最突出的就是 LLM 的幻觉 (Hallucination) 问题。幻觉指的是模型在没有相应声学信号支持的情况下,凭空生成文本,这在安静、噪声或说话中断的场景中尤为常见,严重影响用户体验。
- 重要性与挑战: 在真实的生产环境中(如会议记录、实时字幕、智能客服),ASR 系统的可靠性至关重要。幻觉、噪声干扰、中英混说(语码转换)、专业术语(热词)识别不准等问题是现有 ASR 系统面临的普遍挑战。许多在学术基准上表现优异的模型,一旦部署到复杂的真实场景中,性能就会大幅下降。这表明,学术研究与工业落地之间存在一条明显的鸿沟 (Gap)。
- 切入点与创新思路: 本文的切入点非常明确——构建一个既能在学术上达到顶尖水平,又能真正在复杂生产环境中稳定运行的 ASR 系统。为此,
Fun-ASR的创新思路是“四位一体”:- 规模化 (Scaling): 同时扩大训练数据和模型参数的规模。
- LLM 集成 (LLM Integration): 利用 LLM 强大的语言理解和生成能力。
- 强化学习 (Reinforcement Learning, RL): 针对性地解决幻觉等复杂问题,优化用户体验。
- 生产导向优化 (Production-oriented Optimization): 在架构和训练层面专门解决流式识别、噪声、语码转换和热词等工业级难题。
2.2. 核心贡献/主要发现
-
核心贡献:
- 提出了 Fun-ASR 系统: 一个融合了大规模数据、大模型、LLM 集成和强化学习的综合性 ASR 系统。该系统包含两个版本:追求极致性能的
Fun-ASR(7.7B 参数) 和兼顾效率的Fun-ASR-nano(0.8B 参数)。 - 提出了 FunRL 框架: 一个专为大型音文多模态模型 (Large Audio-Language Models, LALMs) 设计的高效强化学习训练框架,解决了现有 RL 框架不支持音频编码器的问题。
- 构建了一套面向生产的优化方案: 详细阐述了如何通过数据模拟、模型设计和算法优化来提升流式能力、噪声鲁棒性、语码转换和热词定制等实用功能。
- 验证了工业评测的重要性: 实验结果揭示了开源基准与真实工业数据集之间的性能差异,强调了在真实、无泄漏的数据集上进行评估的必要性。
- 提出了 Fun-ASR 系统: 一个融合了大规模数据、大模型、LLM 集成和强化学习的综合性 ASR 系统。该系统包含两个版本:追求极致性能的
-
主要发现:
Fun-ASR在开源基准和更具挑战性的工业内部评测集上均取得了最先进的 (state-of-the-art, SOTA) 性能,全面超越了现有的开源模型和部分商业 API。- 强化学习在提升 ASR 性能方面扮演了关键角色,尤其是在流式识别和复杂噪声场景下,能够显著减少幻觉、插入和删除错误,并改善热词识别效果。
- 专门的噪声鲁棒性训练 (Noise Robust Training, NRT) 和语码转换数据合成等面向生产的优化策略,能够有效提升模型在特定挑战场景下的表现。
- 开源基准测试的成绩并不能完全代表模型在真实世界中的表现。一些在开源数据集上性能优异的模型,在工业评测集上性能下降明显,这凸显了
Fun-ASR面向生产优化的价值。
3. 预备知识与相关工作
3.1. 基础概念
- 自动语音识别 (Automatic Speech Recognition, ASR): 一项将人类语音转换为文本的技术。其目标是让计算机能够“听懂”人类的语言。
- 大语言模型 (Large Language Models, LLMs): 指参数量巨大(通常在十亿级别以上)的深度学习模型,它们在海量的文本数据上进行预训练,从而获得了强大的自然语言理解和生成能力。例如 GPT-3、Qwen 等。在 ASR 中,LLM 可以利用其丰富的语言知识来纠正识别错误,生成更流畅、更符合上下文的文本。
- 幻觉 (Hallucination): 在 ASR 领域,特指模型在输入音频中没有对应语音信号的情况下,输出了无中生有的文本内容。这通常发生在安静或噪声环境下。
- 词错误率 (Word Error Rate, WER): ASR 领域最常用的评估指标,用于衡量识别结果的准确性。它计算的是为了将识别出的文本转换为标准参考文本,所需要进行的替换 (Substitutions)、删除 (Deletions) 和 插入 (Insertions) 操作的总次数,再除以参考文本的总词数。WER 越低,表示模型性能越好。
- 流式 ASR (Streaming ASR): 指 ASR 系统能够以“边听边说”的方式实时处理音频流,即在接收到一小段音频(chunk)后,就能快速输出对应的文本,而无需等待整个音频结束。这对于实时字幕、语音助手等应用至关重要。
- 语码转换 (Code-switching): 指在同一段对话或一句话中,说话人交替使用两种或多种语言或方言。例如,在中文对话中夹杂英文单词(“这个
project的deadline是什么时候?”)。 - 热词 (Hotword): 指在特定领域或场景下出现频率高、对语义理解至关重要的词汇,如人名、地名、产品名、专业术语等。ASR 系统通常难以正确识别这些词,因此需要专门的定制化技术。
3.2. 前人工作
本文建立在近年来 ASR 领域的三大发展范式之上:
-
数据规模化 (Data Scaling):
- 代表工作:
Whisper(Radford et al., 2023)。 - 核心思想:
Whisper的研究证明,使用超大规模(68万小时)且多样化的(多语言、多口音、多噪声)弱监督数据进行训练,可以显著提升 ASR 模型的鲁棒性和泛化能力。其性能与训练数据量呈现强正相关。这使得大规模数据采集和处理成为现代 ASR 系统开发的基石。
- 代表工作:
-
模型规模化 (Model Size Scaling):
- 核心思想: 类似于 LLM 领域观察到的“规模法则” (Scaling Laws),即模型参数量越大,性能越强。
- 代表工作:
Whisper模型家族。 - 技术脉络: 从 3800 万参数的小模型到超过 15 亿参数的大模型,
Whisper的性能随着模型尺寸的增加而大幅提升。这证明了数据规模和模型规模的协同效应。
-
与 LLM 的深度集成 (Deep Integration with LLMs):
- 核心思想: 不再将 ASR 视为一个孤立的声学到文本的转换任务,而是将其视为一个音文多模态理解任务。通过引入预训练的 LLM,可以利用其强大的语言先验知识来改善识别结果,特别是解决语义模糊和生成上下文连贯的文本。
- 代表工作:
Seed-ASR(Bai et al., 2024) 和FireRedASR(Xu et al., 2025)。这些模型将音频编码器与 LLM 连接起来,有效地架起了语音与文本理解之间的桥梁。
3.3. 技术演进
ASR 技术的发展脉络大致如下:
-
早期 (20世纪50-80年代): 基于模板匹配和动态时间规整 (Dynamic Time Warping, DTW) 的小词汇量、孤立词识别系统。
-
统计模型时代 (20世纪80年代-21世纪初): 以隐马尔可夫模型-高斯混合模型 (HMM-GMM) 为核心的统计声学模型,结合 N-gram 语言模型,成为主流框架,实现了连续语音识别。
-
深度学习初期 (2010-2015): 深度神经网络 (DNN) 取代 GMM,形成了 HMM-DNN 混合模型,显著提升了声学建模的精度。
-
端到端模型时代 (2015-至今):
- CTC (Connectionist Temporal Classification): 允许模型直接输出文本序列,无需预先对齐,简化了训练流程。
- 基于注意力机制的编解码器 (Attention-based Encoder-Decoder, AED): 如
Listen, Attend and Spell (LAS),实现了完全的端到端建模,但解码时是自回归的,速度较慢。 - 非自回归模型: 如
Paraformer,通过并行解码提升了推理速度。
-
大模型时代 (2022-至今): 以
Whisper为代表,通过超大规模数据和模型,展现了强大的零样本 (zero-shot) 泛化能力。随后,Seed-ASR、Fun-ASR等工作将 ASR 架构与更强大的 LLM 深度融合,进入了 音文多模态大模型 (LALM) 的新阶段。本文的
Fun-ASR正是处在最新的 LALM 技术阶段,它继承了端到端模型的思想,并将其与 LLM 的强大能力相结合。
3.4. 差异化分析
与相关工作相比,Fun-ASR 的核心差异和创新点在于其系统性和实用性:
- 相较于
Whisper:Whisper主要验证了数据和模型规模化的威力,但它是一个纯粹的离线 (offline) 模型,不直接支持流式识别,也没有为热词等工业需求提供原生解决方案。Fun-ASR在继承其规模化思想的同时,重点解决了这些生产落地中的关键问题。 - 相较于
Seed-ASR和FireRedASR: 这些工作是 LLM-ASR 集成的先行者,验证了该路线的有效性。但Fun-ASR更进一步,不仅实现了集成,还:- 引入强化学习 (RL): 提出
FunRL框架和定制化的奖励函数,专门用于解决幻觉、关键词识别等传统监督学习难以优化的细粒度问题。 - 强调生产导向: 系统性地设计和评估了流式、噪声、语码转换、热词等一系列工业级功能,并用真实的工业数据集证明了其有效性,弥合了学术研究与实际应用之间的差距。
- 多阶段、精细化的训练流程: 设计了从预训练、多阶段微调到强化学习的完整训练管线,确保模型能力的全面发展和对齐。
- 引入强化学习 (RL): 提出
4. 方法论
4.1. 方法原理
Fun-ASR 的核心思想是构建一个大型的音文多模态模型,将强大的音频编码器 (Audio Encoder) 与一个大语言模型 (LLM) 解码器深度耦合。其基本工作流程是:音频信号首先由音频编码器提取出包含丰富声学和语义信息的表征,然后通过一个适配器模块 (Adaptor) 将这些音频表征“翻译”成 LLM 能够理解的格式,最后由 LLM 结合音频信息生成最终的识别文本。整个系统通过一个精心设计的多阶段训练策略进行优化,以实现高性能和高可靠性。
下图(原文 Figure 2)展示了 Fun-ASR 的整体模型架构。
该图像是一个示意图,展示了 Fun-ASR 系统的构成及数据流。图中包含音频上下文、音频适配器、音频编码器和 CTC 解码器,强调了用户热词的集成及模型的预测上下文部分。
该架构主要由四个部分构成:
-
音频编码器 (Audio Encoder): 一个多层
Transformer编码器,负责从原始音频中提取深层特征表示。 -
音频适配器 (Audio Adaptor): 一个两层的
Transformer编码器,作为桥梁,将音频编码器的输出与 LLM 的输入空间对齐。 -
CTC 解码器 (CTC Decoder): 附加在音频编码器之上,用于快速生成一个初步的识别结果。这个结果主要用于后续的热词定制功能。
-
LLM 解码器 (LLM-based Decoder): 系统的核心解码部分,它接收音频特征和可选的 CTC 初步预测结果,生成最终高质量的文本。
为了满足不同场景的算力需求,论文提出了两个尺寸的模型:
Fun-ASR: 拥有 0.7B(7亿)参数的音频编码器和 7B(70亿)参数的 LLM 解码器,追求极致识别精度。Fun-ASR-nano: 拥有 0.2B(2亿)参数的音频编码器和 0.6B(6亿)参数的 LLM 解码器,旨在平衡精度和效率。
4.2. 核心方法详解 (逐层深入)
4.2.1. 训练数据
- 预训练数据: 规模达数千万小时的音频数据。
- 无标签音频: 涵盖了人工智能、生物技术、电商、教育等多个领域的真实场景音频。
- 有标签音文对: 使用了包括
Paraformer-V2、Whisper和SenseVoice在内的多个 ASR 系统生成伪标签,并经过了逆文本归一化 (Inverse Text Normalization, ITN) 处理。主要语言是中文和英文。
- 监督微调数据: 规模达数百万小时的高质量数据。
- 包括人工标注数据、高质量伪标签数据、环境噪声数据、TTS 合成数据 (
CosyVoice3)、模拟的流式数据、噪声增强数据和热词定制数据。
- 包括人工标注数据、高质量伪标签数据、环境噪声数据、TTS 合成数据 (
4.2.2. 音频编码器的预训练
为了得到一个强大的音频编码器,论文采用了两阶段的预训练策略。下图(原文 Figure 3,图片文件名为 4.jpg)展示了这个流程。
该图像是一个示意图,展示了 Fun-ASR 系统中的训练流程。首先,使用去除因果掩码的预训练文本 LLM,接着经过 Best-RQ 基于自监督的训练,然后进行 AED 基于监督的训练,最终生成用于 FunAudio-ASR 的音频编码器。
-
阶段一:基于 Best-RQ 框架的自监督预训练
- 方法: 采用
Best-RQ(BERT-based Speech pre-Training with Random-projection Quantizer) 框架进行自监督学习。Best-RQ是一种掩码预测 (Mask-and-Predict) 的方法,它首先将连续的语音信号通过一个量化器 (Quantizer) 离散化成语音单元 (Speech Units),然后随机遮盖 (mask) 一部分语音单元,让模型去预测被遮盖的内容。这种方式使得模型可以从海量无标签音频中学习通用的声学表示。 - 创新点: 本文的一个关键创新是使用预训练的文本 LLM 来初始化音频编码器的权重。具体来说,他们使用了
Qwen3模型的层来初始化Best-RQ编码器。这个想法基于一个假设:文本 LLM 中蕴含的深层语言和语义知识可以为学习语音表示提供一个有益的归纳偏置 (Inductive Bias)。实验发现,这种跨模态初始化策略显著加速了训练收敛,并提升了所学语音表示的质量。
- 方法: 采用
-
阶段二:基于 AED 框架的监督预训练
- 方法: 将编码器放入一个标准的基于注意力的编解码器 (Attention-based Encoder-Decoder, AED) 架构中,使用大规模有标签的 ASR 数据进行端到端的监督训练。这个阶段的目标是让编码器从真实的音文对数据中学到丰富的声学和语言特征。
- 目的: 这个阶段训练完成后,得到的编码器将被用作下游
Fun-ASR(LLM-ASR) 系统中音频编码器的初始权重。这为后续的联合训练提供了一个非常好的起点,减少了模型从零开始学习底层特征的负担。
4.2.3. 监督微调 (Supervised Fine-tuning, SFT)
在获得预训练好的音频编码器和 LLM 后,Fun-ASR 通过一个包含五个阶段的 SFT 流程进行端到端优化。
-
阶段一:训练适配器 (Adaptor)
- 操作: 冻结音频编码器和 LLM 的参数,只训练中间的适配器模块。
- 目的: 此阶段的目标是快速将音频编码器输出的特征空间对齐到 LLM 的语义空间,相当于让 LLM “学会听懂”音频编码器输出的“语言”。
-
阶段二:训练音频编码器和适配器
- 操作: 继续冻结 LLM,联合训练音频编码器和适配器。
- 目的: 在适配器已经初步对齐的基础上,进一步优化音频编码器,使其生成更适合 LLM 理解的语义表示。
-
阶段三:LoRA 微调 LLM
- 操作: 冻结编码器和适配器,使用 低秩适配 (Low-Rank Adaptation, LoRA) 技术微调 LLM。
- LoRA 解释: LoRA 是一种参数高效的微调方法。它不改变 LLM 的原始权重,而是在模型的某些层(通常是
Transformer的自注意力模块)旁边增加两个小的、可训练的“低秩”矩阵。训练时只更新这两个小矩阵的参数。这样做的好处是,既能让 LLM 适应新的 ASR 任务,又能最大程度地保留其在预训练阶段学到的通用语言知识,防止灾难性遗忘 (Catastrophic Forgetting)。
-
阶段四:联合微调
- 操作: 对音频编码器和适配器进行全参数微调,同时继续使用 LoRA 微调 LLM。
- 目的: 这是主要的微调阶段,使用最高质量的数据对整个系统的各个部分进行协同优化,以达到最佳性能。
-
阶段五:训练 CTC 解码器
- 操作: 冻结音频编码器,在其之上添加并训练一个 CTC 解码器。
- CTC 解释: CTC 是一种用于序列标注任务的损失函数,它允许模型在输入和输出序列长度不一且无需严格对齐的情况下进行训练。
- 目的: 这个 CTC 解码器通过贪心搜索 (Greedy Search) 可以非常快速地生成一个初步识别结果。这个结果在
Fun-ASR中主要用于热词定制,作为检索的依据。
4.2.4. 上下文监督微调 (Contextual SFT)
为了让模型能利用上下文信息来提高识别准确率(例如,根据前文内容纠正同音异义词),论文设计了一个上下文 SFT 阶段。由于高质量的带上下文的音频数据稀缺,他们提出了一种数据构造方法:
- 关键词提取: 使用
Qwen3-32B模型从当前对话的文本中提取关键词(如实体、专业术语)。 - 相关上下文合成: 提示
Qwen3-32B模型,根据当前对话内容和提取的关键词,生成多个符合口语特征的、多样化的相关上下文片段。 - 无关上下文组合: 为了防止模型过度依赖上下文,他们还随机采样了 5 个不相关的上下文片段,与合成的相关上下文混合,构造出最终的训练数据。
4.2.5. 强化学习 (Reinforcement Learning, RL)
为了解决幻觉等更细粒度的问题,Fun-ASR 在 SFT 之后引入了 RL 阶段。
4.2.5.1. FunRL 框架
由于现有的 RL 框架(如 Trl)主要为纯文本 LLM 设计,不支持音频输入,团队开发了 FunRL 框架。
下图(原文 Figure 4a,图片文件名为 3.jpg)展示了该框架。
该图像是图表,展示了 Fun-ASR 系统的框架和强化学习的时间消耗分析。左侧图(a)描述了 Fun-RL 框架,包括 FSDP LLM、SQLang LLM 和奖励模型之间的交互。右侧图(b)以饼图形式展示了强化学习过程中各组成部分的时间消耗,标示了各部分所占时间比例与总消耗时间。
- 工作流程:
- 音频编码: 所有音频批量通过音频编码器,提取出音频嵌入 (audio embeddings) 并存到 CPU。
- 推演/模拟 (Rollout): 基于
SGLang的 LLM 接管 GPU,根据音频嵌入生成多个候选文本序列 (hypotheses)。 - 奖励计算: 为每个候选文本计算一个奖励分数 (reward)。
- 策略优化 (Policy Optimization): 基于
FSDP(Fully Sharded Data Parallel) 的策略模型(即Fun-ASR本身)利用音频嵌入和带奖励的候选文本进行策略更新。
- 效率:
FunRL采用分时复用 GPU 的策略,使得音频编码、推演和策略优化交替进行,极大地提高了硬件利用率和训练效率。
4.2.5.2. 基于 GRPO 的 RL 算法
Fun-ASR 采用了 GRPO (Group-level Reward Policy Optimization) 算法。GRPO 是一种轻量级的策略优化方法。
-
核心步骤:
-
对于每个输入,模型生成一组(G个)不同的输出 。
-
根据预定义的奖励函数,为每个输出 计算一个奖励值 。
-
计算这组奖励的均值和标准差,并对每个奖励进行归一化,得到优势 (Advantage) 。这个优势值表示当前输出比平均水平好多少。
- 符号解释:
- : 第 个输出在时间步 的优势值。在 GRPO 中,优势值在整个序列上是恒定的,即 对于所有 都相同。
- : 第 个输出序列的总奖励。
- : 计算一组奖励的均值。
- : 计算一组奖励的标准差。
- : 生成的输出序列的总数。
- 符号解释:
-
使用一个带截断 (clipping) 的目标函数和 KL 散度惩罚项来更新策略网络(模型参数 )。
- 符号解释:
- : GRPO 的目标函数,优化的目标是最大化它。
- : 概率比率,定义如下。
- : 从公式 (1) 计算得到的优势值。
- : 将 的值限制在
[min, max]区间内。这里的 是一个小的超参数(例如 0.2),用于限制单次更新的步长,防止策略剧烈变化。 - : KL 惩罚项的系数。
- : 当前策略 与参考策略 (通常是 SFT 后的模型) 之间的 KL 散度,用于防止模型偏离原始能力太远。
- 概率比率 (Probability Ratio):
- 符号解释:
- : 当前策略模型 在给定输入 和已生成的前缀 的条件下,生成词元 的概率。
- : 更新前的旧策略模型。这个比率衡量了新旧策略对于同一个动作的概率差异。
- 符号解释:
- 符号解释:
-
-
定制化的奖励函数 (Reward Function): 这是
Fun-ASR中 RL 的精髓所在。他们设计了多个奖励函数来综合评估输出质量:-
ASR 准确率 (): 基础奖励,使用 计算,值域为
[0, 1]。 -
关键词准确率和召回率 (): 专门奖励能正确识别出关键词的输出。
-
噪声鲁棒性和幻觉抑制 (): 通过正则表达式检测幻觉内容,并根据幻觉文本的长度施加惩罚。
-
语言匹配 (): 如果模型错误地将语音翻译成其他语言(而不是转录),则给予一个固定的负奖励 (-1)。
最终的奖励 是前三项的和,如果语言不匹配,则最终奖励被覆盖为 -1。
-
4.2.6. 面向生产的优化
- 流式能力: 通过在训练数据中模拟流式解码过程来减少训练与推理之间的不匹配。具体做法是将离线长音频切分成小块 (chunks),并只提供历史上下文进行微调。
- 噪声鲁棒训练 (NRT): 大规模地将干净语音与各种真实噪声(来自餐厅、地铁等)以不同的信噪比 (Signal-to-Noise Ratio, SNR) 混合,生成约 11 万小时的带噪训练数据。
- 语码转换: 使用
Qwen3模型生成大量中英混杂的文本,再通过 文语转换 (Text-to-Speech, TTS) 技术合成对应的语音数据,用于专门训练。 - 热词定制: 采用了基于检索增强生成 (Retrieval-Augmented Generation, RAG) 的机制。
- 首先,用快速的 CTC 解码器生成初步识别结果。
- 然后,根据这个初步结果与预设热词库(已转换为音素或词元序列)之间的编辑距离,从库中检索出最可能的热词候选项。
- 最后,将这些检索到的热词候选项作为额外上下文,连同音频输入一起提供给 LLM 解码器,引导其生成包含正确热词的最终文本。
- 幻觉缓解: 在数据增强时,在音频信号中插入静音片段(补零),再添加噪声,从而创造出纯噪声的训练样本。这迫使模型学会识别纯噪声输入并输出空文本,从而减少在无声时产生幻觉。
5. 实验设置
5.1. 数据集
Fun-ASR 的评估使用了两类数据集,以确保全面和公平。
-
开源基准数据集:
- 中文:
AIShell-1,AIShell-2,WeNetSpeech,Fleurs-zh - 英文:
Librispeech(clean/other),Fleurs-en - 多语言/低资源:
Gigaspeech2 - 说明: 这些是 ASR 领域的标准测试集,被广泛用于模型性能对比。但论文指出,由于发布已久,存在数据泄露(即测试集数据可能无意中混入训练集)的风险。
- 中文:
-
工业评测数据集 (In-house & Real-world):
- 防泄漏测试集: 为了保证评估的公正性,团队从 YouTube 和 Bilibili 上收集了在特定日期(2025年6月30日)之后上传的视频,并进行人工转录,构成了一个全新的、确保未被用于训练的测试集 (
In-house)。 - 真实场景数据集:
Fairfield: 特定场景数据集。Home Scenario: 智能家居场景。Complex Background: 包含复杂背景音的场景,如食堂、晚餐、会议、办公室、户外、公园、商店、街道、地铁、超市等。English General: 通用英文场景。
- 说明: 这些数据集更能反映真实世界应用的复杂性,是检验模型生产能力的关键。
- 防泄漏测试集: 为了保证评估的公正性,团队从 YouTube 和 Bilibili 上收集了在特定日期(2025年6月30日)之后上传的视频,并进行人工转录,构成了一个全新的、确保未被用于训练的测试集 (
5.2. 评估指标
论文主要使用词错误率 (Word Error Rate, WER) 和字符错误率 (Character Error Rate, CER) 作为评估指标。CER 通常用于中文等非分词语言。
-
词错误率 (Word Error Rate, WER)
- 概念定义: WER 是衡量 ASR 系统精度的黄金标准。它通过计算模型输出的文本与标准参考文本之间的差异来评估性能。这个差异由三种类型的错误构成:替换(将一个词错认为另一个词)、删除(漏掉了一个词)和插入(多出了一个词)。WER 越低,模型的性能越好。
- 数学公式:
- 符号解释:
- : 替换 (Substitutions) 的词数。
- : 删除 (Deletions) 的词数。
- : 插入 (Insertions) 的词数。
- : 参考文本中的总词数。
-
字符错误率 (Character Error Rate, CER)
- 概念定义: CER 的计算方式与 WER 完全相同,但其基本单位是字符而非单词。它对于评估中文、日文等不以空格分词的语言,或者评估形态丰富的语言(如土耳其语)更为适用。
- 数学公式:
- 符号解释:
- : 替换的字符数。
- : 删除的字符数。
- : 插入的字符数。
- : 参考文本中的总字符数。
-
准确率 (Accuracy, acc) 和 召回率 (Recall, rec)
- 这两个指标在热词评估部分被使用,用于衡量对特定关键词的识别能力。
- 准确率 (Accuracy/Precision): 在所有被识别为热词的词中,真正是热词的比例。关注的是“别标错”。
- 召回率 (Recall): 在所有真正的热词中,被成功识别出来的比例。关注的是“别漏掉”。
5.3. 对比基线
论文将 Fun-ASR 与当前一系列顶级的开源和商业 ASR 模型进行了比较,这些基线具有很强的代表性。
- 开源 SOTA 模型:
Whisper-large-v3: OpenAI 的旗舰 ASR 模型,以其强大的泛化能力著称。Seed-ASR: 字节跳动提出的 LLM-ASR 模型。Kimi-Audio: 月之暗面公司推出的音文多模态模型。FireRed-ASR: 由多个学术机构联合发布的工业级开源 ASR 模型。Step-Audio2,dolphin-small,seamless-m4t-large-v2: 其他知名的多语言或特定领域的 ASR 模型。
- 内部基线:
Paraformer v2: 阿里巴巴自研的上一代非自回归 ASR 模型,作为内部比较的基准。
- 商业 API:
Seed-ASR*:Seed-ASR官方提供的商业 API 接口。
6. 实验结果与分析
6.1. 核心结果分析
实验结果的核心发现在于揭示了开源基准与真实工业评测之间的性能鸿沟,并证明了 Fun-ASR 在两个维度上均具备顶尖实力。
以下是原文 Table 1 的结果,展示了各模型在开源数据集上的表现(以 WER % 计,越低越好)。
| Test set | Whisper-large-v3 | Seed-ASR | Seed-ASR* | Kimi-Audio | Step-Audio2 | FireRed-ASR | Fun-ASR-nano | Fun-ASR |
|---|---|---|---|---|---|---|---|---|
| AIShell1 | 4.72 | 0.68 | 1.63 | 0.71 | 0.63 | 0.54 | 1.76 | 1.22 |
| AIShell2 | 4.68 | 2.27 | 2.76 | 2.86 | 2.10 | 2.58 | 2.80 | 2.3 |
| Fleurs-zh | 5.18 | 3.43 | 3.23 | 3.11 | 2.68 | 4.81 | 3.47 | 2.64 |
| Fleurs-en | 6.23 | 9.39 | 9.39 | 6.99 | 3.03 | 10.79 | 7.95 | 5.84 |
| Librispeech-clean | 1.86 | 1.58 | 2.8 | 1.32 | 1.17 | 1.84 | 1.75 | 1.57 |
| Librispeech-other | 3.43 | 2.84 | 5.69 | 2.63 | 2.42 | 4.52 | 4.37 | 3.24 |
| WenetSpeech Meeting | 18.39 | 5.69 | 7.07 | 6.24 | 4.75 | 4.95 | 8.78 | 6.49 |
| WenetSpeech Net | 11.89 | 4.66 | 4.84 | 6.45 | 4.67 | 4.94 | 6.28 | 5.46 |
-
分析: 在这些广为人知的开源数据集上,所有先进的 LLM-ASR 模型(如
Seed-ASR,Kimi-Audio,Fun-ASR)都取得了极低的 WER,性能差距不大。Whisper作为通用模型,在某些特定数据集(如WenetSpeech)上表现稍逊。这表明,对于这些“刷榜”数据集,顶尖模型已接近饱和。然而,当评测场景切换到更具挑战性的工业数据集时,情况发生了巨大变化。以下是原文 Table 2 的结果。
| Test set | Seed-ASR | Whisper-large-v3 | FireRed-ASR | Kimi-Audio | Paraformer v2 | Fun-ASR-nano | Fun-ASR | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | In-house | 7.20 | 16.58 | 10.10 | 9.02 | 8.11 | 7.26 | 6.66 | Fairfield | 4.59 | 22.21 | 7.49 | 10.95 | 9.55 | 5.43 | 4.66 | Home Scenario | 8.08 | 18.17 | 9.67 | 23.79 | 6.87 | 6.02 | 5.17 | Complex Background | 12.90 | 32.57 | 15.56 | 15.56 | 15.19 | 17.07 | 11.29 | English General | 15.65 | 18.56 | 21.62 | 18.12 | 19.48 | 15.87 | 14.22 | Opensouce | 3.83 | 7.05 | 5.31 | 3.20 | 6.23 | 4.65 | 3.60 | Average | 8.71 | 19.19 | 11.63 | 13.54 | 10.91 | 9.38 | 7.60
-
分析:
- 性能鸿沟: 许多在 Table 1 中表现优异的模型,在 Table 2 中性能大幅下降。例如,
Whisper在Complex Background数据集上的 WER 高达 32.57%,几乎不可用。这证明了仅靠开源基准无法全面评估模型的真实能力。 - Fun-ASR 的优势:
Fun-ASR在所有工业测试集上均取得了最低的 WER,平均 WER 仅为 7.60%,显著优于所有对比模型。特别是在Complex Background(复杂背景噪声)这类最考验模型鲁棒性的场景中,Fun-ASR的优势尤为明显。这充分说明了其面向生产的优化(如噪声鲁棒训练、RL 幻觉抑制)起到了关键作用。 - Fun-ASR-nano 的表现: 轻量版的
Fun-ASR-nano(0.8B) 性能也非常出色,其平均 WER (9.38%) 甚至优于参数量更大的FireRed-ASR(1.1B) 和Paraformer v2,与Seed-ASR(12B) API 的表现相当,展示了极高的性价比。
- 性能鸿沟: 许多在 Table 1 中表现优异的模型,在 Table 2 中性能大幅下降。例如,
6.2. 消融实验/参数分析
6.2.1. 流式 ASR 性能
为了评估流式能力,论文在相同的工业数据集上测试了模型的流式解码性能。 以下是原文 Table 3 的结果。
| Test set | Seed-ASR | Fun-ASR | Fun-ASR-nano |
|---|---|---|---|
| In-house | 8.64 | 7.00 | 7.97 |
| Fairfield | 5.51 | 5.33 | 6.92 |
| Home Scenario | 9.7 | 5.33 | 6.51 |
| Complex Background | 15.48 | 12.50 | 14.83 |
| English General | 18.78 | 14.74 | 16.70 |
| OpenSouce Test Sets | 3.80 | 3.60 | 5.13 |
- 分析: 在流式解码模式下,
Fun-ASR依然全面领先Seed-ASR,证明了其通过模拟流式数据进行微调的策略是有效的。值得注意的是,流式性能相比离线性能(Table 2)只有轻微下降,表明Fun-ASR实现了高效且高质量的流式识别。
6.2.2. 噪声鲁棒性分析
为了验证噪声鲁棒训练 (NRT) 和强化学习 (RL) 的效果,论文在不同噪声环境下进行了消融实验。 以下是原文 Table 4 的结果,由于原表格格式存在跨列表头,这里使用 HTML 格式进行还原。
| Fun-ASR | ||||
|---|---|---|---|---|
| Environment | w/o NRT | w/ NRT | NRT + RL | |
| canteen | 20.67 | 20.34 | 19.88 | |
| dinner | 14.02 | 9.88 | 9.55 | |
| meeting | 6.45 | 6.27 | 6.24 | |
| office | 15.02 | 11.58 | 11.42 | |
| supermarket | 14.27 | 8.81 | 8.75 | |
| Average | 13.32 | 11.58 | 11.45 | |
(注:为简洁起见,表格仅展示了部分环境和平均值)
- 分析:
- NRT 的巨大作用: 加入 NRT 后,模型在
dinner、office和supermarket等高噪声环境中的 WER 显著下降,例如在dinner场景,WER 从 14.02% 降至 9.88%,相对提升超过 29%。这说明通过数据增强让模型接触大量噪声样本是提升鲁棒性的关键。 - RL 的进一步提升: 在 NRT 的基础上,再加入 RL 训练,性能得到进一步的微小提升。RL 的作用更侧重于抑制幻觉,使模型在无法确定时选择不输出,而不是胡乱输出,从而在细节上改善用户体验。
- NRT 的巨大作用: 加入 NRT 后,模型在
6.2.3. 语码转换评估
以下是原文 Table 5 的结果,展示了针对中英混杂语码转换的优化效果。该表格包含复杂表头,使用 HTML 还原。
| Test set | Offline | Streaming | ||||
|---|---|---|---|---|---|---|
| w/o CS | w/o RL | w/ RL | w/o CS | w/o RL | w/ RL | |
| A | 4.53 | 1.70 | 1.59 | 6.19 | 5.85 | 2.28 |
| B | 4.76 | 4.56 | 4.50 | 6.32 | 5.68 | 5.07 |
(注:w/o CS 指没有经过语码转换数据微调的模型,w/o RL 指经过了 CS 微调但没有 RL, 指最终模型)
- 分析:
- CS 数据合成的有效性: 经过语码转换数据(CS)微调后 (
w/o RLvsw/o CS),WER 在测试集 A 上从 4.53% 大幅下降到 1.70%,证明了通过 LLM 生成文本再用 TTS 合成语音的数据增强策略非常有效。 - RL 在流式场景下的显著效果: 在流式模式下,RL 的作用尤为突出。在测试集 A 上,RL 将 WER 从 5.85% 进一步降低到 2.28%,相对提升高达 61%。这可能是因为 RL 帮助模型更好地处理了流式解码中常见的提前终止或预测不完整的问题。
- CS 数据合成的有效性: 经过语码转换数据(CS)微调后 (
6.2.4. 热词定制评估
以下是原文 Table 6 的部分结果,评估了热词定制功能在不同专业领域的表现。该表格包含复杂表头,使用 HTML 还原。
| Topic | Offline w/o RL | Offline w/RL | ||||
|---|---|---|---|---|---|---|
| WER | acc | rec | WER | acc | rec | |
| biology | 1.67 | 0.98 | 0.99 | 1.70 | 0.97 | 1.00 |
| name | 0.53 | 1.00 | 0.95 | 0.35 | 1.00 | 1.00 |
| brand | 0.41 | 1.00 | 0.99 | 0.33 | 1.00 | 0.99 |
(注:表格仅展示了部分主题和离线模式的结果)
- 分析:
Fun-ASR的 RAG 热词定制机制非常有效。在大多数领域,热词的召回率 (rec) 都能达到 0.97 以上。特别是在name(人名)这个难点上,加入 RL 后,召回率从 0.95 提升到 1.00,同时整体 WER 从 0.53% 降至 0.35%。这表明该机制不仅能利用上下文,还能真正“激发”模型识别出目标关键词。
6.2.5. 强化学习的总体效果
以下是原文 Table 8 的结果,直接对比了有无 RL 训练对模型在工业数据集上平均性能的影响。
| Test set | Offline | Streaming | ||
|---|---|---|---|---|
| w/o RL | w/ RL | w/o RL | w/ RL | |
| In-house | 6.55 | 6.66 | 7.24 | 7.00 |
| Fairfield | 5.14 | 4.66 | 6.96 | 5.33 |
| Complex Background | 12.16 | 11.29 | 13.53 | 12.50 |
| Average | 8.78 | 8.42 | 10.05 | 9.13 |
(注:表格仅展示了部分测试集和平均值)
- 分析: RL 带来了全面的性能提升。在离线模式下,平均 WER 相对提升了约 4.1%;在流式模式下,提升更为显著,达到了 9.2%。这再次印证了 RL 在处理流式解码的复杂动态和抑制错误方面的关键作用。
7. 总结与思考
7.1. 结论总结
Fun-ASR 技术报告成功地展示了一个兼具 SOTA 性能和强大生产能力的 LLM-ASR 系统。其核心贡献可以总结为:
- 方法论的系统性整合:
Fun-ASR不是单一技术的突破,而是成功地将数据规模化、模型规模化、LLM 集成和强化学习这四大前沿范式有机地结合在一起,形成了一套完整的、端到端的解决方案。 - bridging the gap (弥合鸿沟): 本文最突出的贡献在于直面并有效解决了学术研究与工业应用之间的鸿沟。通过一系列精心设计的生产导向优化(流式、噪声、语码转换、热词),
Fun-ASR在模拟真实世界挑战的工业数据集上取得了远超其他模型的性能。 - 强化学习的创新应用: 论文不仅将 RL 应用于 ASR,还为此设计了高效的
FunRL框架和一套面向用户体验的、细粒度的奖励函数,为解决 LLM-ASR 中的幻觉、关键词识别等顽固问题提供了新的有效途径。 - 对评测标准的深刻洞见: 实验清晰地表明,过度依赖旧的开源基准可能会产生误导性的结论。定期更新、使用无泄漏的、接近真实场景的数据集进行评测,对于推动 ASR 技术的真正进步至关重要。
7.2. 局限性与未来工作
作者坦诚地指出了当前工作的一些局限性,并规划了未来的改进方向:
-
多语言支持有限: 当前的
Fun-ASR主要针对中文和英文进行了深度优化,尤其是在流式和热词方面。虽然有一个多语言版本Fun-ASR-ML,但其覆盖的语言和优化程度仍然有限。 -
有效上下文窗口受限: 模型处理长音频的能力依赖于外部的语音活动检测 (Voice Activity Detection, VAD) 模块进行切分。模型本身能够处理的上下文长度是有限的,对于超长时长的连续录音处理能力有待加强。
-
缺乏远场和多通道支持: 当前版本主要针对近场、单通道的音频。对于会议室等多说话人、远场、带混响的场景,还需要专门的多通道前端处理和模型优化。
未来的工作将围绕这些局限性展开,包括扩展语言支持、增强长时记忆能力和开发面向远场多通道场景的下一代模型。
7.3. 个人启发与批判
这篇技术报告给我带来了几点深刻的启发和思考:
- 系统工程的胜利:
Fun-ASR的成功再次印证了在当前的 AI 大模型时代,取得突破性进展往往不再是单一算法的创新,而是一项庞大而精密的系统工程。从数据处理、多阶段训练、算法设计到面向场景的优化,每一个环节都至关重要。 - RL 的价值重估: 强化学习在 LLM 领域因其训练复杂性和不稳定性而备受争议。然而,本文展示了当 RL 与明确的业务目标(如抑制幻觉、提升关键词准确率)和精心设计的奖励函数相结合时,它能成为优化模型细粒度行为、提升用户体验的“点睛之笔”,这是传统监督学习难以企及的。
- “数据为王”的再思考:
Fun-ASR不仅使用了海量的通用数据,还投入大量精力去合成和构造针对特定难题(如噪声、语码转换、上下文)的高质量训练数据。这表明,在数据规模化的基础上,数据的质量和多样性,特别是针对性地弥补模型短板的数据,是通往更高性能的关键。 - 对“SOTA”的批判性审视: 本文用实验结果有力地警示我们,需要对各种论文中声称的“SOTA”保持审慎。一个模型在几个常用基准上跑分很高,不代表它在真实世界中同样好用。评估标准的多样性和挑战性,直接决定了技术发展的方向。
潜在问题与改进方向:
- 可复现性问题:
Fun-ASR的卓越性能高度依赖于阿里巴巴内部的海量、高质量专有数据。这使得外部研究者几乎不可能复现其结果,也难以公平地在同一起跑线上进行比较。这虽然是工业界研究的普遍特征,但也在一定程度上限制了其对学术社区的直接贡献。 - 对 LLM 的依赖: 整个系统的核心能力来自于底座 LLM。如果底座 LLM 本身存在偏见、知识过时等问题,这些问题很可能会被传递甚至放大到 ASR 的输出中。如何诊断和缓解从 LLM 继承来的风险,是一个值得深入探讨的问题。
- 效率与成本: 虽然论文提到了
Fun-ASR-nano版本,但对于一个 7.7B 的模型,其训练和推理成本依然是巨大的。报告中对FunRL框架效率的分析(8卡A100训练一天)也从侧面反映了其高昂的资源消耗。未来,如何在不牺牲过多性能的前提下,进一步提升模型的效率和可及性,将是决定其能否广泛应用的关键。
相似论文推荐
基于向量语义检索推荐的相关论文。