论文状态:已完成

MiMo-Audio: Audio Language Models are Few-Shot Learners

原文链接
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

MiMo-Audio音频语言模型展示了强大的小样本学习能力,借助超过一亿小时的预训练数据,模型可以在多样化音频任务中泛化,表现优秀。该模型在语音智能和音频理解基准测试中达到了最先进的水平,并在后训练阶段引入了多样化的指令微调数据集,进一步提升了性能。

摘要

Existing audio language models typically rely on task-specific fine-tuning to accomplish particular audio tasks. In contrast, humans are able to generalize to new audio tasks with only a few examples or simple instructions. GPT-3 has shown that scaling next-token prediction pretraining enables strong generalization capabilities in text, and we believe this paradigm is equally applicable to the audio domain. By scaling MiMo-Audio’s pretraining data to over one hundred million of hours, we observe the emergence of few-shot learning capabilities across a diverse set of audio tasks. We develop a systematic evaluation of these capabilities and find that MiMo-Audio-7B-Base achieves SOTA performance on both speech intelligence and audio understanding benchmarks among open-source models. Beyond standard metrics, MiMo-Audio-7B-Base generalizes to tasks absent from its training data, such as voice conversion, style transfer, and speech editing. MiMo-Audio-7B-Base also demonstrates powerful speech continuation capabilities, capable of generating highly realistic talk shows, recitations, livestreaming and debates. At the post-training stage, we curate a diverse instruction-tuning corpus and introduce thinking mechanisms into both audio understanding and generation. MiMo-Audio-7B-Instruct achieves open-source SOTA on audio understanding benchmarks (MMSU, MMAU, MMAR, MMAU-Pro), spoken dialogue benchmarks (Big Bench Audio, MultiChallenge Audio) and instruct-TTS evaluations, approaching or surpassing closed-source models. Model checkpoints and full evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-Audio.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MiMo-Audio: Audio Language Models are Few-Shot Learners 中文直译:MiMo-Audio:音频语言模型是小样本学习者 核心主题分析: 论文标题直接点明了其核心论点和发现。它宣称其提出的音频语言模型 MiMo-Audio 具备了小样本学习 (Few-Shot Learners) 的能力。这一定位非常关键,因为它将音频模型的研究范式从传统的“为每个任务进行特定微调”推向了类似 GPT-3 在文本领域实现的“通过少量示例或指令即可泛化到新任务”的通用智能范式。标题暗示了论文的主要贡献是通过某种方法(即大规模预训练)在音频领域复现了文本大模型的“涌现能力”。

1.2. 作者

LLM-Core Xiaomi (小米公司 大模型核心团队) 背景分析: 作者署名为小米公司的核心大模型团队,表明该研究是由一家大型科技公司的核心研发部门完成的。这通常意味着研究拥有强大的计算资源、海量的数据储备和工程能力支持,这与论文中提到的“超过一亿小时”的训练数据规模相吻合。附录A中列出了大量的贡献者名单,进一步证实了这是一个大规模的工业界研究项目。

1.3. 发表期刊/会议

该论文是一份发布在 arXiv 上的技术报告 (Technical Report),属于预印本 (Pre-print) 状态。 声誉分析: arXiv 是全球最著名的科研预印本发布平台,尤其在机器学习和人工智能领域,绝大多数重要研究成果都会首先以技术报告的形式在此发布,以抢占首发权并与学术界快速交流。虽然它未经同行评审,但作为大型科技公司发布的重要模型技术报告,其内容通常代表了该公司的最新技术水平,具有很高的行业和学术关注度。

1.4. 发表年份

2025年(根据论文内容及参考文献推断,文中有大量对2025年工作的引用和展望,如 "Xiaomi, 2025")。

1.5. 摘要

现有的音频语言模型通常需要依赖针对特定任务的微调 (fine-tuning) 来完成任务。相比之下,人类仅需少量示例或简单指令就能泛化到新的音频任务。受 GPT-3 成功的启发(即大规模的下一词元预测 (next-token prediction) 预训练能够带来强大的泛化能力),作者相信这一范式同样适用于音频领域。通过将 MiMo-Audio 的预训练数据扩展到超过一亿小时,作者观察到模型在一系列多样的音频任务中涌现出了小样本学习 (few-shot learning) 的能力。研究团队开发了一套系统的评估方法,发现 MiMo-Audio-7B-Base 模型在语音智能和音频理解基准测试中,于开源模型里达到了最先进的 (state-of-the-art, SOTA) 水平。除了标准指标,该模型还能泛化到训练数据中没有出现过的任务,如声音转换、风格迁移和语音编辑,并能生成高度逼真的脱口秀、辩论等语音续写内容。在后训练阶段,作者构建了多样化的指令微调数据集,并为音频理解和生成引入了“思考”机制。最终的 MiMo-Audio-7B-Instruct 模型在多项音频理解、对话和指令TTS基准测试中取得了开源SOTA,性能接近甚至超越了部分闭源模型。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 当前的音频语言模型普遍缺乏通用性和泛化能力。它们像是一个个“专才”,要执行如语音对话、翻译、风格转换等不同任务,就必须用对应的数据集进行专门的微调。这与人类能够灵活、快速地适应各种新音频环境和任务的能力形成了鲜明对比。
  • 重要性与挑战: 实现像人一样“举一反三”的通用音频智能是构建更自然、更高级人机交互系统的关键。然而,现有研究存在两大挑战:
    1. 信息损失: 许多模型为了简化处理,使用了有损的音频表示方法(例如,仅保留语音内容的文本转录或语义编码),这导致了说话人音色、情感、语调等副语言信息的丢失,从根本上限制了模型生成高保真、表现力丰富的语音的能力。
    2. 规模不足: 先前探索下一词元预测的音频模型,其训练数据规模远未达到能够引发“质变”的程度,因此未能展现出强大的、通用的泛化能力。
  • 创新切入点: 论文的核心假设是:“规模 + 无损”是解锁音频模型通用智能的关键。作者借鉴 GPT-3 在文本领域的成功经验,提出通过两个关键手段来解决上述问题:
    1. 无损信息流 (Lossless Information Flow): 设计一套从音频到词元(token)再回到音频的完整流程,确保包括音色、韵律、环境声在内的所有音频信息都能在模型中得到保留和处理。
    2. 前所未有的规模 (Unprecedented Scale): 将预训练数据规模提升至一亿小时以上,远超以往任何开源语音模型,以期通过量变引发“涌现能力”的质变。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下三点,这也是其在领域内的开创性工作:

  1. 首次实证音频领域的“GPT-3时刻”: 论文首次通过实验证明,将基于无损压缩 (lossless, compression-based) 的语音预训练规模扩展到亿级小时,能够解锁模型涌现 (emergent) 出的任务泛化能力,具体表现为强大的小样本学习 (few-shot learning) 能力。作者认为这是音频领域的“GPT-3时刻”,即证明了通过大力出奇迹的缩放范式可以实现通用音频智能。

  2. 提出首个完整的生成式语音预训练蓝图: 论文不仅提出了一个想法,更是提供了一套完整、可复现的技术方案,包括:

    • 新颖的音频分词器 (Tokenizer): MiMo-Audio-Tokenizer,一个能够同时保留声学细节和语义信息的统一分词器。
    • 可扩展的模型架构: 创新的 Patch Encoder-LLM-Patch Decoder 结构,有效处理高码率的音频序列。
    • 分阶段训练策略: 先理解后生成的两阶段训练法,高效地将文本能力迁移并扩展到音频领域。
    • 全面的评估体系: 包含新建的 SpeechMMLU 等,用于系统性地评估模型的通用能力。
  3. 开创性地将“思考”机制引入音频领域: 论文首次尝试将思维链 (Chain-of-Thought) 的思想同时应用于语音理解语音生成,试图弥合音频感知与复杂认知推理之间的鸿沟,推动模型从简单的“听和说”向“思考后说”迈进。

3. 预备知识与相关工作

3.1. 基础概念

  • 音频语言模型 (Audio Language Models): 这是一类将语言模型的概念扩展到音频领域的模型。它们不仅处理文本,还能直接理解和生成音频信号。根据其设计,它们可以执行语音识别(音频到文本)、语音合成(文本到音频)、语音翻译(音频到音频)以及更复杂的音频问答和对话任务。
  • 小样本学习 (Few-Shot Learning): 一种机器学习范式,指模型在只接触过极少量(通常是1到几十个) 目标任务的标注样本后,就能在该任务上取得良好性能。这与需要成千上万样本的传统监督学习形成鲜明对比,更接近人类的学习方式。GPT-3 的论文证明了超大规模的语言模型天然具备这种能力。
  • 下一词元预测 (Next-Token Prediction): 这是自回归语言模型(如GPT系列)的核心训练目标。模型在给定一段序列(文本或音频词元)的前文后,学习预测下一个最可能出现的词元。通过在海量数据上不断重复这个简单的任务,模型能够学习到语言的语法、语义、事实知识甚至推理能力。
  • 音频分词 (Audio Tokenization): 将连续的音频波形转换为离散的数字序列(即词元 (tokens))的过程,类似于将文本句子切分成单词或子词。这是让语言模型能够处理音频的第一步。存在一个关键的权衡:
    • 语义词元 (Semantic Tokens): 通常由语音识别 (ASR) 或自监督模型 (如 HuBERT) 产生。它们与语音内容高度相关,易于和文本对齐,但会丢失音色、情感等副语言信息 (paralinguistic information),导致无法高质量地重建原始音频。
    • 声学词元 (Acoustic Tokens): 通常由神经音频编解码器 (Neural Audio Codec) 产生。它们旨在以尽可能高的保真度重建原始音频波形,但这些词元本身缺乏明确的语义,难以与文本的语义空间对齐。
  • 残差矢量量化 (Residual Vector Quantization, RVQ): 一种高效的矢量量化技术。它使用多层量化器来逐步逼近原始信号。第一层量化器对原始信号进行量化,得到一个粗略的表示和一个残差(原始信号与量化信号之差)。后续的每一层都对前一层的残差进行量化。通过叠加所有层的量化结果,可以以较低的码率实现高精度的信号重建。在本文中,RVQ 将连续的音频特征转换为多层离散的 codebook 索引。
  • 思维链 (Chain-of-Thought, CoT): 一种激发大语言模型推理能力的技术。通过在提示 (prompt) 中给模型提供一些“问题-思考过程-答案”的示例,引导模型在回答新问题时,也先生成一步步的中间推理过程,然后再给出最终答案。这显著提升了模型在算术、常识和符号推理任务上的表现。

3.2. 前人工作

  • GPT-3 (Brown et al., 2020a): 本文最重要的思想来源。GPT-3 证明了通过将自回归语言模型和下一词元预测的训练数据规模扩展到千亿级别,模型会“涌现”出小样本学习能力,无需为新任务进行微调。MiMo-Audio 的核心假设就是将这一“缩放定律” (Scaling Law) 成功地从文本域迁移到音频域。
  • 早期音频语言模型:
    • AudioLM (Borsos et al., 2023): 探索了将语言建模方法用于音频生成,但规模有限。
    • SpeechGPT (Zhang et al., 2023a), Moshi (Défossez et al., 2024), GLM-4-Voice (Zeng et al., 2024): 这些模型在音频语言建模方面取得了进展,但论文指出,它们要么依赖有损的音频表示(如语义词元),要么数据规模不足,未能实现广泛的、通用的任务泛化能力。
  • 音频分词器 (Audio Tokenizers):
    • SpeechTokenizer (Zhang et al., 2023b), Mimi (Défossez et al., 2024): 尝试将语义信息蒸馏到神经音频编解码器中,以获得统一的音频词元。但受限于编码器规模,它们在语义和声学信息的冲突中难以取得理想平衡。
    • X-Codec (Ye et al., 2025a), XY-Tokenizer (Gong et al., 2025): 采用双流架构,分别处理语义和声学信息。但这种方法依赖于预训练好的语义模型,且两个信息流来自不同的表示空间,可能存在对齐问题。

3.3. 技术演进

音频处理的技术路线经历了从多个独立专用模型到寻求统一通用模型的演变:

  1. 分离式系统: 早期,一个完整的语音交互系统由多个独立训练的模块串联而成,如语音活动检测 (VAD)、自动语音识别 (ASR)、自然语言理解 (NLU)、对话管理 (DM)、文本到语音合成 (TTS) 等。每个模块都是一个“专才”,系统复杂且优化困难。
  2. 端到端模型: 随后,端到端模型开始流行,例如直接从音频到文本的 ASR 模型,或从文本到波形的 TTS 模型。这减少了系统的组件数量,但每个模型仍然是任务特定的。
  3. 通用音频大模型 (本文所处阶段): 近年来,研究趋势转向构建一个单一的、巨大的、能够处理几乎所有音频相关任务的通用基础模型。MiMo-Audio 正是这一趋势下的代表性工作,它试图通过超大规模预训练,用一个统一的模型架构实现对语音理解、生成、转换、对话等多种能力的覆盖,并使其具备小样本泛化能力。

3.4. 差异化分析

MiMo-Audio 与之前工作的核心区别在于其坚定不移的“规模 + 无损”哲学:

  • 数据规模上的数量级差异: 使用超过一亿小时的音频数据进行预训练,比之前最大的开源模型多出一个数量级。这是其能够观察到“涌现能力”的物质基础。
  • 对无损信息流的极致追求:
    • 自研分词器: 不同于依赖外部预训练模型的 X-Codec 等,MiMo-Audio-Tokenizer 是从零开始、与 LLM 联合训练的,旨在创建一个更原生的、能同时服务于语义理解和高保真重建的统一表示空间。
    • 架构设计: 整个模型架构(Patch Encoder/Decoder)都围绕着处理高保真、多层次的 RVQ 声学词元而设计,确保从输入到输出,包含音色、韵律在内的精细声学信息不会丢失。
  • 系统性的方法论和评估: 论文不仅是训练了一个大模型,更是提供了一套从数据处理、模型设计、训练策略到能力评估的完整蓝图,特别是其构建的 SpeechMMLU 基准测试,为衡量音频模型的通用知识和推理能力提供了新的标尺。

4. 方法论

4.1. 方法原理

MiMo-Audio 的核心方法论根植于“缩放定律” (Scaling Law),即相信通过极大地扩展数据和模型规模,并采用一个足够通用的学习目标(下一词元预测),模型能够自发地学习到高层次的抽象和泛化能力。其背后的直觉是:要在一个包含亿万小时、多样化语音的数据集上完美地预测“下一个”音频片段,模型必须被迫学习到关于世界的所有知识——从声学原理、语言规则、说话人特征,到对话逻辑和事实知识。为了实现这一目标,论文设计了两个关键组件:一个高保真的 MiMo-Audio-Tokenizer 和一个高效的 MiMo-Audio 主体架构。

4.2. 核心方法详解 (逐层深入)

4.2.1. MiMo-Audio-Tokenizer:高保真统一音频分词器

MiMo-Audio-Tokenizer 的目标是解决声学保真度与语义可解释性之间的矛盾。它通过扩大模型规模和联合训练的方式,旨在生成既能高质量重建原始音频,又便于下游语言模型理解的离散词元。

1. 架构 (Architecture): 如下图(原文 Figure 2)所示,该分词器由音频编码器、离散化模块、音频解码器和声码器 (vocoder) 组成。

Figure 2 Illustration of MiMo-Audio-Tokenizer framework. 该图像是MiMo-Audio-Tokenizer框架的示意图,展示了音频编码器、解码器和大型语言模型之间的关系,涉及多尺度重构损失和下采样/上采样过程。图中还包括次序预测损失和鉴别器的作用。

  • 音频编码器 (Audio Encoder): 一个包含32层 Transformer 的大型编码器,它将 100Hz100\text{Hz} 的梅尔频谱图 (mel-spectrogram) 转换为 25Hz25\text{Hz} 的连续表示。其设计亮点是将第3层的隐藏状态与最后一层的输出相加,作者认为这有助于缓解语义信息(通常在较浅层捕获)和声学信息(在较深层捕- 离散化模块 (Discretization Module): 采用一个20层的残差矢量量化 (RVQ) 模块。它将编码器的连续表示转换为一个 M×20M \times 20 的离散索引矩阵,其中 MM 是序列长度。这些索引就是所谓的“音频词元”。
  • 音频解码器 (Audio Decoder): 结构与编码器镜像,但使用因果自注意力机制,用于从量化表示中重建音频特征。
  • 声码器 (Vocoder): 采用 Vocos 设计,但将主干网络替换为 Transformer,最终将解码器输出的音频特征转换回 24kHz24\text{kHz} 的原始音频波形。

2. 训练策略 (Training Strategy): 采用两阶段训练范式:

  • 阶段一:统一表示学习 (Unified Representation Learning) 此阶段的目标是让分词器学会同时编码语义和声学信息。它通过一个多任务目标进行端到端的从零训练:

    • 音频到文本 (A2T) 任务: 将分词器的量化表示 Q~\tilde{\mathbf{Q}} 输入一个同时训练的 LLM,并计算 LLM 输出目标文本 TT 的负对数似然损失。这个任务迫使音频词元包含丰富的语义信息。其损失函数为: LA2T=i=1Nlogp(tiQ~,t1,,ti1) \mathcal { L } _ { \mathrm { A2T } } = - \sum _ { i = 1 } ^ { N } \log p ( t _ { i } | \tilde { \mathbf { Q } } , t _ { 1 } , \dots , t _ { i - 1 } ) 符号解释:

      • LA2T\mathcal{L}_{\mathrm{A2T}}: 音频到文本任务的损失。
      • tit_i: 目标文本序列中的第 ii 个词元。
      • Q~\tilde{\mathbf{Q}}: 由 RVQ 产生的量化后音频表示。
      • p()p(\cdot): 模型预测下一个文本词元的概率。
      • NN: 目标文本序列的总长度。
    • 音频重建任务: 计算原始音频 XX 和重建音频 X^\hat{X} 之间的多尺度梅尔频谱图的 L1 距离。这个任务确保音频词元保留了足够多的声学细节以实现高保真重建。其损失函数为: Lrecon=ieSi(X)Si(X^)1 \mathcal { L } _ { \mathrm { recon } } = \sum _ { i \in e } \Vert S _ { i } ( X ) - S _ { i } ( \hat { X } ) \Vert _ { 1 } 符号解释:

      • Lrecon\mathcal{L}_{\mathrm{recon}}: 重建任务的损失。
      • Si()S_i(\cdot): 计算在尺度 ii 上的梅尔频谱图的操作。
      • e={5,6,7}e = \{5, 6, 7\}: 使用的频谱图尺度集合。
      • 1\Vert \cdot \Vert_1: L1 范数(绝对值之和)。
    • 总损失: 阶段一的总损失是 A2T 损失、重建损失和 VQ 模块的承诺损失 (commitment loss) Lcommit\mathcal{L}_{\mathrm{commit}} 的加权和。 Lstage1=λA2TLA2T+λreconLrecon+λcommitLcommit \mathcal { L } _ { \mathrm { s t a g e 1 } } = \lambda _ { \mathrm { A2T } } \mathcal { L } _ { \mathrm { A2T } } + \lambda _ { \mathrm { r e c o n } } \mathcal { L } _ { \mathrm { r e c o n } } + \lambda _ { \mathrm { c o m m i t } } \mathcal { L } _ { \mathrm { c o m m i t } } 其中权重 λA2T=10.0\lambda_{\mathrm{A2T}}=10.0, λrecon=1.0\lambda_{\mathrm{recon}}=1.0, λcommit=1.0\lambda_{\mathrm{commit}}=1.0

  • 阶段二:对抗性微调 (Adversarial Fine-tuning) 此阶段冻结编码器和离散化模块(以保护已学到的表示空间),只训练解码器和声码器,旨在进一步提升波形重建的真实感。它引入了判别器进行生成对抗网络 (GAN) 训练。生成器(解码器+声码器)的总损失为: LG=λreconLrecon+λadvL~adv+λfmLfm \mathcal { L } _ { G } = \lambda _ { \mathrm { { r e c o n } } } \mathcal { L } _ { \mathrm { { r e c o n } } } + \lambda _ { \mathrm { { a d v } } } \tilde { \mathcal { L } } _ { \mathrm { { a d v } } } + \lambda _ { \mathrm { { f m } } } \mathcal { L } _ { \mathrm { { f m } } } 符号解释:

    • LG\mathcal{L}_{G}: 生成器的总损失。
    • Lrecon\mathcal{L}_{\mathrm{recon}}: 与阶段一相同的梅尔频谱重建损失。
    • L~adv\tilde{\mathcal{L}}_{\mathrm{adv}}: 对抗性损失,旨在欺骗判别器。
    • Lfm\mathcal{L}_{\mathrm{fm}}: 特征匹配损失,使生成器输出的特征与真实音频在判别器中间层的特征相匹配,有助于稳定训练。
    • λrecon=1.0,λadv=1.0,λfm=2.0\lambda_{\mathrm{recon}}=1.0, \lambda_{\mathrm{adv}}=1.0, \lambda_{\mathrm{fm}}=2.0: 各部分损失的权重。

4.2.2. MiMo-Audio 主体架构

MiMo-Audio 是一个统一的生成式音文大模型,其架构如下图(原文 Figure 3)所示,由 Patch 编码器、大语言模型 (LLM) 和 Patch 解码器三部分构成。

Figure 3 Model architecture of MiMo-Audio.

1. 音频分块 (Audio Patching): 由于音频词元(200 tokens/秒)的速率远高于文本词元,信息密度较低。为了平衡两种模态的粒度,模型将连续 G=4G=4 个时间步的音频词元(每个时间步包含 R=8R'=8 个 RVQ 码本的索引)打包成一个音频块 (audio patch)。这样,音频序列的速率从 25Hz25\text{Hz} 降至 6.25Hz6.25\text{Hz},与 LLM 的处理节奏更加匹配。

2. Patch 编码器 (Patch Encoder): 该模块负责将一个音频块内的多个音频词元编码成一个单一的向量,供 LLM 使用。

  • 对于一个音频块内的每个时间步 ii,首先将其 R=8R'=8 个 RVQ 词元 ai,ra_{i,r} 通过各自的嵌入表 ErE_r 查找嵌入向量 ei,r\mathbf{e}_{i,r},然后将它们相加,得到该时间步的统一表示: ei=r=1Rei,r \mathbf { e } _ { i } = \sum _ { r = 1 } ^ { R ^ { \prime } } \mathbf { e } _ { i , r }
  • 然后,一个 6 层的 Transformer 编码器会处理这个音频块内所有时间步的表示序列 {ei}i=1...G\{\mathbf{e}_i\}_{i=1...G},并通过线形层投影成一个与 LLM 隐藏层维度匹配的向量。

3. 大语言模型 (Large Language Model, LLM): 使用 MiMo-7B-Base 作为主干网络。它以统一的方式处理穿插的文本词元嵌入和音频块表示,并进行下一词元/下一块预测 (next-token/next-patch prediction)。其训练目标是最大化整个音文交错序列 SS 的似然: p(S)=i=1Lp(sis1,,si1) p ( S ) = \prod _ { i = 1 } ^ { L } p ( s _ { i } | s _ { 1 } , \ldots , s _ { i - 1 } ) 其中 sis_i 可以是文本词元,也可以是音频块。

4. Patch 解码器 (Patch Decoder): 在需要生成音频时,该模块从 LLM 的隐藏状态 h\mathbf{h} 出发,自回归地生成一个音频块内的所有音频词元。

  • 挑战: RVQ 的不同层之间存在依赖关系,在一个时间步同时预测所有 RR' 个词元非常困难。
  • 解决方案:延迟解码机制 (Delay Mechanism): 论文引入了一个巧妙的延迟机制。为每个 RVQ 层 rr 设置一个延迟步数 drd_r(例如,本文设为 D=[0,1,2,3,4,5,6,7]D = [0, 1, 2, 3, 4, 5, 6, 7])。这意味着,在解码的第 ii 个时间步,模型不是预测当前步所有层的词元,而是预测第 1 层的第 ii 个词元、第 2 层的第 i-1 个词元、第 3 层的第 i-2 个词元,以此类推。这相当于将解码过程在“深度”(RVQ层)和“时间”两个维度上展开,形成一个斜向的解码模式,有效缓解了层间依赖问题,显著提升了生成质量。

4.2.3. 两阶段预训练策略

为了高效地赋予模型音文能力,同时最大程度保留其从文本预训练中获得的知识,作者设计了两阶段的预训练流程。

  • 阶段一:理解训练 (Understanding Training)

    • 目标: 让模型学会“听懂”语音。
    • 训练内容: 只训练 Patch 编码器和 LLM。
    • 数据: 使用包含 ASR、音频字幕、音文交错等任务的数据。
    • 损失函数: 只计算文本部分的损失。即,模型接收音频输入,但只被要求预测正确的文本输出。
  • 阶段二:理解-生成联合训练 (Understanding-Generation Joint Training)

    • 目标: 让模型在“听懂”的基础上学会“说”。
    • 训练内容: 训练所有模块,包括新增的 Patch 解码器。
    • 数据: 加入了语音续写、TTS 等生成式任务。
    • 损失函数: 同时计算文本损失和音频损失。音频损失是 Patch 解码器预测的各个 RVQ 层的交叉熵损失之和,并赋予不同层不同的权重(浅层权重高,深层权重低)。

5. 实验设置

5.1. 数据集

  • 预训练数据: 规模空前,超过一亿小时的“野生”音频数据。
    • 来源: 涵盖播客、有声书、新闻、采访、会议录音等,确保来源多样性。
    • 内容: 覆盖日常交流、娱乐、商业、科研等,确保内容多样性。
    • 处理流程: 建立了一套自动化的端到端数据流水线,包括音频标准化、说话人分离、语音活动检测、ASR转录、质量评估、多维度(语义和非语义)标注和筛选。
  • 评估数据集:
    • SpeechMMLU: 作者基于著名的 MMLU 基准构建。将 MMLU 的文本问答题通过 TTS 合成语音版本,形成四个平行的评估分支:文本问答(T2T)、语音问答(S2T)、文本问语音答(T2S)、语音问语音答(S2S),用于系统评估模型的跨模态通用知识。
    • MMAU (Sakshi et al., 2024): 一个大规模多任务音频理解基准,涵盖语音、环境音和音乐三大领域,用于评估模型的通用音频理解和推理能力。
    • MMAR / MMAU-Pro: 更具挑战性的音频推理基准,涉及混合音频输入和更深的音频知识。
    • Big Bench Audio / MultiChallenge Audio: 评估模型在多轮对话场景下遵循指令和完成任务能力的基准。MultiChallenge Audio 是作者将原文本基准转换为语音版本构建的。
    • Seed-TTS-Eval / InstructTTSEval: 用于评估 TTS 性能。前者是常规 TTS 基准,后者则专注于评估模型遵循复杂自然语言指令进行风格控制的能力。
    • AISHELL-1 / LibriSpeech test-clean: 中文和英文语音识别的标准测试集。

5.2. 评估指标

  • WER (Word Error Rate, 词错误率):

    1. 概念定义: ASR 任务最常用的评估指标。它衡量由 ASR 系统转录的文本与标准参考文本之间的差异。WER 越低,表示识别越准确。
    2. 数学公式: WER=S+D+IN \mathrm{WER} = \frac{S + D + I}{N}
    3. 符号解释:
      • SS: 替换 (Substitution) 错误数量,即一个词被错误地识别成另一个词。
      • DD: 删除 (Deletion) 错误数量,即参考文本中的词在识别结果中被漏掉。
      • II: 插入 (Insertion) 错误数量,即识别结果中出现了参考文本中没有的词。
      • NN: 参考文本中的总词数。
  • PESQ (Perceptual Evaluation of Speech Quality, 语音质量感知评估):

    1. 概念定义: 一种广泛用于评估语音质量的客观指标。它通过比较原始参考信号和经过处理(如压缩、传输、合成)后的信号,来预测人类主观感知的语音质量分数。分数通常在 -0.5 到 4.5 之间,分数越高,质量越好。
    2. 数学公式: PESQ 的计算涉及复杂的心理声学模型,包括时间对齐、响度归一化和认知模型等,没有简单的代数公式。其核心是计算原始语音和降级语音在感知域中的扰动密度。
    3. 符号解释: N/A (基于算法,非简单公式)。
  • STOI (Short-Time Objective Intelligibility, 短时客观可懂度):

    1. 概念定义: 用于衡量噪声或失真环境下的语音可懂度的客观指标。它计算处理后语音和干净参考语音之间在短时频谱上的相关性。STOI 的取值范围是 0 到 1,值越接近 1,表示可懂度越高。
    2. 数学公式: STOI 的计算同样基于信号处理算法,而非简单公式。它将信号分割成短时帧,并在每个频带内计算时间包络的相关系数,最后在所有帧和频带上求平均。
    3. 符号解释: N/A。
  • SIM (Speaker Similarity, 说话人相似度):

    1. 概念定义: 用于衡量两个语音片段的说话人音色是否相似。通常通过一个预训练的说话人验证模型(speaker verification model)来提取两个语音的说话人嵌入向量 (speaker embedding),然后计算这两个向量的相似度。
    2. 数学公式: 通常使用余弦相似度 (Cosine Similarity) 计算。 Similarity(A,B)=ABAB=i=1nAiBii=1nAi2i=1nBi2 \text{Similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}
    3. 符号解释:
      • A,B\mathbf{A}, \mathbf{B}: 分别从两个语音片段中提取的说话人嵌入向量。
      • nn: 向量的维度。

5.3. 对比基线

论文将 MiMo-Audio 与一系列当时最先进的开源和闭源模型进行了比较,这些基线具有很强的代表性。

  • 开源模型:
    • Baichuan-Audio-Base
    • Kimi-Audio-Base / Kimi-Audio-Instruct
    • Step-Audio2-mini-Base / Step-Audio2-mini
    • Qwen2.5-Omni
    • GLM-4-Voice
  • 闭源模型:
    • GPT-4o-Audio / GPT-4o-mini-tts
    • Gemini 1.5 Pro / Gemini 2.5 Flash
    • Audio Flamingo 3

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 预训练阶段的涌现能力 (Emergent Ability)

论文最引人注目的发现是,在预训练过程中观察到了明显的涌现能力 (Emergent Abilities)。如下图(原文 Figure 1)所示,在训练数据量达到约 0.7 万亿词元(0.7T tokens)之前,模型在 5-shot SpeechMMLU、16-shot 声音转换等复杂的小样本任务上几乎没有性能(接近0)。然而,一旦越过这个临界点,性能出现了急剧的、非线性的“相变式”飙升,随后趋于平稳。

Figure 1 Emergent behavior in pretraining and performance comparison with SOTA models. 该图像是图表,展示了不同音频模型在多项任务中的表现。上半部分比较了不同训练样本数量下的准确率与相似度,下半部分则显示了MiMo-Audio-7B-Instruct在多个基准测试中的性能,具体包括MMAU-Pro、MMAU和Big Bench Audio的评估结果。

分析: 这一现象强有力地支持了论文的核心论点——大规模、无损的预训练是实现通用音频智能的关键。它表明小样本泛化能力不是通过渐进式改进获得的,而是在数据规模达到一定阈值后“自发涌现”的。这正是 GPT-3 在文本领域所展示的“GPT-3 时刻”在音频领域的复现。

6.1.2. 基础模型 (Base Model) 的小样本能力

以下是原文 Table 6 的结果,展示了 MiMo-Audio-7B-Base 在小样本设置下与其它开源基础模型的性能对比。

Task Baichuan-Audio 7B-Base Kimi-Audio 7B-Base Step-Audio2-mini 7B-Base MiMo-Audio 7B-Base
SpeechMMLU S2S 31.9 11.8 51.8 69.1
S2T 29.9 67.9 67.8 69.5
T2S 16.7 0.0 63.4 71.5
T2T 71.1 70.7 74.1 72.5
MMAU Overall 25.9 28.6 60.3 66.0
Speech 14.4 29.4 55.0 67.6
Sound 30.3 31.5 67.9 65.2
Music 32.9 24.8 58.1 65.3

分析:

  1. 语音智能 (Speech Intelligence) - SpeechMMLU:

    • MiMo-Audio 在所有涉语音的测试(S2S, S2T, T2S)中均取得了最高分,全面领先于其它开源模型。尤其是在最考验端到端能力的 S2S(语音进,语音出)任务上,其 69.1 的得分远超第二名 Step-Audio2-mini 的 51.8。
    • 模态差 (Modality Gap): 这是一个衡量模型在文本和语音模态下能力一致性的重要指标,计算为 T2T 分数与 S2S 分数之差。
      • MiMo-Audio: 72.5 - 69.1 = 3.4
      • Step-Audio2-mini: 74.1 - 51.8 = 22.3
      • Kimi-Audio-base: 70.7 - 11.8 = 58.9
      • Baichuan-Audio-base: 71.1 - 31.9 = 39.2
    • MiMo-Audio 的模态差仅为 3.4 分,小得惊人,表明其核心的知识和推理能力在文本和语音两种模态间几乎没有损失,这得益于其“无损”的架构设计。相比之下,其他模型的模态差巨大,说明它们在处理语音时能力严重下降。
  2. 通用音频理解 (General Audio Understanding) - MMAU:

    • MiMo-Audio 在总分上以 66.0 领先,且在三个子领域(语音、声音、音乐)表现非常均衡(67.6, 65.2, 65.3),没有明显短板。
    • 相比之下,Step-Audio2-mini 虽然在声音(Sound)单项上略高,但在语音和音乐上表现较弱,显示出其能力的局限性。

6.1.3. 指令微调模型 (Instruct Model) 的性能

以下是原文 Table 8 和 Table 9 的核心结果,展示了 MiMo-Audio-7B-Instruct 在经过指令微调后的性能。

音频理解与对话(原文 Table 8)

Datasets Model Performance
Audio Understanding MMAU Speech | Sound | Music | Overall MiMo-Audio-7B-Instruct 74.90 82.58 73.65 71.80
MMAU-Pro MiMo-Audio-7B-Instruct 53.35
MMAR MiMo-Audio-7B-Instruct 63.60
MMSU Perception |Reasoning | Overall MiMo-Audio-7B-Instruct 76.98 46.86 61.70
MiMo-Audio-7B-Instruct +Think 74.79 51.71 62.88
Gemini 1.5 Pro - - 60.70
... ... ... ...
Spoken Dialogue Big Bench Audio S2T | S2S MiMo-Audio-7B-Instruct 72.90 60.20
MultiChallenge Audio S2T | S2S MiMo-Audio-7B-Instruct 15.15 10.10

(注: 表格为节选和整理,下划线表示开源模型最佳,加粗表示全局最佳)

语音识别与生成(原文 Table 9)

Datasets Model Performance
TTS
Seed-TTS-Eval ZH | EN | ZH-Hard MiMo-Audio-7B-Instruct 1.96 | 5.37 | 14.14
Instruct-TTS
InstructTTSEval-EN APS | DSD | RP | Overall MiMo-Audio-7B-Instruct 80.60 77.63 59.54 72.59
GPT-4o-mini-tts 76.40 74.30 54.80 68.50
ASR
Librispeech-test-clean | AISHELL MiMo-Audio-7B-Instruct 3.76 | 1.78

(注: 表格为节选)

分析:

  1. 通用音频理解: MiMo-Audio-7B-InstructMMSU, MMAU, MMAR, MMAU-Pro 等多个基准上均取得了开源模型中的 SOTA 成绩,其性能甚至接近或超过了如 Gemini 1.5 Pro 等强大的闭源模型,证明了其强大的通用音频理解和推理能力。
  2. 思考机制: 引入 +Think+Think (思维链)后,在 MMSU 上的总分有所提升,表明思考机制对于复杂的语音理解任务有帮助。
  3. 口语对话:Big Bench AudioMultiChallenge Audio 两个口语对话基准上,MiMo-Audio 显著优于所有其他开源模型,并大大缩小了与顶尖闭源模型 gpt-4o 的差距,展示了其在真实交互场景中的巨大潜力。
  4. 语音生成: 在最考验模型控制力和表现力的 InstructTTSEval 任务上,MiMo-Audio 的表现全面超越了 GPT-4o-mini-tts,这证明了其在遵循自然语言指令、生成富有表现力语音方面的领先地位。

7. 总结与思考

7.1. 结论总结

这篇论文通过 MiMo-Audio 项目,为音频人工智能领域的发展提供了里程碑式的贡献。其核心结论是:将下一词元预测的预训练范式,在“无损”保留音频信息的前提下,扩展到前所未有的亿级小时数据规模,是通往通用音频智能的一条可行且有效的路径

主要贡献和发现包括:

  • 首次验证了音频领域的“GPT-3时刻”: 实验清晰地展示了小样本学习能力在数据规模跨越临界点后的“涌现”现象,证明了缩放定律在音频领域的有效性。

  • 提供了一套完整的技术蓝图: 从数据、分词器、模型架构、训练策略到评估体系,论文为后来者构建大规模生成式音频模型提供了宝贵的、可复现的经验。

  • 模型性能卓越: 无论是在预训练阶段的小样本泛化能力,还是在指令微调后的各项基准测试中,MiMo-Audio 均在开源模型中达到了 SOTA 水平,并在多个方面逼近甚至超越了顶尖的闭源模型。

    这项工作标志着音频模型研究从“任务专用”时代向“通用智能”时代的重大迈进,为未来构建更自然、灵活和智能的语音交互系统奠定了坚实的基础。

7.2. 局限性与未来工作

论文作者坦诚地指出了当前工作的局限性,并展望了未来的改进方向:

  • 有限的小样本学习性能: 尽管基础模型展现了小样本能力,但在处理某些复杂场景时(如带背景音乐的语音生成、复杂声音事件处理)仍表现不佳。未来计划增强模型的通用音频生成能力。
  • 不稳定的口语对话性能: 指令微调后的模型在对话中有时会出现音色不连贯、音质下降、复杂符号读错以及风格控制不稳等问题。未来计划利用强化学习 (Reinforcement Learning, RL) 来提升模型的稳定性和一致性。
  • 有限的“思考”性能: 当前的“思考”机制仅在语音相关的理解任务上带来提升,而在声音和音乐理解任务上反而导致性能下降,主要原因是模型在思考过程中会产生“幻觉”。未来计划同样通过 RL 来增强模型的音频理解能力。

7.3. 个人启发与批判

  • 启发:

    1. “无损”哲学的重要性: 论文反复强调保留完整音频信息流的理念,这给了我们一个深刻的启示:在追求高层语义理解的同时,不能轻易牺牲底层的物理信号保真度。对于生成任务而言,这些看似“冗余”的声学细节恰恰是生成真实感和表现力的源泉。这对于多模态研究具有普遍的指导意义。
    2. 系统工程的胜利: MiMo-Audio 的成功不仅仅是算法或模型的胜利,更是数据工程、系统架构和评估体系全方位协同的胜利。它展示了一个工业级的研究项目如何通过系统性的规划和巨大的资源投入,来推动领域的前沿。
    3. 评估驱动研究: 作者专门构建 SpeechMMLU 等评估基准,这种“先定义问题和评价标准,再着手解决”的思路,对于引导研究走向真正有价值的方向至关重要。
  • 批判性思考与潜在问题:

    1. 对“无损”的商榷: 论文中的“无损”是相对概念。其分词器仍将连续波形离散化为 25Hz25\text{Hz} 的序列,这本质上是一种有损压缩。尽管保真度很高,但与真正的信息论无损相比仍有差距。这种离散化在多大程度上限制了模型能力的上限,是一个值得探究的问题。
    2. 资源门槛的挑战: 亿级小时的训练数据和相应的算力需求,使得这项研究的复现门槛极高,可能会加剧AI研究领域的资源集中化。探索更高效的数据利用方法和训练策略(例如,课程学习、高质量数据精选)将是未来的重要方向。
    3. “思考”机制的初步性: “思考”机制在非语音任务上的失败,揭示了一个深层问题:模型的“推理”能力可能仍高度绑定于其最熟悉的语言结构。如何让模型为非语言的、纯粹的感官信号(如音乐、环境声)生成抽象且有效的“思维链”,是一个极具挑战性但又充满价值的研究课题。这可能需要超越当前基于文本的 CoT 范式,探索全新的、更适合多模态的推理机制。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。