论文状态:已完成

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

发表:2025/05/07
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

VITA-Audio是一个新提出的端到端大型语音语言模型,旨在解决现有模型在流式生成音频词元时的高延迟问题。其核心创新是轻量级的多级跨模态词元预测模块,能够在单次前向传播中生成多个音频词元,实现3至5倍的推理加速,显著提升音频生成效率和流畅性。

摘要

With the growing requirement for natural human-computer interaction, speech-based systems receive increasing attention as speech is one of the most common forms of daily communication. However, the existing speech models still experience high latency when generating the first audio token during streaming, which poses a significant bottleneck for deployment. To address this issue, we propose VITA-Audio, an end-to-end large speech model with fast audio-text token generation. Specifically, we introduce a lightweight Multiple Cross-modal Token Prediction (MCTP) module that efficiently generates multiple audio tokens within a single model forward pass, which not only accelerates the inference but also significantly reduces the latency for generating the first audio in streaming scenarios. In addition, a four-stage progressive training strategy is explored to achieve model acceleration with minimal loss of speech quality. To our knowledge, VITA-Audio is the first multi-modal large language model capable of generating audio output during the first forward pass, enabling real-time conversational capabilities with minimal latency. VITA-Audio is fully reproducible and is trained on open-source data only. Experimental results demonstrate that our model achieves an inference speedup of 3~5x at the 7B parameter scale, but also significantly outperforms open-source models of similar model size on multiple benchmarks for automatic speech recognition (ASR), text-to-speech (TTS), and spoken question answering (SQA) tasks.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model (VITA-Audio:用于高效大型语音语言模型的快速交错跨模态詞元生成)

1.2. 作者

Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun。 作者主要来自 腾讯优图实验室 (Tencent Youtu Lab),部分作者隶属于南京大学和厦门大学。

1.3. 发表期刊/会议

本项目发布于 arXiv 预印本平台(2025年5月发布 v2 版本)。该研究团队来自腾讯优图,在计算机视觉和多模态领域具有极高的工业界和学术界影响力。

1.4. 发表年份

2025年

1.5. 摘要

随着人机交互需求的增长,语音交互系统备受关注。然而,现有的端到端语音模型在流式生成第一个音频詞元(Audio Token)时仍存在高延迟问题。本文提出了 VITA-Audio,这是一个具有快速音频-文本詞元生成能力的端到端大语言模型。核心创新在于引入了轻量级的 多级跨模态詞元预测 (Multiple Cross-modal Token Prediction, MCTP) 模块,该模块能在单次模型前向传播中生成多个音频词元,从而实现“零延迟”的音频词元生成。实验表明,该模型在 7B 参数规模下实现了 3~5 倍的推理加速,并在 ASR、TTS 和 SQA 任务中表现优异。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 传统的语音交互系统通常采用“级联 (Cascaded)”架构,即将 语音识别 (ASR)大语言模型 (LLM)语音合成 (TTS) 三个模块串联。这种方式会导致延迟累积、副语言信息(如情感、语气)丢失以及误差传播。
  • 现有挑战: 尽管最近出现了端到端语音模型,但在“流式传输 (Streaming)”场景下,生成第一个音频词元的延迟(First Token Latency)依然是瓶颈。目前的模型通常需要先生成文本词元,或在多次前向传播后才能输出音频,无法在第一次前向计算时就提供可解码的音频块。
  • 创新思路: 作者通过观察发现,LLM 的最后一层隐藏状态(Hidden States)已经包含了足够的语义信息来生成对应的音频。因此,可以设计轻量级的模块,在生成文本的同时,“顺便”预测出接下来的多个音频词元。

2.2. 核心贡献/主要发现

  • 首个零延迟模型: VITA-Audio 是首个能在第一次前向传播中直接产生音频输出的多模态大模型,实现了真正的实时语音对话。

  • MCTP 模块: 提出了 多级跨模态詞元预测 (MCTP) 架构,通过级联的轻量级 Transformer 块,在单次计算中预测 10 个音频词元。

  • 四阶段训练策略: 探索了一套从对齐到精调的渐进式训练方案,在不损失语音质量的前提下大幅提升速度。

  • 卓越性能: 在 7B 规模下实现 3~5 倍加速,且在多项基准测试(如 ASR, TTS, SQA)中达到或超过了同类开源最先进模型。


3. 预备知识与相关工作

3.1. 基础概念

  • 詞元 (Token): 模型处理的最小单位。在文本中是一个字或词的编码;在语音中,通过某种压缩算法(如 EnCodec 或 GLM-4-Voice Tokenizer)将连续的波形转换为离散的数字序列,即音频词元。
  • 端到端模型 (End-to-End Model): 与级联模型相对,直接从一种模态输入映射到另一种模态输出,减少中间转换损耗。
  • 隐藏状态 (Hidden States): 神经网络中间层输出的向量,包含了输入信息的丰富语义特征。
  • 流式推理 (Streaming Inference): 模型边处理边输出,用户无需等待所有内容生成完毕即可听到声音。

3.2. 前人工作

  • 级联模型: 如早期的对话系统,ASR \rightarrow LLM \rightarrow TTS。
  • LLM + Adapter: 如 Llama-Omni,通过适配器连接语音编码器,但仍需独立解码。
  • 交错建模 (Interleaved Paradigm): 文本和音频词元在同一序列中交替出现。代表作如 GLM-4-Voice。这种模式能较好保留语言能力,但推理速度受限于词元序列的长度。
  • 并行建模 (Parallel Paradigm): 使用不同的输出头同时预测文本和音频。这种模式速度快,但由于输入分布偏离了 LLM 预训练的纯文本分布,语言能力往往会受损。

3.3. 技术演进与差异化分析

VITA-Audio 结合了交错模式的“语言能力强”和并行模式的“生成速度快”。它通过 MCTP 模块在交错框架内实现了并行的多詞元预测。与 DeepSeek-V3 的多詞元预测(主要用于训练加速)不同,VITA-Audio 的 MCTP 是跨模态的,专门用于将文本语义快速映射到音频表现。


4. 方法论

4.1. 方法原理

VITA-Audio 的核心逻辑是:利用 LLM 的隐藏状态作为“种子”,通过轻量级模块快速预测后续的音频序列。作者通过可视化实验(见下文 Figure 1)证明了音频词元与对应的文本词元之间存在强烈的对齐关系,且隐藏状态中已经隐含了音频生成所需的信息。

下图(原文 Figure 1)展示了这种相关性:

该图像是展示 VITA-Audio 模型的音频和文本 token 生成过程的图表。左侧为英文文本 token,右侧为中文音频 token,体现了模型的多模态生成能力。 该图像是展示 VITA-Audio 模型的音频和文本 token 生成过程的图表。左侧为英文文本 token,右侧为中文音频 token,体现了模型的多模态生成能力。

4.2. 核心方法详解 (逐层深入)

4.2.1. 模型整体架构

VITA-Audio 由语音编码器、语音解码器、LLM 主干網絡 (Backbone) 和 MCTP 模块组组成。

下图(原文 Figure 2)展示了其详细架构:

Figure 2: Architecture overview. (a) VITA-Audio is an end-to-end large speech model equipped with 10 light-weight Multiple Cross-modal Token Prediction (MCTP) modules that enable speech generation with extremely low latency. As shown in Fig. 1, we observe that the hidden states of certain text tokens in the LLM backbone contain sufficient semantic information for generating the corresponding audio tokens, which means that it is unnecessary to attend to additional text tokens when generating audio. Thus, we propose to utilize a set of light-weight MCTP modules to model the mapping from LLM hidden states to the audio tokens. (b) The details of the MCTP modules. Our MCTP module has a light-weight architecture, which enables it to finish one forward pass within 0.0024 seconds ( \(11 \\%\) of the LLM backbone). The MCTP module is capable of generating 10 audio tokens from the LLM hidden states and the text embedding, and the generated audio tokens can be decoded by the audio decoder directly. The utilization of MCTP modules enables VITA-Audio to generate audio responses in one LLM forward pass, which achieves extremely fast generation speed. 该图像是示意图,展示了VITA-Audio的架构概览。图中(a)部分表明系统由多个轻量级的多模态交叉模Token预测(MCTP)模块组成,可在单次前向传递中生成多个音频Token,显著降低延迟。图(b)则详细介绍了MCTP模块的结构,包括变换器块、线性投影等组件,能够快速生成音频响应。

4.2.2. 多级跨模态詞元预测 (MCTP)

标准自回归模型(Autoregressive)在时间步 tt 预测下一个词元 YtY_t 的概率分布 ptp_t 可以表示为: pt(Yt1,,Y0)P[YtYt1,,Y0] p_t(Y_{t-1}, \ldots, Y_0) \equiv P[Y_t | Y_{t-1}, \ldots, Y_0] 其中 Yt1,,Y0Y_{t-1}, \ldots, Y_0 是历史序列。如果我们要直接预测未来第 ii 个词元(即多步预测),形式变为: pt+i(Yt1,,Y0)P~[Yt+iYt1,,Y0] p_{t+i}(Y_{t-1}, \ldots, Y_0) \equiv \widetilde{P}[Y_{t+i} | Y_{t-1}, \ldots, Y_0] 作者指出,随着 ii 的增大,P~\widetilde{P} 与真实分布 PP 之间的偏差会迅速累积,导致预测不准。

为了解决这个问题,VITA-Audio 采用了 级联预测架构 (Cascaded Prediction Architecture)。后续模块会利用前序模块的输出作为条件: pt+i(Yt1,,Y0)P~[Yt+iYt1,,Y0,ht+i1,ot+i1,,ot] p_{t+i}(Y_{t-1}, \ldots, Y_0) \equiv \widetilde{P}[Y_{t+i} | Y_{t-1}, \ldots, Y_0, h_{t+i-1}, o_{t+i-1}, \ldots, o_t] 这里符号的含义如下:

  • ht+i1h_{t+i-1}: 前一个 MCTP 模块产生的 隐藏状态 (Hidden State)

  • ot+i1o_{t+i-1}: 前一个模块预测出的 输出词元 (Output Token)

  • ot,o_t, \ldots: 之前所有 MCTP 模块生成的中间结果。

    通过这种方式,模型在一次前向传播中,第 1 个 MCTP 模块根据 LLM 状态预测第 1 个音频词元,第 2 个模块根据前者的结果预测第 2 个,依此类推。由于每个 MCTP 模块仅包含极少的 Transformer 层(推理耗时仅为 LLM 主干的 11%),这种串联预测非常高效。

4.2.3. 四阶段训练策略

为了确保模型收敛,作者设计了渐进式训练流程:

  1. 第一阶段:音频-文本对齐 (Audio-Text Alignment): 进行大规模语音预训练(ASR 和 TTS 数据),让 LLM 学会处理音频词元。

  2. 第二阶段:单个 MCTP 模块训练: 训练第一个预测模块,使其能根据 LLM 隐藏状态准确预测下一个词元。

  3. 第三阶段:多个 MCTP 模块训练: 扩展到 10 个模块,所有模块同时训练,实现多词元并行预测能力。

  4. 第四阶段:有监督微調 (Supervised Fine-tuning): 使用语音问答 (SQA) 数据进行最终优化,使模型具备流畅对话的能力。

    下图(原文 Figure 3)总结了这一流程:

    Figure 3: Training pipeline of VITA-Audio. The first stage (Audio-Text Alignment) enhances the LLM by extending its audio modeling capability through large-scale speech pre-training. The second stage (Single MCTP module Training) connects an MCTP module with the LLM to predict one subsequent token based on the input tokens and the LLM's hidden states. The third stage (Multiple MCTP Modules Training) increases the number of MCTP modules in the model to predict more tokens in each model forward. The last stage (Supervised Fine-tuning) provides the speech-to-speech capability to the model by optimizing it on the large-scale speech QA dataset. 该图像是VITA-Audio训练流程的示意图,展示了四个阶段:第一阶段为音频-文本对齐,增强音频建模能力;第二阶段为单个MCTP模块训练,预测后续一个令牌;第三阶段为多个MCTP模块训练,预测多个令牌;最后阶段为有监督的精调,优化语音问答能力。


5. 实验设置

5.1. 数据集

  • ASR 数据: 约 10 万小时开源数据(WenetSpeech, LibriSpeech, AISHELL 等)。
  • TTS 数据: 约 10 万小时(Wenetspeech4TTS, Emilia 等)。
  • 语音对话数据: 140 万条(VoiceAssistant400K, AudioQA-1.0M)。
  • 纯文本数据: 数百万条指令微调数据,并加入了长文本数据集以增强长序列建模。

5.2. 评估指标

  1. 字错率 (Character Error Rate, CER): 主要用于中文 ASR 和 TTS 评估。 CER=S+D+IN \mathrm{CER} = \frac{S + D + I}{N}
    • SS: 替换数,DD: 删除数,II: 插入数,NN: 總字数。
  2. 词错率 (Word Error Rate, WER): 主要用于英文评估。 WER=Sword+Dword+IwordNword \mathrm{WER} = \frac{S_{word} + D_{word} + I_{word}}{N_{word}}
  3. SQA 准确率: 衡量模型回答问题的正确性。

5.3. 对比基线

  • Moshi: 现有的实时端到端语音模型。

  • GLM-4-Voice: 强大的交错模态开源模型。

  • Mini-Omni / Llama-Omni: 专注于低延迟交互的近期工作。


6. 实验结果与分析

6.1. 核心结果分析

VITA-Audio 在语音问答 (SQA) 任务中表现出色,尤其是在 SSS \to S(语音输入,语音输出)场景下,性能远超同规模的开源模型。

以下是原文 Table 2 的详细结果:

Model #Params Llama Question S → T TriviaQA S → T Web Question S → T Mean
S → S S → T S → S S → T S → S S → T S → S S → T
Moshi [19] 7B 62.3 21.0 22.8 7.3 26.6 9.2 37.2 12.5
GLM-4-Voice [66] 9B 64.7 50.7 39.1 26.5 55.0 39.9 45.3 31.0
VITA-Audio-Plus-Vanilla 7B 75.6 68.0 45.9 42.7 45.0 41.7 55.5 50.8

注:STS \to T 指语音输入生成文本答案,SSS \to S 指语音回答后再通过 Whisper 转录回文本进行评估。结果显示 VITA-Audio 在维持语义正确性的同时,语音质量很高。

6.2. 推理速度与延迟分析

这是本文最重要的卖点。通过 MCTP 模块,VITA-Audio-Turbo 模式实现了巨大的加速。

以下是原文 Table 5 的结果:

Mode Model Size #GPU Total Second ↓ Token Per Second ↑ Speedup ↑
Vanilla 7B 1 63.38 64.62 1.00 ×
Boost 23.97 170.88 2.64 ×
Balance 23.94 171.09 2.64 ×
Turbo 13.43 304.99 4.72 ×

关键发现:

  • 加速比: 在 7B 参数下,Turbo 模式比基础的 Vanilla 模式快 4.72 倍

  • 首个词元延迟: Turbo 模式在 32 个词元预填充的情况下,仅需 53 毫秒 即可产生第一块音频,而 Vanilla 模式需要 236 毫秒(见 Table E7)。这种差异在实际交互中能显著提升“真实感”。

    下图(原文 Figure 5)展示了生成速度曲线,可以看到 Turbo 模式(红色)的斜率最陡,生成速度最快:

    Figure 5: Token generation speed curves of four text-audio interleaved modes. 该图像是图表,展示了四种文本-音频交错模式下的译码令牌生成速度曲线。横轴表示译码令牌数量,纵轴表示时间(毫秒)。不同颜色的曲线分别代表了四种模式:Vanilla(黄色)、Balance(紫色)、Boost(绿色)、Turbo(红色)。


7. 总结与思考

7.1. 结论总结

VITA-Audio 成功解决了端到端语音模型在流式推理中的高延迟瓶颈。通过创新的 MCTP 模块四阶段训练策略,它证明了即使不使用极高性能的并行头,仅通过轻量级的级联预测也能在交错词元范式下实现极速响应。该模型在保持大语言模型语义能力的同时,大幅提升了交互的实时性。

7.2. 局限性与未来工作

  • 硬件瓶颈: 虽然音频词元生成很快,但目前的 音频解码器 (Audio Decoder) 仍是延迟的“下限”,进一步优化解码器的推理效率是未来的关键。
  • 数据依赖: 实验表明 ASR/TTS 对齐会略微影响纯文本性能,如何更好地平衡多模态能力与通用语言能力仍需探索。

7.3. 个人启发与批判

  • 启发: VITA-Audio 的成功在于它敏锐地观察到了“隐藏状态”中隐含的跨模态对齐关系。这提示我们,在处理多模态任务时,未必要强行增加模型的复杂度,有时候利用好预训练模型已有的、未被充分挖掘的信息就能取得突破。
  • 批判: 论文中提到的 10 个 MCTP 模块是串联预测的,虽然每个模块很轻量,但随着模块数量增加,这种串联结构是否会遇到新的性能天花板?此外,模型在复杂环境下的抗噪能力以及对多语种切换(Code-switching)的细粒度控制能力仍有待更广泛的验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。