论文状态:已完成

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

发表:2025/06/11
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了名为DrVoice的并行语音-文本对话模型,采用双分辨率语音表征机制,显著降低LLM输入频率至5Hz,有效减少计算成本。实验结果显示,DrVoice在多个基准测试中达到了新的最先进水平,展示了强大的生成能力及工业应用潜力。

摘要

Recent studies on end-to-end (E2E) speech generation with large language models (LLMs) have attracted significant community attention, with multiple works extending text-based LLMs to generate discrete speech tokens. Existing E2E approaches primarily fall into two categories: (1) Methods that generate discrete speech tokens independently without incorporating them into the LLM's autoregressive process, resulting in text generation being unaware of concurrent speech synthesis. (2) Models that generate interleaved or parallel speech-text tokens through joint autoregressive modeling, enabling mutual modality awareness during generation. This paper presents DrVoice, a parallel speech-text voice conversation model based on joint autoregressive modeling, featuring dual-resolution speech representations. Notably, while current methods utilize mainly 12.5Hz input audio representation, our proposed dual-resolution mechanism reduces the input frequency for the LLM to 5Hz, significantly reducing computational cost and alleviating the frequency discrepancy between speech and text tokens and in turn better exploiting LLMs' capabilities. Experimental results demonstrate that DRVOICE-7B establishes new state-of-the-art (SOTA) on OpenAudioBench and Big Bench Audio benchmarks, while achieving performance comparable to the SOTA on VoiceBench and UltraEval-Audio benchmarks, making it a leading open-source speech foundation model in ~7B models.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

中文翻译:DrVoice: 通过双分辨率语音表征实现的并行语音-文本语音对话模型

论文的标题直接点明了其核心内容:它提出了一种名为 DrVoice 的模型,该模型能够并行处理语音和文本,实现语音对话功能。其关键技术是双分辨率语音表征 (Dual-Resolution Speech Representations)

1.2. 作者

Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye

所有作者均隶属于阿里巴巴集团通义实验室 (Tongyi Lab, Alibaba Group)。这是一个来自工业界顶尖研究团队的成果,通常意味着研究工作具有很强的应用导向和工程实践价值。

1.3. 发表期刊/会议

本论文目前发布于预印本网站 arXiv,提交于2025年6月。arXiv 是一个开放获取的学术论文存档库,允许研究者在正式同行评审前分享他们的研究成果。这表明该工作代表了当前最新的研究进展,但尚未经过正式的学术会议或期刊的同行评审过程。

1.4. 发表年份

2025年 (根据 arXiv 提交信息)

1.5. 摘要

近期的研究热点是将大语言模型 (LLMs) 扩展到能够端到端 (E2E) 生成语音,主要是通过生成离散的语音词元 (token)。现有的端到端方法主要分为两类:(1) 独立生成语音词元,但LLM的自回归过程无法感知到这些语音词元,导致文本生成与语音合成是脱节的。(2) 通过联合自回归建模,生成交错或并行的语音-文本词元,使得两种模态在生成过程中可以相互感知。

本文提出了 DrVoice,一个基于联合自回归建模的并行语音-文本语音对话模型,其特色在于采用了双分辨率语音表征 (dual-resolution speech representations)。值得注意的是,当前方法主要使用 12.5Hz 的输入音频表征,而 DrVoice 提出的双分辨率机制将LLM的输入频率降低到了 5Hz。这显著减少了计算成本,缓解了语音和文本词元之间的频率差异,从而能更好地发挥LLM的能力。

实验结果表明,DrVoice-7B 模型在 OpenAudioBenchBig Bench Audio 两个基准测试上取得了新的最先进水平 (SOTA),同时在 VoiceBenchUltraEval-Audio 基准上达到了与SOTA相当的性能,使其成为约70亿参数级别中领先的开源语音基础模型。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文旨在解决构建高质量、高效率的端到端语音对话系统中的核心挑战。传统的语音对话系统通常是级联式 (cascaded) 的,即依次连接三个独立的模块:自动语音识别 (ASR) → 大语言模型 (LLM) → 文本转语音 (TTS)。这种架构存在三个主要问题:

  1. 错误累积: 前一个模块的错误会传递并影响后续模块。

  2. 信息丢失: 语音中的情感、韵律等副语言信息在转换为文本时会丢失。

  3. 高延迟: 串行处理导致响应时间长。

    为了克服这些问题,端到端 (End-to-End, E2E) 模型应运而生,它希望让一个统一的模型直接处理语音输入并生成语音输出。然而,E2E模型也面临新的挑战。

2.1.2. 现有研究的挑战与空白 (Gap)

现有的E2E语音模型主要分为两类,各有其瓶颈:

  1. 文本驱动语音模型 (Text-Driven Speech Models): LLM先生成完整的文本回复,然后一个独立的语音解码器根据这些文本生成语音。这种方法的信息流是单向的,LLM在生成文本时无法感知到最终生成的语音效果(如语调、情感),限制了模型生成更具表现力的语音。

  2. 联合语音-文本模型 (Joint Speech-Text Models): LLM在生成文本词元的同时也生成语音词元。这种方法实现了模态间的相互感知,但引入了一个新的关键问题:频率失配 (frequency mismatch)。语音信号的采样率远高于文本的生成速率(例如,音频词元速率可能是 25Hz,而文本词元速率约 3Hz)。这种高频率的语音词元序列会稀释语义信息,干扰LLM的核心文本生成能力,并带来巨大的计算开销。

    DrVoice切入点正是为了解决联合建模中的频率失配计算成本问题。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下三点:

  1. 提出 DrVoice 模型及其核心创新——双分辨率语音表征 (DRSR):

    • 低分辨率输入 (5Hz): 通过对语音词元进行分组 (Grouping),将输入给LLM的语音表征频率从常规的 25Hz 大幅降低到 5Hz。这不仅减少了计算成本,还使得语音和文本两种模态的序列长度更加对齐,有助于LLM更好地进行语义处理。
    • 高分辨率输出: 设计了一个语音精炼头 (Speech Refined Head, SRH),它接收来自LLM的低分辨率信息,并通过自回归方式生成原始高分辨率(25Hz)的语音词元,保证了生成语音的质量和细节。
  2. 提出两种创新的训练策略:

    • CoM-Mixing 训练策略: 受到模态链 (Chain-of-Modality, CoM) 的启发,该策略通过让模型先生成文本思考步骤,再进行并行的语音-文本生成,从而提升输出的逻辑性和对齐性。它将多种交互模式混合训练,使模型能根据指令灵活切换输出模式。
    • Core-Cocktail 训练策略: 一种两阶段训练方法,通过“高学习率初训 → 模型参数融合 → 低学习率微调”的流程,解决了在多模态任务中既要快速适应新模态、又要保留LLM原有强大知识的学习率困境 (learning rate dilemma)
  3. 实现了领先的性能: DrVoice-7B 模型在多个权威的音频理解和语音对话基准测试中取得了SOTA或接近SOTA的性能,证明了其架构和训练策略的有效性,并为社区提供了一个强大的开源语音基础模型。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大语言模型 (Large Language Models, LLMs)

LLMs 是指参数量巨大(通常在十亿以上)的深度学习模型,通过在海量文本数据上进行训练,学习到了丰富的语言知识和推理能力。它们的核心机制是自回归 (autoregressive) 生成,即根据已经生成的词元序列,预测下一个最有可能的词元。例如,GPT系列模型就是典型的LLMs。

3.1.2. 语音对话系统架构

  • 级联系统 (Cascaded Systems): 将语音对话任务分解为三个独立子任务,并用专门的模型串联处理:
    1. 自动语音识别 (Automatic Speech Recognition, ASR): 将用户的语音波形转换为文本。
    2. 大语言模型 (LLM): 理解文本意图,并生成文本回复。
    3. 文本转语音 (Text-to-Speech, TTS): 将LLM生成的文本回复转换为语音波形。
  • 端到端系统 (End-to-End, E2E): 使用一个统一的模型直接完成从语音输入到语音输出的全过程,省去了中间的文本转换步骤。这能更好地保留语音中的非文本信息(如情感、语调),并降低延迟。

3.1.3. 语音词元化 (Speech Tokenization)

为了让基于离散词元处理的LLM能够理解和生成连续的语音信号,需要先将语音“词元化”。主要有两种表征方式:

  • 连续表征 (Continuous Representations):Whisper 模型提取的特征,是高维度的浮点数向量。这种表征难以直接被LLM用于生成。
  • 离散表征 (Discrete Representations): 将语音信号转换为一串离散的整数索引(类似文本词元)。DrVoice 使用的就是这种方法。离散词元又可分为:
    • 声学词元 (Acoustic Tokens): 主要目标是高质量地重建原始音频,如 EnCodec 生成的词元。
    • 语义词元 (Semantic Tokens): 更侧重于捕捉语音中的语言内容,与文本语义有更强的对齐性。DrVoice 采用的 S3Tokenizer 生成的就是语义词元。

3.2. 前人工作

论文将E2E语音模型分为两大主流方向:

3.2.1. 文本驱动语音模型 (Text-Driven Speech Models)

这类模型中,LLM处理语音输入后,首先生成完整的文本回复。然后,利用LLM的内部隐藏状态作为条件,驱动一个独立的语音解码器生成语音。

  • 代表工作: Qwen2.5-Omni
  • 工作流程: 语音输入 → LLM (Thinker) 理解并生成文本 → 语音解码器 (Talker) 根据文本和LLM隐藏状态生成语音。
  • 核心局限: 单向信息流。LLM在生成文本时,并不知道后续语音会如何合成。这就像一个作家写完剧本后,无法控制演员如何表演。这限制了模型生成具有丰富情感和韵律的语音。

3.2.2. 联合语音-文本模型 (Joint Speech-Text Models)

这类模型让LLM同时预测文本词元和语音词元,实现了模态间的双向互动。

  • 交错式建模 (Interleaved Modeling):
    • 代表工作: GLM-4-Voice
    • 工作流程: 在生成序列中交替出现文本词元和语音词元块。
  • 并行式建模 (Parallel Modeling):
    • 代表工作: Kimi-Audio, Moshi
    • 工作流程: 在每个时间步,模型并行地预测一个文本词元和一个(或多个)语音词元。
  • 核心局限:
    1. 性能下降: 引入语音词元会干扰LLM原本强大的文本生成能力。
    2. 计算成本高 & 频率失配: 如前所述,语音词元序列远长于文本词元序列,这不仅增加了计算负担,也稀释了语义信息,阻碍了LLM能力的发挥。Kimi-Audio 就面临这个问题,它使用 12.5Hz 的音频表征,计算成本高昂。

3.3. 技术演进

语音对话系统的技术演进路线清晰地体现了对更自然、更高效人机交互的追求:

  1. 分离到整合: 从分离的 ASRLLMTTS 级联系统,演进到统一的 E2E 模型,以减少延迟和信息损失。
  2. 单向到双向:E2E 模型内部,从信息流单向的 Text-Driven 模型,演进到模态间双向感知的 Joint 模型,以实现更协调的语音-文本生成。
  3. 高频到智能降频:Joint 模型中,为了解决频率失配和计算成本问题,DrVoice 提出双分辨率方案,在保证生成质量的同时,大幅降低LLM处理的输入频率,代表了对效率和性能平衡的最新探索。

3.4. 差异化分析

DrVoice 与之前工作的核心区别在于:

  • 相较于 Text-Driven 模型 (如 Qwen2.5-Omni): DrVoice 是一个并行的 Joint 模型,其语音生成过程是LLM自回归环路的一部分,使得文本生成可以感知到语音的生成状态,理论上能产生更具表现力的语音。

  • 相较于其他 Joint 模型 (如 Kimi-Audio): DrVoice双分辨率语音表征 (DRSR) 是其最大创新。Kimi-Audio 使用 12.5Hz 的输入,而 DrVoice 通过分组将输入频率降至 5Hz,显著提升了效率,并缓解了语音-文本频率失配问题。同时,通过专门设计的语音精炼头 (SRH) 来恢复高频细节,保证了语音质量。

  • 训练策略创新: CoM-MixingCore-Cocktail 训练策略是 DrVoice 为了提升模型逻辑性、灵活性以及更好地保留LLM知识而设计的独特方法,在其他模型中较为少见。


4. 方法论

本节将详细拆解 DrVoice 的模型架构和训练策略。

4.1. 方法原理

DrVoice 的核心思想是“输入降频,输出保真”。它通过一种双分辨率机制,试图在计算效率和生成质量之间取得最佳平衡。具体来说:

  • 理解和生成规划阶段,模型将高频的语音信号压缩成低频的表征(5Hz),使其与文本的频率更加匹配。这使得LLM可以像处理文本一样高效地处理语音,专注于语义理解和内容生成,而不会被过长的语音序列所困扰。

  • 最终语音合成阶段,一个专门的模块(SRH)利用LLM输出的、富含语义的低频信息,精细地“还原”出高频、高质量的语音词元序列。

    下图(原文 Figure 1)展示了 DrVoice 的整体架构和数据流。

    Figure 1: Overview of DrVoICE. User speech inputs are tokenized, grouped, and encoded by the MLLM for autoregressive text and speech token prediction. The MLLM consists of Shared LLM Layer, a Text Head, and a Speech Refined Head (SRH) for token generation. The generated speech tokens are then converted to speech waveform by the speech detokenizer. Note that SRH generates \(k\) speech tokens through \(k\) autoregressive forward passes, where \(k\) is the grouping factor. 该图像是DrVoice模型的示意图。图中展示了用户语音输入的处理过程,包括语音解码器、共享LLM层、文本头和语音精炼头。SRH通过kk次自回归前向传递生成语音标记,进而生成预测文本标记与语音波形。

4.2. 核心方法详解 (逐层深入)

DrVoice 系统由三大组件构成:语音编解码器、多模态大语言模型 (MLLM) 和语音反词元化器。

4.2.1. 语音词元化与反词元化 (Speech Tokenization and Detokenization)

  • 用户端语音编码: 对于用户的语音输入,模型使用 Whisper-Large-v3 的语音编码器提取连续的音频表征,再通过一个 Adapter 进行降采样和维度对齐,送入LLM进行理解。
  • 助手端语音词元化: 对于模型自身需要生成的语音,DrVoice 使用 S3Tokenizer 将语音波形转换为离散的语义语音词元 (semantic speech tokens) 序列 S=[s0,s1,,sT1]\mathbf{S} = [s_0, s_1, \dots, s_{T-1}]。选择语义词元是因为它们与文本的语义对齐更好。
  • 语音反词元化 (Detokenization): 当模型生成语音词元序列 S\mathbf{S} 后,一个基于流匹配 (Flow Matching) 的模型会根据这些词元和一个说话人音色嵌入 (speaker embedding),将其转换成梅尔频谱 (Mel spectrum)。最后,一个预训练的声码器 HiFi-GAN 将梅尔频谱合成为最终的音频波形。

4.2.2. 多模态大语言模型 (MLLM)

这是 DrVoice 的核心,它建立在文本LLM之上,负责处理多模态输入并并行生成语音和文本。

1. 并行联合语音-文本模型 (Parallel Joint Speech-Text Model)

DrVoice 采用并行架构,在每个自回归步骤中,模型同时接收上一步生成的语音词元和文本词元作为输入。

  • 输入嵌入融合: 在时间步 tt,组合输入嵌入 ctc_t 的计算方式如下: ct=Espeech(st)+Etext(tt) c _ { t } = E _ { \mathrm { s p e e c h } } ( s _ { t } ) + E _ { \mathrm { t e x t } } ( t _ { t } )

    • 公式讲解:
      • sts_tttt_t 分别是时间步 tt 的语音词元和文本词元。
      • EspeechE_{\mathrm{speech}}EtextE_{\mathrm{text}} 分别是语音词元和文本词元的嵌入层(Embedding Layer),它们将离散的词元索引映射为高维向量。
      • 这个公式表示,在每个时间步,模型的输入是由语音词元嵌入文本词元嵌入相加融合而成的。如果语音和文本序列长度不一,较短的序列会用特殊填充符 <ISIL><ISIL> 进行填充。
  • 自回归生成过程: 模型通过最大化联合概率来生成序列: P(yty<t,x)=i=1tP(yiy<i,x) P ( y _ { t } | y _ { < t } , x ) = \prod _ { i = 1 } ^ { t } P ( y _ { i } | y _ { < i } , x )

    • 公式讲解:
      • xx 是用户输入序列。
      • yt=(st,tt)y_t = (s_t, t_t) 表示在时间步 tt 的联合语音-文本输出。
      • y<ty_{<t} 表示在时间步 tt 之前所有已生成的输出。
      • 这个公式描述了标准的自回归过程,即在给定输入 xx 和所有历史生成内容 y<ty_{<t} 的条件下,模型预测当前时间步的输出 yty_t

2. 双分辨率语音表征 (Dual-Resolution Speech Representations - DRSR)

这是 DrVoice 的关键创新,由语音词元分组语音精炼头两部分组成。

  • 语音词元分组 (Speech Token Grouping): 为了解决语音信号 (25Hz) 和文本生成 (\sim3Hz) 之间的频率失配问题,DrVoice 设计了一个分组机制。它将 kk 个连续的语音词元压缩成一个单一的表征。 gi=Linear((i+1)k1j=iksj)Rdtext \mathbf { g } _ { i } = \mathrm { L i n e a r } \left( \begin{array} { c } { ( i + 1 ) k - 1 } \\ { \underset { j = i k } { \parallel } } \end{array} \mathbf { s } _ { j } \right) \in \mathbb { R } ^ { d _ { \mathrm { t e x t } } }

    • 公式讲解:
      • sj\mathbf{s}_j 是第 jj 个语音词元的嵌入向量。
      • \parallel 表示拼接 (concatenation) 操作。公式 (i+1)k1j=iksj\underset{j=ik}{\overset{(i+1)k-1}{\parallel}} \mathbf{s}_j 意味着将从第 ik 个到第 (i+1)k-1 个(总共 kk 个)语音词元嵌入向量拼接在一起。
      • kk分组因子 (grouping factor),论文中设为 5。这意味着每 5 个 25Hz 的语音词元被分为一组。
      • Linear()\mathrm{Linear}(\cdot) 是一个线性投影层,它将拼接后的高维向量映射回与LLM隐藏层维度 dtextd_{\mathrm{text}} 一致的向量 gi\mathbf{g}_i
      • gi\mathbf{g}_i 就是第 ii分组后的语音表征。通过这个操作,语音序列的长度被压缩为原来的 1/k1/k,输入频率从 25Hz 降低到 5Hz。
  • 语音精炼头 (Speech Refined Head, SRH): 分组虽然提高了效率,但不可避免地会损失一些精细的声学细节,直接用于生成会导致语音质量下降。为此,DrVoice 设计了 SRH 来从LLM的低频语义信息中恢复出高频的语音词元。

    1. 解分组 (Ungrouping): SRH 首先接收共享LLM层 (SLLM) 的最后一个隐藏状态 hL[SLLM]\mathbf{h}_L^{\mathrm{[SLLM]}},并通过一个线性投影将其映射为组大小的嵌入: hug=WphL[SLLM]whereWpRdg×dh \mathbf { h } _ { u g } = \mathbf { W } _ { p } \mathbf { h } _ { L } ^ { \mathrm { [ S L L M ] } } \quad \mathrm { w h e r e } \quad \mathbf { W } _ { p } \in \mathbb { R } ^ { d _ { g } \times d _ { h } }
    2. 然后进行时间拆分,将其还原为 kk 个独立的表征: H=Splitk(hug)=[hug(1),hug(2),,hug(k)] \mathbf { H } = \mathrm { S p l i t } _ { k } ( \mathbf { h } _ { u g } ) = [ \mathbf { h } _ { u g } ^ { ( 1 ) } , \mathbf { h } _ { u g } ^ { ( 2 ) } , \ldots , \mathbf { h } _ { u g } ^ { ( k ) } ]
    3. 自回归生成: SRH 是一个独立的、小型的自回归模型。它以 H\mathbf{H} 作为条件,并结合之前已生成的语音词元,来逐个预测当前组内的 kk 个语音词元。其训练目标是最大化条件概率,损失函数如下: LSRH=i=1TlogP(sis<i,H<i) \mathcal { L } _ { \mathrm { S R H } } = - \sum _ { i = 1 } ^ { T } \log P ( s _ { i } | s _ { < i } , \mathbf { H } _ { < i } )
      • 公式讲解:
        • sis_i 是第 ii 个原始(未分组的)语音词元。
        • s<is_{<i} 是在 sis_i 之前所有已生成的语音词元。
        • H<i\mathbf{H}_{<i} 是从SLLM传递过来的、与当前生成位置相关的上下文信息。
        • 这个损失函数的目标是让 SRH 学会根据SLLM提供的丰富上下文信息 H\mathbf{H} 和历史语音信息 s<is_{<i},准确地预测出下一个语音词元 sis_i

3. 最终训练目标

DrVoice 的端到端训练目标由文本生成损失和语音生成损失两部分加权组成: LMLLM=λLTH+μLSRH \mathcal { L } _ { \mathrm { M L L M } } = \lambda \mathcal { L } _ { \mathrm { T H } } + \mu \mathcal { L } _ { \mathrm { S R H } } 其中,文本头的损失 LTH\mathcal{L}_{\mathrm{TH}} 是一个标准的自回归损失: LTH=i=1TlogP(tic<i,g) \mathcal { L } _ { \mathrm { T H } } = - \sum _ { i = 1 } ^ { T } \log P ( t _ { i } | c _ { < i } , \mathbf { g } )

  • 公式讲解:
    • LTH\mathcal{L}_{\mathrm{TH}} 是文本头 (Text Head) 的损失,LSRH\mathcal{L}_{\mathrm{SRH}} 是语音精炼头 (SRH) 的损失。λ\lambdaμ\mu 是平衡两者的超参数。
    • LTH\mathcal{L}_{\mathrm{TH}} 的目标是根据之前的联合输入 c<ic_{<i} 和分组后的语音表征 g\mathbf{g},预测当前步的文本词元 tit_i

4.2.3. 训练策略

1. CoM-Mixing 训练 (Chain-of-Modality Mixing Training) 为了提升模型输出的逻辑性和连贯性,DrVoice 采用了一种模仿人类“先思考,后说话”的策略。

  • 模态链 (CoM): 提示模型先生成一个完整的文本回复(作为内部思考步骤),然后再进行并行的语音-文本生成。

  • 混合训练: 论文定义了7种不同的交互模式(见下表,原文 Table 1),如纯语音到多模态(S2M)、语音到文本(S2T)、以及包含思考步骤的模态链(STC/SAC/SUC)等。通过构造包含这7种模式的混合数据进行训练,并使用特定的系统提示 (System Prompts) 来引导模型采用何种模式。这使得 DrVoice 在推理时可以根据指令灵活地切换输出模式。

    以下是原文 Table 1 的内容:

    Pattern NameAbbr.Modality Flow
    Speech-to-MultimodalS2MSpeech → Joint speech-text response
    Speech-to-TextS2TSpeech → Text-only response
    Text-to-MultimodalT2MText → Joint speech-text response
    Text-to-TextT2TText → Text-only response
    Speech-Text ChainSTCSpeech → Text transcription → Text response → Multimodal response
    Speech-Assisted ChainSACSpeech → Text response (agent perspective) → Multimodal response
    Speech-User ChainSUCSpeech → Text transcription (user perspective) → Multimodal response

2. Core-Cocktail 训练 这是一个精巧的两阶段训练策略,旨在解决多模态训练中的学习率困境:高学习率会破坏LLM原有的知识,而低学习率则训练缓慢。

  • 第一阶段:激进微调。 使用一个相对较高的学习率对整个MLLM进行全参数微调。目的是让模型参数快速进入一个对多模态任务有利的区域。

  • 模型融合 (Merging): 将第一阶段训练后的模型参数 M1M_1 与原始的、预训练的LLM基座参数 M0M_0 进行加权平均,得到一个融合后的模型 MrM_rMrαM1+(1α)M0 M _ { r } \gets \alpha M _ { 1 } + ( 1 - \alpha ) M _ { 0 }

    • 公式讲解:
      • α\alpha 是插值权重。一个较小的 α\alpha 意味着更多地保留基座LLM的原始能力。这步操作有效地将基座LLM的强大知识“重新注入”到被高学习率“扰动”过的模型中。
  • 第二阶段:精细微调。 使用一个很小的学习率对融合后的模型 MrM_r 进行全参数微调。这可以在不破坏模型稳定性的前提下,精确地优化模型在多模态任务上的性能。


5. 实验设置

5.1. 数据集

  • SRH 预训练: 使用了约 10万小时的音频-文本配对数据来预训练语音精炼头 (SRH)。
  • DrVoice 后训练:
    1. 首先使用 CosyVoice TTS 系统为约 30亿个文本词元合成了语音,并根据合成语音的词错误率 (WER) 进行了筛选。
    2. 最终用于模型训练的数据包括:
      • 约 2.6万小时的语音-语音对话数据。
      • 约 2万小时的用户语音 + 13亿助手端词元的语音-文本对话数据。
    3. 为了增强模型对真实世界语音的理解,额外加入了约 1万小时的英语自动语音识别 (ASR) 数据,来源包括 Common Voice, MELD, LibriSpeech 等。

5.2. 评估指标

论文使用了多个基准测试及其指定的评估指标来全面衡量模型性能。

5.2.1. G-Eval / AlpacaEval / CommonEval

  • 概念定义 (Conceptual Definition): 这是一种基于 LLM 的评估方法。它不使用传统的硬性指标,而是利用一个强大的教师模型(如 GPT-4)来对模型生成的开放式回答进行打分。评估器会综合考虑回答的帮助性、相关性、准确性和流畅性,给出一个类似人类裁判的综合评分。AlpacaEvalCommonEval 是采用这种评估方式的具体基准。
  • 数学公式 (Mathematical Formula): 没有简单的数学公式。其核心是一个精心设计的提示 (Prompt),该提示要求教师LLM扮演评估者的角色,并根据一系列标准对生成的回复进行打分。
  • 符号解释 (Symbol Explanation): 不适用。

5.2.2. Accuracy (准确率)

  • 概念定义 (Conceptual Definition): 这是分类或选择题任务中最常用的指标,衡量的是模型预测正确的样本占总样本的比例。
  • 数学公式 (Mathematical Formula): Accuracy=Number of Correct PredictionsTotal Number of Predictions \text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}
  • 符号解释 (Symbol Explanation):
    • Number of Correct Predictions: 模型预测结果与真实标签一致的样本数量。
    • Total Number of Predictions: 所有参与评估的样本总数。

5.2.3. Refusal Rate (拒绝率)

  • 概念定义 (Conceptual Definition):AdvBench (对抗性基准测试) 中使用,用于衡量模型在面对不安全或不适宜的问题时,能够正确地拒绝回答的比例。一个高的拒绝率通常是好的,表明模型具有更好的安全性。
  • 数学公式 (Mathematical Formula): Refusal Rate=Number of RefusalsTotal Number of Queries \text{Refusal Rate} = \frac{\text{Number of Refusals}}{\text{Total Number of Queries}}
  • 符号解释 (Symbol Explanation):
    • Number of Refusals: 模型明确拒绝回答的查询数量。
    • Total Number of Queries: 所有对抗性查询的总数。

5.2.4. ASR-WER (基于ASR的词错误率)

  • 概念定义 (Conceptual Definition): 用于评估生成语音和生成文本之间的一致性。具体做法是:先用一个强大的第三方ASR模型(如 Whisper-v3-large)将 DrVoice 生成的语音转写成文本,然后计算这个转写文本与 DrVoice 自己生成的原始文本之间的词错误率。WER越低,说明语音和文本的一致性越好。
  • 数学公式 (Mathematical Formula): WER=S+D+IN \text{WER} = \frac{S + D + I}{N}
  • 符号解释 (Symbol Explanation):
    • SS: 替换 (Substitutions) 错误的数量,即ASR转写结果中的词与参考文本中的词不一致。
    • DD: 删除 (Deletions) 错误的数量,即参考文本中的词在ASR转写结果中被漏掉。
    • II: 插入 (Insertions) 错误的数量,即ASR转写结果中出现了参考文本中没有的词。
    • NN: 参考文本(即 DrVoice 生成的文本)中的总词数。

5.2.5. UTMOS

  • 概念定义 (Conceptual Definition): UTMOS 是一个基于深度学习的客观语音质量评估系统。它旨在模拟人类对语音质量的主观感受(即 MOS - Mean Opinion Score)。通过将生成的语音输入到 UTMOS 模型中,可以得到一个预测的MOS分数,该分数反映了语音的整体自然度、清晰度和流畅性。分数越高,代表语音质量越好。
  • 数学公式 (Mathematical Formula): UTMOS 本身是一个复杂的神经网络模型,没有简单的封闭形式公式。
  • 符号解释 (Symbol Explanation): 不适用。

5.3. 对比基线

论文选择了一系列有代表性的开源音频语言模型作为对比,覆盖了不同的技术路线:

  • Text-Driven 模型: MiniCPM-o 2.6 (8B), Qwen2.5-Omni (7B)。

  • Joint Speech-Text 模型 (Interleaved): GLM-4-Voice (9B), Baichuan-Omni-1.5 (7B), Step-Audio2-Mini (8B)。

  • Joint Speech-Text 模型 (Parallel): Kimi-Audio (7B)。

    这个选择使得 DrVoice 能够与其直接竞争对手在相似参数规模下进行公平比较。


6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 2 的核心结果,展示了 DrVoice 与各基线模型在四大基准测试上的性能对比。

S2T (Speech-to-Text) 和 S2S (Speech-to-Speech) 性能

GLM4-Voice MiniCPM -0 2.6 Baichuan -Omni-1.5 Qwen2.5 -Omni Kimi -Audio Step-Audio2 -Mini DrVoice
FR (In/Out) 12.5/12.5+τ 25/T 12.5/12.5+7 25/T 12.5/12.5 12.5/25+T 5/5
OpenAudioBench (S2T)
AlpacaEval 57.89 64.10 77.90 72.76 75.73 59.60 78.34
Llama Q. 76.00 78.00 78.50 75.33 79.33 75.00 80.33
Reasoning QA 47.43 38.60 50.00 63.76 58.02 46.04 57.92
TriviaQA 51.80 63.00 57.20 57.06 62.10 57.70 61.50
Web Q. 55.40 69.20 59.10 62.80 70.20 65.10 68.10
Overall 57.70 62.58 64.54 66.34 69.08 60.69 69.24
VoiceBench (S2T)
AlpacaEval 3.97 4.42 4.50 4.33 4.46 4.17 4.52
CommonEval 3.42 4.15 4.05 3.84 3.97 3.00 3.77
SD-QA 36.98 50.72 43.40 57.41 63.12 56.06 68.54
MMSU 39.75 54.78 57.25 56.38 62.17 52.18 60.31
OpenBookQA 53.41 78.02 74.51 79.12 83.52 64.18 79.56
IFEval 52.80 49.25 54.54 53.88 61.10 38.01 59.30
AdvBench 88.08 97.69 97.31 99.62 100.00 93.08 98.65
Overall 59.83 71.69 71.14 72.83 76.93 63.84 76.02
UltraEval-Audio (S2S)
AlpacaEval 51.00 51.00 58.69 56.10 44.20 51.72 49.65
Llama Q. 50.00 61.00 67.33 66.30 57.33 67.67 68.00
TriviaQA 36.40 40.20 30.57 40.52 35.71 33.50 35.35
Web Q. 32.00 40.00 38.09 38.93 33.90 34.65 37.65
Overall 42.35 48.05 48.67 50.46 42.79 46.89 47.66
Big Bench Audio (S2T & S2S)
S2T 44.8 56.2 47.1 54.2 59.4 50.9 71.6
S2S 42.7 55.4 44.6 53.6 51.0 47.5 60.9
Overall 43.8 55.8 45.8 53.9 55.2 49.2 66.3
  • 综合性能强大: DrVoice 在多个基准上表现出色。它在 OpenAudioBench(侧重音频理解)和 Big Bench Audio(侧重音频推理和理解)上取得了新的SOTA。特别是在 Big Bench Audio 上,其 66.3 的总分远超第二名(55.8),展现了巨大的优势。
  • 计算效率极高: FR(In/Out)FR (In/Out) 行显示了模型的帧率。DrVoice5/5 帧率意味着其LLM主干网络每秒仅处理5个音频词元,而其他模型大多在 12.5Hz 或 25Hz,计算量远大于 DrVoice。这证明了其双分辨率设计的巨大效率优势。
  • 性能均衡: 尽管在 VoiceBenchUltraEval-Audio 上未能登顶,但其性能与SOTA模型(Kimi-AudioQwen2.5-Omni)非常接近,差距微小。这表明 DrVoice 是一个在各项能力上都非常均衡和强大的模型。

6.1.1. 计算效率与语音质量

以下是原文 Table 3 的结果,评估了生成语音的质量。

Model FR(In/Out)↓ UTMOS↑ ASR-WER↓
MiniCPM-o 2.6 (2025) 25/τ 4.18 13.17
Baichuan-Omni-1.5 (2025) 12.5/12.5+7 4.27 23.38
Qwen2.5-Omni (2025) 25/T 4.28 3.48
Kimi-Audio (2025) 12.5/12.5 3.06 21.06
Step-Audio2-mini (2025) 12.5/25+T 4.53 9.5
DrVoice 5/5 4.29 11.2
  • 效率与质量的完美结合: DrVoice 在实现极低计算帧率(5/5)的同时,依然保持了高质量的语音输出。其 UTMOS 得分 4.29,与 Qwen2.5-Omni (4.28) 相当,优于 Kimi-Audio (3.06),证明其生成的语音自然流畅。
  • 语音-文本对齐性: DrVoiceASR-WER 为 11.2,表明其生成的语音内容与文本内容有较好的一致性,优于多个基线模型。但与 Qwen2.5-Omni (3.48) 相比仍有差距。作者分析这可能是因为 Qwen2.5-Omni 将文本直接输入其语音生成模块,而 DrVoice 仅传递隐藏状态,未来可以通过向 SRH 引入文本输入来改进。

6.2. 消融实验/参数分析

以下是原文 Table 4 的消融实验结果,验证了 DrVoice 各个组件的有效性。实验在1.5B的小模型上进行。

Model S2M (T/S) S2T T2M (T/S) T2T STC (T/S) SAC (T/S) SUC (T/S)
DRVoICE-Small 68.67 / 56.00 72.33 72.33 / 56.00 75.33 75.67 / 68.33 71.67 / 62.67 73.33 / 62.00
w/o. CSE 61.67 / 53.00 62.33 70.00 / 60.00 74.00 69.33 / 61.00 63.00 / 55.00 66.33 / 58.67
w/o. SRH-Pretraining 38.33 / 30.33 56.00 59.33 / 46.33 73.33 67.33 / 57.67 54.00 / 42.33 54.33 / 42.67
w/o. SRH 21.67 / 15.33 56.00 45.22 / 35.00 73.00 64.33 / 50.67 55.67 / 42.33 40.33 / 27.67
w/o. CoM-Mixing 58.00 / 49.00 58.00 69.33 / 55.00 68.33 - / - - / - - / -
  • 连续语音编码器 (CSE) 的重要性: 去掉 CSE (w/o. CSE) 后,所有涉及语音输入的任务(S2M, S2T, STC等)性能都大幅下降(如 S2T 从 72.33 降至 62.33),而纯文本任务 (T2T) 影响甚微。这证明 CSE 对于语音理解至关重要。

  • 语音精炼头 (SRH) 的关键作用: 去掉 SRH (w/o. SRH) 后,所有涉及语音生成的任务(S2M, T2M)性能急剧恶化(如 S2M (T) 从 38.33 暴跌至 21.67),而语音理解 (S2T) 和文本任务 (T2T) 不受影响。这表明 SRH 是高质量语音生成的核心。

  • SRH 预训练的价值: 去掉 SRH 的预训练步骤 (w/o. SRH-Pretraining) 同样导致语音生成任务性能严重下滑。这说明让 SRH 先在大量数据上学习通用的语音生成能力是非常必要的。

  • CoM-Mixing 训练策略的有效性:

    • 首先,带有思维链的模式(STC, SAC, SUC)性能显著优于直接生成模式(S2M),例如 STC (T) 得分75.67,远高于 S2M (T) 的 68.67,证明模型学会了利用中间思考步骤来提升质量。
    • 其次,去掉 CoM-Mixing 训练 (w/o. CoM-Mixing) 后,S2M 性能大幅下降(从 68.67 降至 58.00),证明了混合多种交互模式进行训练的价值。
  • 分组因子 (Grouping Factor) 的影响 (附录C): 实验表明,分组不仅没有损害性能,反而显著提升了性能。将分组因子从1增加到5,S2T 性能提升了 13.7%。这证实了分组机制可以有效缓解频率失配问题,更好地发挥LLM的能力。同时,使用分组因子5相比不分组,训练所需的GPU时数减少了近50%,效率优势巨大。


7. 总结与思考

7.1. 结论总结

DrVoice 是一篇高质量的工程实践和模型创新并重的论文。它成功地设计并实现了一个高效且强大的并行语音-文本对话模型。

  • 核心贡献: 提出了双分辨率语音表征 (DRSR),通过低频输入(分组)高频输出(SRH)的精巧设计,在大幅降低计算成本的同时,解决了联合建模中语音与文本的频率失配问题,并保持了高质量的语音生成。
  • 主要发现:
    1. 降低LLM的输入音频频率(从 25Hz 到 5Hz)是可行的,并且能显著提升计算效率和模型性能。
    2. 专门设计的 SRH 模块能够有效地从LLM的低频语义信息中恢复出高保真的语音。
    3. CoM-MixingCore-Cocktail 等创新的训练策略,对于提升模型的多任务适应能力和保留LLM基础能力至关重要。
  • 意义: DrVoice 在多个权威基准上取得了SOTA或接近SOTA的成绩,为社区提供了一个性能领先且计算高效的开源语音基础模型,对未来实时、自然的语音交互系统的发展具有重要的参考价值。

7.2. 局限性与未来工作

作者在附录中坦诚地指出了模型的局限性,并规划了未来的研究方向:

  1. 提升语音生成质量: 当前模型生成的语音与文本一致性 (ASR-WER) 劣于 Qwen2.5-Omni。未来的改进方向是将文本也作为 SRH 的一个输入,为其提供更明确的文本指导,以降低 WER
  2. 实现全双工交互 (Full-Duplex Interaction): 为了实现更自然的对话(允许用户打断),未来将探索类似 Parrot 模型中的时分复用 (TDM) 输入流,使模型能在自身说话的同时接收用户输入。
  3. 扩展到通用音频和多模态: 未来的目标是将模型的能力从语音扩展到更广泛的音频领域,如音乐和环境声的理解与生成,并最终集成视觉模态,构建一个更全面的多模态对话AI。

7.3. 个人启发与批判

这篇论文给我带来了以下几点启发和思考:

  • 设计的优雅与实用性: DrVoice 的双分辨率思想非常巧妙。它没有盲目地追求端到端的“一锅端”,而是深刻洞察了不同模态在信息密度上的差异,并针对性地设计了“分治”策略:让LLM专注于其擅长的低频语义处理,而将高频信号的还原交给一个专门的、更轻量的模块。这种解耦思想在复杂的多模态系统设计中非常有借鉴意义。
  • 训练策略的重要性: Core-Cocktail 训练策略是对大型模型微调实践的一个宝贵贡献。在多模态或多任务学习中,如何平衡“学习新知识”与“不忘记旧知识”是一个普遍难题。该策略通过“激进探索-融合保留-精细优化”的流程,提供了一个非常实用的解决方案。
  • 潜在问题与思考:
    1. 对 Tokenizer 的依赖: 整个系统的性能在很大程度上依赖于 S3TokenizerCosyVoiceDetokenizer。这些组件是阿里巴巴内部的技术,虽然强大,但对于社区来说可能是一个黑盒,限制了完全的复现和更深层次的定制研究。

    2. SRH 的复杂性: SRH 本身是一个自回归模型,虽然比主LLM小,但在生成长语音时,逐词元生成仍然会引入一定的延迟。这与并行架构追求低延迟的初衷可能存在一定的张力。未来或许可以探索非自回归的 SRH 设计。

    3. 真实世界噪声的挑战: 尽管训练数据中加入了ASR语料,但模型在极其嘈杂或多说话人重叠的真实场景下的鲁棒性仍有待进一步验证。这是所有语音交互系统面临的共同挑战。

      总而言之,DrVoice 是一项扎实而出色的研究工作,它不仅在技术上提出了新颖的解决方案,也在工程实践上取得了显著的成果,为构建下一代语音对话系统指明了一个非常有前景的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。