Recent Advances in Speech Language Models: A Survey

Irwin King

论文状态：已完成

Recent Advances in Speech Language Models: A Survey

发表：2024/10/02

语音语言模型 (1)自动语音识别技术 (1)文本到语音转换 (1)端到端语音生成 (1)语音模型评估指标 (1)

原文链接 PDF 下载

价格：0.10

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本综述论文首次全面概述了语音语言模型（SpeechLMs）的最新构建方法，强调了其作为端到端模型的优势，能够无须文本中介直接生成语音，克服了传统ASR+LLM+TTS管道中信息丢失、延迟及错误累积等问题，讨论了其评估指标和未来研究方向。

摘要

Large Language Models (LLMs) have recently garnered significant attention, primarily for their capabilities in text-based interactions. However, natural human interaction often relies on speech, necessitating a shift towards voice-based models. A straightforward approach to achieve this involves a pipeline of ``Automatic Speech Recognition (ASR) + LLM + Text-to-Speech (TTS)", where input speech is transcribed to text, processed by an LLM, and then converted back to speech. Despite being straightforward, this method suffers from inherent limitations, such as information loss during modality conversion, significant latency due to the complex pipeline, and error accumulation across the three stages. To address these issues, Speech Language Models (SpeechLMs) -- end-to-end models that generate speech without converting from text -- have emerged as a promising alternative. This survey paper provides the first comprehensive overview of recent methodologies for constructing SpeechLMs, detailing the key components of their architecture and the various training recipes integral to their development. Additionally, we systematically survey the various capabilities of SpeechLMs, categorize their evaluation metrics, and discuss the challenges and future research directions in this rapidly evolving field. The GitHub repository is available at https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

论文精读

中文精读约 53 分钟读完 · 33,599 字

1. 论文基本信息

1.1. 标题

Recent Advances in Speech Language Models: A Survey (语音语言模型最新进展：一项综述)

1.2. 作者

Wenqian Cui, Dianzhi Yu, Xiaoqi Jiao, Ziqiao Meng, Guangyan Zhang, Qichao Wang, Yiwen Guo, and Irwin King, Fellow, IEEE

1.3. 发表期刊/会议

arXiv 预印本

1.4. 发表年份

2024年（发布于 2024-10-01T21:48:12.000Z）

1.5. 摘要

大型语言模型（LLMs）最近因其在文本交互方面的能力而备受关注。然而，自然的人类交互通常依赖于语音，这使得向语音模型转变成为必然。实现这一目标的一个直接方法是采用“自动语音识别（ASR）+ LLM + 文本转语音（TTS）”的管道，即输入语音被转录为文本，由 LLM 处理，然后转换回语音。尽管这种方法直观，但它存在固有的局限性，例如模态转换过程中的信息丢失、复杂管道导致的显著延迟以及三个阶段中错误累积的问题。为了解决这些问题，语音语言模型（SpeechLMs）作为一种有前景的替代方案应运而生——它们是无需从文本转换即可生成语音的端到端模型。这篇综述论文首次全面概述了构建 SpeechLMs 的最新方法，详细阐述了其架构的关键组成部分和开发过程中不可或缺的各种训练方法。此外，我们系统地调查了 SpeechLMs 的各种能力，对其评估指标进行了分类，并讨论了这一快速发展领域中的挑战和未来研究方向。

1.6. 原文链接

官方预印本链接：https://arxiv.org/abs/2410.03751v4 PDF 链接：https://arxiv.org/pdf/2410.03751v4.pdf 发布状态：预印本（ $v4$ 版本）

2. 整体概括

2.1. 研究背景与动机

核心问题： 尽管大型语言模型（LLMs）在文本交互方面取得了显著成功，但人类自然的交互方式往往是基于语音的。将 LLMs 的强大能力扩展到语音领域，以实现更自然、直观的人机交互，是当前人工智能领域的一个重要课题。

现有挑战与空白：

传统管道方法的局限性： 实现语音交互的一个直接方法是采用 $ASR + LLM + TTS$ 的三阶段管道。然而，这种方法存在以下固有缺陷：
- 信息丢失 (Information loss)： 语音信号不仅包含语义信息，还包含语用信息（如音高、音色、语调等）。将语音完全转换为文本后，这些重要的语用信息会完全丢失，导致模型无法捕捉人类交流的丰富性和情感。
- 显著延迟 (Significant latency)： ASR、LLM 和 TTS 模块的顺序操作导致处理延迟显著，尤其是在需要实时交互的场景中。每个模块的复杂结构和内部管道（如 ASR 的文本生成、TTS 的文本分词）都增加了计算开销和延迟。
- 错误累积 (Cumulative error)： 管道式方法中，前一阶段的错误会累积到后续阶段。例如，ASR 的转录错误会严重影响 LLM 的语言生成，而 LLM 生成的不可合成文本也会影响 TTS 的质量。
当前研究缺乏系统性综述： 尽管 SpeechLMs 作为解决上述问题的新范式已经出现，但尚未有全面的综述论文对其进行系统性的梳理和总结，这使得初学者和研究人员难以快速了解该领域的全貌。

创新思路： 针对传统管道方法的局限性，论文聚焦于 SpeechLMs 这种端到端（end-to-end）的语音生成模型。SpeechLMs 直接将语音波形编码为词元或表示，捕获音频的本质特征和信息，从而避免了模态转换中的信息丢失。通过自回归地建模这些语音词元，SpeechLMs 能够利用额外的语用信息生成更具表现力和细微差别的语音。这种集成方法消除了对三个独立模块的串联需求，显著减少了延迟并有效缓解了错误累积。

2.2. 核心贡献/主要发现

这篇综述论文对 SpeechLMs 领域做出了以下主要贡献：

首次全面综述： 论文是 SpeechLMs 领域的首次全面综述，为该领域的快速发展提供了系统的概览。
提出新分类法： 论文提出了一种新颖的分类法（Figure 4），从底层组件和训练方法两个角度对 SpeechLMs 进行分类，有助于理解不同 SpeechLMs 的设计选择。
评估方法分类系统： 论文为 SpeechLMs 的评估方法提出了新的分类系统，涵盖自动评估和人工评估，以及不同的评估侧重点。
识别挑战： 论文识别了构建 SpeechLMs 面临的几个关键挑战，为未来的研究指明了方向。

通过这些贡献，论文旨在阐明 SpeechLMs 领域的当前状态，帮助研究社区更好地理解和开发更强大的语音语言模型。

3. 预备知识与相关工作

本章旨在为读者铺垫理解论文所需的前置知识，并对相关工作进行总结。

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是基于深度学习的语言模型，拥有数亿甚至数千亿个参数，通过在海量文本数据上进行预训练而获得强大的语言理解和生成能力。它们能够执行文本生成、问答、翻译、摘要等多种自然语言处理（NLP）任务。本文中特指纯文本（text-based）的 LLM。

3.1.2. 自动语音识别 (Automatic Speech Recognition, ASR)

ASR 是一种技术，它将人类的语音转换为文本。它能够识别和理解口语，并将其表示为书面文字。在传统的语音交互管道中，ASR 是第一个模块，负责将用户的语音输入转换为文本。

3.1.3. 文本转语音 (Text-to-Speech, TTS)

TTS 是一种技术，它将书面文本转换为人类语音。它能够根据输入的文本生成合成语音，通常可以调整音色、语调和语速。在传统的语音交互管道中，TTS 是最后一个模块，负责将 LLM 生成的文本响应转换为语音输出给用户。

3.1.4. 语音语言模型 (Speech Language Models, SpeechLMs)

SpeechLMs 是指能够直接处理和生成语音，并且通常是端到端（end-to-end）的自回归（autoregressive）基础模型。与 LLM 仅处理文本不同，SpeechLMs 旨在通过直接操作语音信号的表示（如语音词元）来实现语音的理解和生成，从而支持语音驱动的交互。它们可以处理语音、文本，甚至是语音和文本交错的多模态序列。

3.1.5. 语音分词器 (Speech Tokenizer)

Speech Tokenizer 是 SpeechLMs 中的第一个组件，它将连续的音频信号（波形）编码为离散的词元或连续的表示。其目的是捕获音频的基本特征，同时降低维度，使音频输入能够被语言模型有效地处理以进行自回归生成。

3.1.6. 语音量化器 (Speech Quantizer)

Speech Quantizer 是语音分词器中的一个关键模块，用于将连续的语音嵌入（embeddings）转换为离散的索引或词元。这个过程通常通过聚类（如 k-means）或向量量化（Vector Quantization, VQ）等技术实现，以减少数据量并使其适应离散词元语言模型。

3.1.7. 声码器 (Vocoder)

Vocoder 是 SpeechLMs 中的最后一个组件，它将语言模型生成的语音词元或中间表示转换回可听的语音波形。它本质上是语音分词器的逆过程，负责将抽象的语音信息合成为高质量的音频。

3.1.8. Transformer

Transformer 是一种基于自注意力机制（self-attention mechanism）的神经网络架构，最初用于自然语言处理任务。它能够并行处理序列数据，并有效捕捉长距离依赖关系。Transformer 已经成为 LLMs 和许多 SpeechLMs 语言模型组件的核心架构。

3.1.9. 残差向量量化 (Residual Vector Quantization, RVQ)

RVQ 是一种高级的向量量化技术，它通过多个阶段逐步量化残差信息。在每个阶段，模型量化当前阶段的残差，并将其添加到前一阶段的量化结果中，以逐步提高重建质量。这允许在保持较低码率的同时，更精细地捕捉语音信号的细节。

3.1.10. 生成对抗网络 (Generative Adversarial Networks, GANs)

GANs 是一种生成模型框架，由一个生成器（Generator）和一个判别器（Discriminator）组成。生成器学习生成与真实数据相似的新数据样本，而判别器则学习区分真实数据和生成器生成的数据。两者通过对抗训练相互改进，最终生成器能够生成高度逼真的数据。在语音合成中，GANs 尤其擅长生成高保真度和自然度的语音波形，例如 HiFi-GAN 等声码器。

3.2. 前人工作

在 SpeechLMs 出现之前，实现语音交互的主流方法是采用 $ASR + LLM + TTS$ 的三阶段管道。这种方法依赖于将语音转换为文本，由文本 LLM 处理，然后再将文本转换回语音。

ASR 模块： 负责将用户的语音输入转换为文本。例如，Whisper [12] 是一个广受欢迎的 ASR 系统，通过大规模弱监督训练实现强大的语音识别能力。
LLM 模块： 接收 ASR 输出的文本，并根据其指令生成文本响应。GPT-4 [1]、LLaMA [39] 和 OPT [3] 等是典型的 LLM 示例，它们在文本生成和理解方面表现出色。
TTS 模块： 将 LLM 生成的文本响应合成为语音输出。Tacotron-2 和 Waveglow [45], [46] 是早期高效的 TTS 系统，而 HiFi-GAN [47] 则以其高保真度语音合成能力而闻名。

尽管这些独立组件各自都取得了显著进展，但将它们串联起来的管道式方法存在上文提到的固有局限性，如信息丢失、显著延迟和错误累积。这些问题促使研究人员探索更集成、端到端的语音交互模型，即 SpeechLMs。

3.3. 技术演进

语音交互技术的发展经历了从分立模块到端到端集成的演进：

早期分立模块： ASR 和 TTS 作为独立的语音处理技术发展，各自侧重于语音到文本和文本到语音的转换。
$ASR + LLM + TTS$ 管道： 随着 LLMs 的兴起，研究人员自然地尝试将 LLMs 融入语音交互，形成了基于文本的管道式方法。这种方法虽然直观，但其固有的局限性（信息丢失、延迟、错误累积）逐渐显现。
语音语言模型 (SpeechLMs) 的兴起： 为了克服管道式方法的缺陷，SpeechLMs 应运而生。它们旨在通过直接处理语音表示，实现语音的端到端理解和生成。GSLM [50] 是最早的 SpeechLM 之一，它证明了基于语音词元进行语言建模的可行性。
多模态融合： 最新的 SpeechLMs 不仅能处理纯语音，还能整合文本信息，实现语音-文本的交叉模态功能，例如 SpeechGPT [8] 和 SPIRIT-LM [5]，它们通过共享词元空间或对齐机制，使模型能够理解和生成语音或文本。

3.4. 差异化分析

SpeechLMs 与 $ASR + LLM + TTS$ 管道方法的核心区别和创新点在于：

特性	$ASR + LLM + TTS$ 管道	`SpeechLMs`
架构	串联的三个独立模块：`ASR` $\rightarrow$ `LLM` $\rightarrow$ `TTS`	端到端统一模型，包含语音分词器、语言模型和声码器，直接处理语音信号的表示。
模态转换	语音 $\rightarrow$ 文本 $\rightarrow$ 语音，模态转换发生两次。	语音 $\rightarrow$ 语音词元 $\rightarrow$ 语音，避免了完整的语音到文本的语义信息丢失。
信息保留	信息丢失：语音中的语用信息（音高、音色、情感）在 `ASR` 转换为文本时完全丢失。	信息保留：通过直接编码语音波形为词元，能够保留语义信息和语用信息，生成更具表现力的语音。
延迟	显著延迟：三个模块顺序操作，每个模块自身处理复杂，导致高延迟。	低延迟：统一架构减少了模块间切换的开销，语言模型直接在语音词元上操作，有助于实现更快的响应。
错误累积	错误累积： `ASR` 错误会影响 `LLM`，`LLM` 错误会影响 `TTS`，错误在管道中逐级放大。	错误缓解：统一训练和集成架构有助于减少错误累积，模型能更好地在语音编码、语言建模和语音合成之间协调。
灵活性	较不灵活，主要局限于语音到文本再到语音的转换。	更灵活，能够处理纯语音、纯文本、以及语音与文本交错的多模态序列，支持更多样的应用。
训练	各模块独立训练。	整体或部分组件联合训练，目标是端到端生成。

总结： SpeechLMs 通过将语音处理和语言建模集成到统一的架构中，克服了传统管道方法的诸多限制，为实现更自然、高效、富有表现力的语音交互提供了新的范式。

4. 方法论

本章将详细拆解 SpeechLMs 的技术方案，从其核心组件到训练方法，并融入相关的数学公式和解释。

4.1. 方法原理

SpeechLMs 的核心思想是端到端地处理和生成语音，利用自回归（autoregressive）的语言模型架构来建模语音。这与传统的 $ASR + LLM + TTS$ 管道形成鲜明对比。SpeechLMs 的设计初衷是为了在语音交互中克服信息丢失、延迟和错误累积的问题。

其基本原理可以概括为以下三个步骤：

语音分词 (Speech Tokenization)： 将连续的原始音频波形转换为离散的语音词元（discrete speech tokens）或连续的表示（continuous representations）。这些词元或表示不仅包含语义信息，还尽可能保留语用信息。
语言建模 (Language Modeling)： 一个基于 Transformer 或类似架构的语言模型接收语音词元作为输入，并以自回归方式预测下一个语音词元。这个阶段是 SpeechLM 的“大脑”，负责理解上下文并生成连贯的语音序列。
语音合成 (Speech Synthesis)： 语言模型生成的语音词元通过一个声码器（vocoder）转换回可听的原始音频波形。

通过这种集成方法，SpeechLMs 可以直接在语音表示上进行推理和生成，从而避免了中间文本转换带来的问题。

SpeechLM 的形式化定义如下：给定输入多模态序列 $\mathbf{M}^{\mathrm{in}} = (M_1^{\mathrm{in}}, M_2^{\mathrm{in}}, \dots, M_{N_{\mathrm{in}}}^{\mathrm{in}})$ 和输出多模态序列 $\mathbf{M}^{\mathrm{out}} = (M_1^{\mathrm{out}}, M_2^{\mathrm{out}}, \dots, M_{N_{\mathrm{out}}}^{\mathrm{out}})$ ，其中每个元素 $M_i \in \{a_i, t_j\}$ 可以是音频样本 $a_i$ 或文本词元 $t_j$ 。一个由参数 $\theta$ 参数化的 SpeechLM 可以表示为： $\mathbf{M}^{\mathrm{out}} = SpeechLM(\mathbf{M}^{\mathrm{in}}; \theta)$ 这表明 SpeechLM 可以接收多模态输入并生成多模态输出。

4.2. 核心方法详解

SpeechLM 的三阶段设计模式（语音分词器、语言模型、声码器）是为了利用语言模型架构（如 decoder-only transformer）以自回归方式建模语音。由于语言模型的输入和输出都是词元，因此需要额外的模块来处理 I/O 格式。

4.2.1. 语音分词器 (Speech Tokenizer)

语音分词器是 SpeechLM 的第一个组件，它将连续的音频信号（波形）编码为词元或表示，作为语言模型的输入。其目标是捕获音频的关键特征并降低维度，以便语言模型进行自回归生成。语音分词器将音频分段编码，产生两种类型的词元：离散词元（discrete tokens） 和 连续词元（continuous tokens）。离散词元使用特定索引表示每个语音段，而连续词元使用嵌入表示该段。

下图（原文 Figure 3）展示了三种类型的语音分词器：

Fig. 3. Illustration of the three types of speech tokenizers. 该图像是示意图，展示了三种不同类型的语音分词器，包括语义分词器、声学分词器和混合分词器。每种分词器的布局和组件不同，以实现自动语音识别与生成的有效性。图中包含的关键组件如编码器和量化器，旨在优化信号处理过程。

语音分词器根据其建模原始音频的不同侧重点分为三类：

4.2.1.1. 语义理解目标 (Semantic Understanding Objective)

这类语音分词器旨在将语音波形转换为能够准确捕获语音内容和意义的词元。它们侧重于从波形中提取语义特征，以增强 ASR 等任务。一个语义理解语音分词器通常包含一个语音编码器（speech encoder）和一个量化器（quantizer）。语音编码器 $f_E(\cdot)$ 将波形中的关键信息编码为连续嵌入 $\mathbf{v}$ 。然后，量化器 $d(\cdot)$ 将这些连续嵌入离散化为离散索引。形式上，如果 $f_E(\cdot)$ 是由参数 $\theta_{f_E}$ 参数化的语音编码器，那么 $\mathbf{v} = f_E(\mathbf{a}; \theta_{f_E})$ ，其中 $\mathbf{a}$ 是输入语音波形， $\mathbf{v} = (v_1, v_2, \ldots, v_P)$ 是编码后的嵌入。由于 $\mathbf{v}$ 仍然是连续的，因此使用量化器 $d(\cdot)$ 来离散化嵌入。语音词元 $\mathbf{s} = (s_1, s_2, \ldots, s_P)$ 可以从 $\mathbf{a}$ 或 $\mathbf{v}$ 导出，因此 $\mathbf{s} = d(\mathbf{v}; \theta_d)$ 或 $\mathbf{s} = d(\mathbf{a}; \theta_d)$ 用于离散词元，而 $\mathbf{s} = \mathbf{v}$ 用于连续词元。

HuBERT [33] 是一个代表性的语义目标分词器。它使用特征编码器 $f_E$ 将原始音频波形 $\mathbf{a}$ 转换为连续嵌入 $\mathbf{v}$ ，即 $f_E(\mathbf{a}; \boldsymbol{\theta}_{f_E}) = \mathbf{v}$ 。这些嵌入随后通过 MFCC 特征的 k-means 聚类被量化为离散语音词元 $\mathbf{s}$ ，表示为 $d(\mathrm{MFCC}(\mathbf{a}); \theta_d) = \mathbf{s}$ 。模型通过掩码预测目标进行训练，旨在最大化正确词元在掩码位置的似然： $\mathcal{L}(\boldsymbol{\theta}) = \mathbb{E}_{\mathbf{a} \sim \mathcal{D}} \left[ \sum_{i \in \mathcal{M}} - \log p(s_i \mid \mathbf{v}_{\setminus \mathcal{M}}; \boldsymbol{\theta}) \right]$ 其中 $\mathcal{M}$ 表示被掩码的索引， $p(s_i \mid \mathbf{v}_{\setminus \mathcal{M}}; \boldsymbol{\theta})$ 是在给定未掩码嵌入 $\mathbf{v}_{\setminus \mathcal{M}}$ 和模型参数 $\boldsymbol{\theta}$ 的情况下，预测掩码位置 $i$ 处词元 $s_i$ 的概率。HuBERT 通过迭代方式进一步改进其语音词元，在每一步更新编码器和离散器参数： $\mathbf{s}^{(n+1)} = d(f_E(\mathbf{a}; \boldsymbol{\theta}_{f_E}^{(n)}); \boldsymbol{\theta}_d^{(n)})$ 这个迭代过程使得模型能够学习越来越有意义的语音表示。

4.2.1.2. 声学生成目标 (Acoustic Generation Objective)

这类语音分词器侧重于捕获生成高质量语音波形所需的声学特征。它们优先保留基本声学特性而非语义内容，适用于语音（重）合成任务。为了生成高质量的语音波形，声学生成语音分词器采用语音合成或语音重建目标。其架构通常包括编码器、量化器和解码器。编码器 $f_E(\cdot)$ 和量化器 $d(\cdot)$ 将原始波形转换为词元。之后，解码器 $f_D(\cdot)$ 将这些词元重建回语音波形。这个过程表示为 $\hat{\mathbf{a}} = f_D(\mathbf{s}; \boldsymbol{\theta}_{f_D})$ ，其中 $\hat{\mathbf{a}}$ 是生成的或重建的波形。

Encodec [49] 是一个代表性的声学目标分词器。它采用带有残差向量量化（RVQ）的卷积编码器-解码器架构。编码器 $f_E$ 将原始音频波形 $\mathbf{a}$ 映射到连续嵌入 $\mathbf{v}$ ，即 $\mathbf{v} = f_E(\mathbf{a}; \boldsymbol{\theta}_{f_E})$ 。这些嵌入随后使用多阶段 RVQ 进行离散化，其中每个阶段 $r$ 量化前一阶段的残差： $\mathbf{s} = d(\mathbf{v}; \boldsymbol{\theta}_d) = \left( d_1(\mathbf{v}; \boldsymbol{\theta}_{d_1}), d_2(\mathbf{v} - \hat{\mathbf{v}}_1; \boldsymbol{\theta}_{d_2}), \ldots, d_R(\mathbf{v} - \sum_{r=1}^{R-1} \hat{\mathbf{v}}_r; \boldsymbol{\theta}_{d_R}) \right)$ 其中 $\hat{\mathbf{v}}_r$ 表示在阶段 $r$ 的量化嵌入。解码器 $f_D$ 从量化词元 $\mathbf{s}$ 重建音频波形 $\hat{\mathbf{a}}$ ，即 $\hat{\mathbf{a}} = f_D(\mathbf{s}; \boldsymbol{\theta}_{f_D})$ 。这种设计使 Encodec 能够生成保留高保真音频信息的离散声学词元，适用于下游建模。

4.2.1.3. 混合目标 (Mixed Objective)

混合目标语音分词器旨在平衡语义理解和声学生成。它们的目标是结合这两种分词器的优点。目前，这类分词器的发展仍处于早期阶段。大多数现有的混合语音分词器主要采用声学生成语音分词器的架构，并侧重于将语义分词器的信息蒸馏到声学分词器中。

SpeechTokenizer [34] 是一个代表性的混合目标分词器。它结合了 HuBERT 的语义信息和残差向量量化（RVQ）机制，采用了 RVQ-GAN 架构。编码器 $f_E$ 首先将输入音频波形 $\mathbf{a}$ 转换为连续嵌入 $\mathbf{v}$ ，即 $\mathbf{v} = f_E(\mathbf{a}; \boldsymbol{\theta}_{f_E})$ 。离散化通过多阶段 RVQ 进行。离散化过程与 Encodec 类似，不同之处在于第一个 RVQ 阶段蒸馏来自 HuBERT 的词元，而后续阶段则量化残差。这种混合方法使 SpeechTokenizer 能够捕获高层语义和低层声学信息，以实现鲁棒的语音表示学习。

4.2.2. 语言模型 (Language Model)

由于 TextLMs [1], [2] 的成功，大多数 SpeechLMs 沿用了它们的架构。它们主要采用 Transformer [38] 或 decoder-only 架构（如 OPT [3], LLaMA [39]）以自回归方式生成语音。

形式上，给定词汇表大小 $|V_t|$ 和隐藏维度 $h$ ，一个典型的基于文本的 decoder-only Transformer 语言模型包含一个嵌入矩阵 $E_t \in \mathbb{R}^{|V_t| \times h}$ ，一系列 $L$ 个 Transformer decoder 块 $\mathbf{De} = \{De_1, De_2, \ldots, De_L\}$ ，以及一个输出嵌入矩阵 $E_t' \in \mathbb{R}^{h \times |V_t|}$ 。因此，语言模型（LM）可以表示为： $\mathbf{t}^{\mathrm{out}} \sim \mathrm{LM}(\mathbf{t}^{\mathrm{in}}, (E_t, \mathbf{De}, E_t'))$ 其中 $\mathbf{t}^{\mathrm{in}}$ 是输入文本词元序列， $\mathbf{t}^{\mathrm{out}}$ 是输出文本词元序列。

为了使语言模型能够生成语音，原始的文本分词器被替换为上述的语音分词器。当使用离散词元时， $E_t \in \mathbb{R}^{|V_t| \times h}$ 被替换为语音嵌入矩阵 $E_s \in \mathbb{R}^{|V_s| \times h}$ ，其中 $|V_s|$ 表示语音分词器的词汇表大小。输出嵌入矩阵也从 $E_t' \in \mathbb{R}^{h \times |V_t|}$ 变为 $E_s' \in \mathbb{R}^{h \times |V_s|}$ 。因此，SpeechLM 中的语言模型表示为： $\mathbf{s}^{\mathrm{out}} \sim \mathrm{LM}(\mathbf{s}^{\mathrm{in}}, (E_s, \mathbf{De}, E_s'))$ 其中 $\mathbf{s}^{\mathrm{in}}$ 是输入语音词元序列， $\mathbf{s}^{\mathrm{out}}$ 是输出语音词元序列。

由于 SpeechLMs 的语言模型架构借鉴自 TextLMs，因此它自然能够联合建模文本和语音模态 [5], [8]。实现这一目标的一个直接且最常用的方法是扩展原始 TextLM 的词汇表，以同时包含文本和语音词元。具体来说，语音嵌入矩阵通常附加到文本嵌入矩阵的末尾，形成一个更大的嵌入矩阵 $E_m \in \mathbb{R}^{(|V_t| + |V_s|) \times h}$ 。令 $\mathbf{m}$ 是一个包含语音和文本词元的序列，由此产生的语言模型变为： $\mathbf{m}^{\mathrm{out}} \sim \mathrm{LM}(\mathbf{m}^{\mathrm{in}}, (E_m, \mathbf{De}, E_m'))$ 通过这种方式，模型可以在单个序列中生成文本和语音，从而实现更多样化的应用。相反，当使用连续词元建模时，从语音分词器派生出的嵌入会直接馈送到语言模型中。在这种情况下，语言模型的架构保持不变。

4.2.3. 词元到语音合成器 (Token-to-Speech Synthesizer, Vocoder)

在语言模型组件自回归生成词元后，词元到语音模块，通常称为声码器，用于将所有语音词元合成回语音波形。这个过程涉及将生成的语音词元所代表的语言学和语用学信息转换为可听的音频波形。这可以看作是语音分词器的逆过程，因此可以表示为： $\mathbf{a} = Vo(\mathbf{s}; \theta_{Vo})$ 其中 Vo 是由 $\theta_{Vo}$ 参数化的声码器模型。

SpeechLM 声码器的管道可以根据底层声码器模型而变化。主要有两种管道：直接合成（Direct synthesis）和 输入增强合成（input-enhanced synthesis）。

直接合成： 声码器直接将语言模型生成的语音词元转换为音频波形。例如，Polyak et al. [48] 改进了 HiFi-GAN [47] 架构，并以语音词元作为输入。
输入增强合成： 采用额外的模块将词元转换为连续的潜在表示，然后再将其馈送到声码器中 [121], [122]。使用这种管道的主要原因是声码器通常需要中间音频表示，例如 mel-spectrograms [47], [80], [123]，作为输入。例如，CosyVoice [88] 引入了一个 Conditional FlowMatching (CFM) 模型将语音词元转换为 mel-spectrogram，然后利用 HiFi-GAN 合成最终波形。

在比较这两种管道时，直接合成通常比输入增强合成更简单、更快。然而，管道的选择取决于作为输入的词元类型。来自声学生成分词器的词元包含足够的声学信息，适用于直接合成。相反，来自语义理解分词器的词元提供了丰富的语义信息，但缺乏精细的声学细节，尤其是在高频部分。因此，这些词元最好在合成最终语音之前增强为富含声学的表示，例如 mel-spectrograms。

下表（原文 Table II）总结了各种 SpeechLM 论文中三种组件的流行选择。

Approach	Speech Tokenizer	Language Model	Vocoder
Kimi-Audio [78]	Whisper Encoder [12] + Linear Projector	Qwen2.5 [79]	BigVGAN [80]
Qwen2.5-Omni [81]	Whisper	Qwen2.5	Talker + Codec Decoder [81]
Minmo o [82]	SenseVoice [83]	Qwen2.5	CosyVoice 2 [84]
Lyra [85]	Whisper [12]	Qwen2-VL [86]	HuBERT + HiFi-GAN
Flow-Omni [87]	Whisper Encoder + Linear Projector	Qwen2 [41]	Flow Matching (Transformer + MLP) + HiFi-GAN
SLAM-Omni [54]	Whisper Encoder + Linear Projector	Qwen2 [41]
OmniFlatten [53]	CosyVoice Encoder [88]	Qwen2	CosyVoice Decoder [88]
SyncLLM [89]	BET [33]	LaA- [2]	HiFi-GAN [47], [48]
EMOVA [90]	S SIL [91]	LaMA-3	VITS [92]
Freeze-Omni [67] IntrinsicVoice [94]	Transformer [38]	Qwen2	TiCodec [93]
Mini-Omni2 [66]	HuBERT	Qwen2	HiFi-GAN
SALMONN-omni [71]	Whisper	Qwen2	Mini-Omni [10]
Zeng et al. [97]	Mamba Streaming Encoder [95] Whisper + VQ	GLM [42]	VoiceCraft [96] + Codec Decoder
NTPP [69]	VQ-VAE	LLaMA-3, Mistral, Gemma 2	CosyVoice HiFi-GAN
GPST [98]	EnCodec [49]	Transformer	Codec Decoder
GLM-4-Voice [55]	Whisper + VQ [9]	GLM-4-9B-Base [42]	CosyVoice
Moshi [9]	Mimi [9]	Transformer*	Mimi
VITA [70]	CNN + Transformer + MLP [70]	Mixtral [43]	Text-to-Speech Toolkit [70]
LSLM [65]	vq-wav2vec [31]	Decoder-Only Transformer
SPIRIT-LM [5]	HuBERT, VQ-VAE [77], speechprop	LLaMA-2 [40]	UniVATS [99] HiFi-GAN
TWIST [51]	HuBERT	OPT [3], LLaMA [39]
PSLM [100]	HuBERT		HiFi-GAN
VOXTLM [102]	HuBERT	NekoMata [101]	HiFi-GAN
Voicebox [103]	EnCodec	OPT [3] Transformer* [38]	HiFi-GAN
Park et al. [104]	AV-HuBERT [105]	OPT	HiFi-GAN HiFi-GAN
USDM [106]	XLS-R [107]	Mistral	Voicebox [108]
VioLA [57]	EnCodec	Transformer*	Codec Decoder [49]
FunAudioLLM [83]	SAN-M [109]	Transformer*	HiFTNet[110]
SpeechGPT-Gen [60]	SpeechTokenizer [34]	LLaMA-2	SpeechTokenizer decoder [34]
COT [?]	SpeechTokenizer	LLaMA-2	SoundStorm
AnyGPT [111]	SpeechTokenizer	LLaMA-2	SoundStorm
LauraGPT [63]	onformer*	Qwen [112]	Transformer + Codec Decoder
Spectron [61]	Conformer*	PaLM 2* [113]	WaveFit [114]
AudioLM [115]	w2v-BErT [32]	Decoder-Only Transformer*	SoundStream* [35]
UniAudio [116]	EnCodec, Hifi-codec [117],	Transformer*	Codec Decoder
Llama-Omni [11]	RVQGAN [118] Whisper	LLaMA-3.1	HiFi-GAN
Mini-Omni [10]	Whisper + ASR Adapter [10]	Qwen2	TTS Adapter [10]
tGSLM [62]	Segmentation + SSE [119] + Lexical embedder	Transformer*	Tacotron-2 + Waveglow [45], [46]
SpeechGPT [8]	HuBERT	LLaMA	HiFi-GAN
dGSLM [4]	HuBERT	Dialogue Transformer [4]	HiFi-GAN
SUTLM [64]]	HuBERT	Transformer*
pGSLM [56]	HuBERT	MS-TLM [56]	HiFi-GAN
G GSLM [50]	HuBERT, CPC [29], Wav2vec 2.0 [30]	Transformer*	Tacotron-2 + Waveglow

声码器可以根据其架构选择进行分类。

4.2.3.1. 基于 GAN 的声码器 (GAN-based Vocoder)

生成对抗网络（GAN）是最常用于声码器的架构 [47], [48], [80], [123], [124]。它以其在语音合成任务中快速和高保真生成而闻名。GAN 的架构包括一个生成器（Generator）和一个判别器（Discriminator）。具体来说，生成器从随机噪声或输入特征创建逼真的音频波形，而判别器则评估生成音频相对于真实音频样本的真实性。

为了利用 GAN 合成高保真语音，设计了各种训练目标，侧重于不同的方面。

GAN 损失 (GAN loss)： 作为生成器和判别器操作的基本目标。生成器 (G) 和判别器 (D) 的典型 GAN 损失是使用最小二乘损失函数。生成器 (G) 的 GAN 损失 $\mathcal{L}_{\mathrm{GAN}}(G;D)$ 为： $\mathcal{L}_{\mathrm{GAN}}(G;D) = \mathbb{E}_{ms} \left[ \left( D(G(ms)) - 1 \right)^2 \right]$ 判别器 (D) 的 GAN 损失 $\mathcal{L}_{\mathrm{GAN}}(D;G)$ 为： $\mathcal{L}_{\mathrm{GAN}}(D;G) = \mathbb{E}_{(x, ms)} \left[ \left( D(x) - 1 \right)^2 + \left( D(G(ms)) \right)^2 \right]$ 在这些损失函数中， $x$ 代表真实音频波形，ms 代表其 mel-spectrogram。G(ms) 是生成器从 mel-spectrogram ms 合成的音频波形，D(x) 和 D(G(ms)) 分别是判别器对真实音频和生成音频的输出（通常表示真实性评分）。
Mel-spectrogram 损失 (Mel-spectrogram loss)： 大多数基于 GAN 的声码器从 mel-spectrograms 合成语音波形，因此提出了 mel-spectrogram 损失以对齐生成器合成的 mel-spectrogram 和从真实波形转换得到的 mel-spectrogram，从而提高生成语音的保真度。Mel-spectrogram 损失 $( \mathcal{L}_{\mathrm{Mel}}(G) )$ 通过最小化上述两种 mel-spectrograms 之间 L1 距离来工作。其公式如下： $\mathcal{L}_{\mathrm{Mel}}(G) = \mathbb{E}_{(x, ms)} \left[ \| \phi(x) - \phi(G(ms)) \|_1 \right]$ 其中 $\phi(\cdot)$ 是将波形转换为对应 mel-spectrogram 的函数。 $\phi(x)$ 是真实音频 $x$ 的 mel-spectrogram， $\phi(G(ms))$ 是生成器 $G$ 从 ms 合成音频后，再转换为 mel-spectrogram 的结果。
特征匹配损失 (Feature matching loss)： 为了进一步增强生成保真度，提出了特征匹配损失 $( \mathcal{L}_{FM}(G;D) )$ ，通过 L1 距离对齐真实样本和生成样本的判别器编码特征，其公式如下： $\mathcal{L}_{FM}(G;D) = \mathbb{E}_{(x, ms)} \left[ \sum_{i=1}^T \frac{1}{N_i} \left. D^i(x) - D^i(G(ms)) \right|_1 \right]$ 其中 $D^i(\cdot)$ 和 $N_i$ 分别表示判别器第 $i$ 层中的特征和特征数量。

HiFi-GAN [47] 是 SpeechLMs 中最常用的声码器之一。它使用生成器-判别器框架从 mel-spectrograms 或语音词元合成高保真音频波形。生成器 $G(\mathbf{s}; \theta_G)$ 将语音词元序列 $\mathbf{s}$ 映射到输出音频波形 $\mathbf{a}$ ，即： $\mathbf{a} = Vo(\mathbf{s}; \theta_{Vo}) = G(\mathbf{s}; \theta_G)$ 其中 Vo 表示声码器函数， $\theta_{Vo} = \theta_G$ 是其参数。HiFi-GAN 采用多周期和多尺度判别器 $D_{MPD}(\mathbf{a}; \theta_{MPD})$ 和 $D_{MSD}(\mathbf{a}; \theta_{MSD})$ ，在对抗训练期间区分真实音频和生成音频。在推理时，仅使用生成器 $G$ 来高效重建语音波形。

4.2.3.2. 基于 GAN 的神经音频编解码器 (GAN-based Neural Audio Codec)

考虑到许多神经音频编解码器采用 GAN 架构，它们也可以在基于 GAN 的声码器背景下进行讨论。与语音分词器不同，编解码器中的解码器被用作声码器 [35], [49]。Polyak et al. [48] 利用 HiFi-GAN [47] 作为声码器骨干，并提出将声码器的输入特征解耦为不同的属性 [48]，包括语义词元、音高词元和说话人嵌入。这种设计选择使编解码器在音高和说话人相关任务（如变声和 $F_0$ 操纵）上表现更好。

4.2.3.3. 其他类型的声码器 (Other Types of Vocoder)

虽然在 SpeechLMs 中常用的声码器主要集中在基于 GAN 的模型，但还有其他类型的声码器值得一提，尽管它们在 SpeechLMs 中较少被探索。

纯信号处理声码器 (Pure Signal Processing Vocoder)： 传统的语音合成方法，依赖于确定性算法而非深度学习模型 [125], [126]。这类声码器在合成音频中会引入明显的伪影，因此很少使用。
自回归声码器 (Autoregressive Vocoder)： 逐个样本生成音频波形，每个样本都以前面生成的样本为条件 [44]。这种方法由于其顺序性质和捕捉音频信号内复杂时间依赖关系的能力，可以实现高质量的音频合成。然而，顺序生成过程可能计算成本高昂且耗时，使得自回归模型不如 GAN 声码器等并行化方法高效。
流式声码器 (Flow-based Vocoder)： 旨在建立一系列可逆变换，将简单分布（如高斯分布）映射到音频样本的复杂分布。这种机制允许高效采样和密度评估，使模型能够并行而非顺序地合成音频，从而显著提高速度和质量 [46]。与 GAN 声码器相比，流式声码器通常需要更多的参数和内存来训练模型，这阻碍了它们的有效利用 [123]。
基于 VAE 的声码器 (VAE-based Vocoders)： 变分自编码器（VAEs）是强大的生成模型，它们学习将输入数据编码到压缩的潜在空间中，同时允许重建原始数据 [77], [127]。然而，VAE 很少被探索作为声码器的底层架构。
扩散模型声码器 (Diffusion-based Vocoder)： 扩散模型在近年来作为一种强大的生成模型出现，可用于高保真语音合成。它们通过逐步向输入数据（如音频波形）添加噪声来创建一系列越来越嘈杂的表示，然后学习逆转这个过程以生成新样本 [128] [130]。例如，DiffWave [128] 使用去噪扩散概率模型（DDPM）来合成音频。

4.3. 训练方法 (Training Recipes)

训练 SpeechLM 涉及训练三个主要组件：语音分词器、语言模型和声码器。类似于 TextLMs，训练 SpeechLMs 的关键在于有效地建模语音的延续性，这主要是语言模型的职责。语音分词器和声码器通常依赖于既定方法，并使用特定于每个 SpeechLM 方法的独立训练数据集进行训练。

4.3.1. 建模特征 (Features Modeled)

Features Modeled 指的是语音分词器输出并由语言模型组件建模的特征类型。这些特征在决定 SpeechLMs 的能力和性能方面起着关键作用。根据最新的发展，我们可以将 SpeechLMs 建模的特征分为两种主要类型：离散特征和连续特征。

4.3.1.1. 离散特征 (Discrete Features)

离散特征（或离散词元）是指语音信号的量化表示，可以表示为独特、可计数的单元或词元。这些特征通常通过各种编码和量化过程从语音信号中提取，从而产生一组有限的可能值。离散特征是 SpeechLMs 最常使用的特征，因为它们可以表示为词元，并与 TextLM 中的文本词元以完全相同的方式进行建模。

语义词元 (Semantic Tokens)： 大多数 SpeechLMs 仅使用语义词元（由语义理解分词器生成，见 Section III-A1）来表示语音，因为语义信息在口语交流中扮演着最关键的角色。GSLM [50] 比较了三种分词器，包括 Contrastive Predictive Coding (CPC) [29]、wav2vec 2.0 [30] 和 HuBERT [33]。它得出结论，HuBERT 在语音重合成和语音生成等各种任务上表现最佳。大量工作沿用了这一设置，并使用 HuBERT 作为语音分词器 [5], [8], [51]。AudioPaLM [52] 实验了 w2v-bert [32]、USM-v1 [36] 和 USM-v2 [52]（USMv1 的修改版本）的选择，并得出结论 USM-v2 在 ASR 和语音翻译（ST）任务上表现最佳。尽管语义词元在生成语义有意义的语音方面表现出色，因为它们建模了语音波形中的上下文信息，但研究人员发现，仅基于语义词元生成的语音缺乏表现力信息，如韵律和不同的音高或音色 [5], [147]。为了克服这一限制，可以将语用词元（paralinguistic tokens）整合到建模过程中，以捕捉语音中的表现力信息。pGSLM [56] 提出使用基频（F0）和单位持续时间作为韵律特征来补充 HuBERT 语义词元，并训练一个多流 Transformer 语言模型分别预测语义词元、音高（F0）和单位持续时间。类似地，SPIRIT-LM [5] 用音高和风格词元 [148] 补充 HuBERT 语义词元。这种额外声学词元的整合使 SpeechLMs 能够更有效地捕捉表现力元素，而不会显著损害语义理解 [5]。
声学词元 (Acoustic Tokens)： 另一种类型是声学词元，它们旨在捕获重建高保真语音所需的基本声学特征，主要通过神经音频编解码器模型（见 Section III-A2）获得。一些研究直接在语言模型中建模编解码器词元，这通常被称为编解码器语言模型（CodecLMs）。例如，Viola [57] 训练了一个 CodecLM，能够执行 ASR、TTS 和机器翻译。NTPP [69] 在 VQ-VAE [77] 词元上进行训练，用于建模双通道口语对话数据。

讨论： 不同类型的词元以不同的方式影响 SpeechLMs 的语音质量，通常导致权衡 [115]。例如，虽然语义词元与文本对齐良好，并在生成语义连贯的语音方面表现出色，但生成的语音通常缺乏声学细节，如高频信息。恢复和增强这些细节通常需要后处理，如扩散模型，这会显著增加模型的延迟。相反，声学词元可以促进高保真音频的生成，但通常在内容生成方面存在不准确性 [34]。研究人员尝试了两种方法来平衡这些权衡。第一种是将语义词元和声学词元组合成一个序列。AudioLM [115] 提出了一种分层建模方案，首先从 w2v-bert [32] 建模语义词元，然后使用这些词元预测来自 SoundStream [35] 的声学词元，最终生成语音。然而，这种方法增加了序列长度，从而增加了建模复杂性。第二种策略是利用混合词元（见 Section III-A3）联合建模语义和声学信息，这在 Moshi [9] 和 SpeechGPT-Gen [60] 中显示出有前景的结果。

4.3.1.2. 连续特征 (Continuous Features)

连续特征（或连续词元）与离散特征相反，是语音信号的未量化、实值表示，存在于连续尺度上。连续特征可以包括像 mel-spectrograms 这样的频谱表示，或者从神经网络中提取的潜在表示。Spectron [61] 通过逐帧预测声谱图来执行语音延续。Mini-Omni [10] 和 SLAM-Omni [54] 从冻结的 Whisper 编码器中提取中间表示作为 SpeechLM 的输入，而 LauraGPT [63] 则采用与语言模型一同训练的音频编码器从输入语音中推导出潜在表示。连续特征可以捕捉语音中离散化过程中可能丢失的细粒度、细微的方面。然而，利用这些特征通常需要修改语言模型的现成训练管道，因为传统的基于文本的模型是为处理离散单元而构建的。此外，与离散特征相比，连续特征需要更大的存储容量。

4.3.2. 训练阶段 (Training Stages)

训练 SpeechLM 涉及训练三个主要组件：语音分词器、语言模型和声码器。类似于 TextLMs，训练 SpeechLMs 的关键在于有效地建模语音的延续性，这主要是语言模型的职责。语音分词器和声码器通常依赖于既定方法，并使用特定于每个 SpeechLM 方法的独立训练数据集进行训练。因此，本节回顾了用于训练语言模型组件的主要技术。遵循 TextLMs，我们将 SpeechLMs 的训练过程分为三个阶段：预训练（pre-training）、指令微调（instruction-tuning）和后对齐（post-alignment）。

4.3.2.1. 语言模型预训练 (Language Model Pre-Training)

SpeechLMs 中语言模型的预训练是一个关键阶段，它显著影响模型生成连贯且上下文相关语音的能力。此阶段通常涉及在大量语音词元语料库上训练语言模型以自回归方式预测下一个词元。此阶段的主要目标是学习语音数据中固有的统计模式和依赖关系，使模型能够根据先行上下文预测序列中的下一个词元。

训练数据： SpeechLMs 预训练主要利用大规模开源语音数据。常用的数据集包括 ASR [131], [133]-[135]、TTS [140]、ST [135], [142]、播客 [145] 和对话 [146] 的数据集。Table III 包含了预训练阶段常用的数据集。一些数据集仅包含语音数据，而另一些则包含语音和相应的文本转录。包含文本转录可以增强模型的表示能力，使其能够学习口语和书面形式之间的关系。

冷启动初始化 (Cold Initialization)： 一些 SpeechLMs 在预训练阶段使用冷启动初始化，其中模型参数是随机初始化的。开创性的 SpeechLM —— GSLM [50] —— 从头开始训练一个 Transformer [38] 作为语言模型。这项研究证明了 SpeechLM 管道的有效性，并比较了各种语音分词器选项的性能。他们发现 HuBERT [33] 在理解语音内容和生成自然语音方面优于 CPC [29] 和 wav2vec 2.0 [30]。SUTLM [64] 也使用 Transformer 作为语言模型。他们研究了通过比较四种不同的建模方法来联合建模语音和文本词元的关键问题：仅语音（speech-only）、仅文本（text-only）、拼接语音-文本（concatenated speech-text）和交错语音-文本（alternating (interleaving) speech-text）。他们表明交错语音-文本的设置在跨模态评估中表现最佳。Table IV 说明了这四种建模方法。

下表（原文 Table IV）展示了四种不同的语音和文本词元建模方法：

Modeling Method	Example	Explanation
Speech-only	[SPEECH] S12 S34 S33 . S11 S59	Only the speech sequence is provided.
Text-only	[TEXT] A quick brown fox jumps over a lazy dog.	Only the text sequence is provided.
Concatenated speech-text	[SPEECH] S12 S34 S33 ... S11 S59 [TEXT] A quick brown fox jumps over a lazy dog.	The speech sequence and text sequence are concate- nated together.
Alternating speech-text	[SPEECH] S12 S34 S33 [TEXT] brown fox jumps over a lazy [SPEECH] S11 S59	The sequence is interleaved with speech and text tokens.

一些工作采用了与标准 Transformer 不同的架构。当架构与标准 Transformer 或 TextLM 偏差过大时，这些模型通常从头开始训练。例如，pGSLM [56] 提出了一个多流 Transformer 语言模型（MS-TLM），该模型接受多个输入流并预测多个输出流，以同时生成语音单元、持续时间和音高嵌入。dGSLM [4] 引入了一个对话 Transformer 语言模型（DLM），用于联合建模两个说话人的对话语音数据。为了使 SpeechLMs 在说话时具备听觉能力，LSLM [65] 提出将一个流式自监督学习（SSL）编码器连接到一个自回归基于词元的 TTS 模型。

持续预训练 (Continued Pre-Training)： 与冷启动初始化不同，持续预训练涉及使用 TextLM 的预训练权重初始化语言模型，然后使其适应处理语音词元。这种方法利用了 TextLM 中嵌入的语言知识，从而实现更高效和有效的 SpeechLM 训练。Hassid et al. [51] 发现，从文本预训练语言模型（OPT [3] 和 LLaMA [39]）开始训练可以提高模型的收敛速度，并显著改善其语音理解能力。他们还表明，虽然从文本预训练检查点训练优于冷启动初始化，但从图像预训练检查点训练的结果比冷启动初始化更差。这表明并非所有预训练检查点都同样有效。此外，AudioPaLM [52] 使用 PaLM 和 PaLM-2 [149], [150] 训练 SpeechLM，表明 SpeechLM 受益于预训练检查点规模的增加和更大的训练数据集。

SpeechLMs 的性能可以通过对齐文本和语音模态表示进一步增强。一些工作在一个序列中对齐文本和语音表示。SPIRIT-LM [5] 发现，使用交错的文本和语音词元对 TextLM 检查点进行持续预训练可以显著提升模型在语音理解和生成方面的性能。此外，他们的可视化结果表明，使用交错词元序列训练的模型中，文本和语音特征之间的相似性明显高于未使用此方法的模型。Spectron [61] 通过联合监督多个目标来解决文本-语音表示对齐问题。具体来说，首先将输入语音提示转录为文本词元，然后模型预测文本词元响应。最后，将文本响应合成为输出语音。SpeechGPT [8] 也采用了这一概念，但将其应用于指令微调阶段。其他一些方法执行多序列表示对齐。这种方法同时生成文本序列和语音序列。例如，Llama-Omni 使用 LLM 输出的隐藏状态同时解码文本词元并生成离散语音词元。Mini-Omni [10] 并行生成一个文本词元序列和七个声学词元序列，所有这些都在句子级别对齐。类似地，Moshi [9] 并行生成一个文本词元序列、一个语义词元序列和七个声学词元序列，这些都在单词级别对齐。

讨论： 对齐文本和语音表示的主要目标是利用基于文本模型的优势来增强基于语音的模型。研究人员发现，训练 SpeechLM 比训练 TextLM 困难得多。这种困难在于文本是知识的浓缩形式，而语音则要求模型独立学习口语规则。对齐文本和语音表示已显示出有效性，但涉及各种权衡。首先，文本主要传达语义信息，这可以提高 SpeechLM 的语义建模能力，但在对齐过程中可能会损害其捕捉语用特征（如语调和情感）的能力。其次，对齐模型主要有两种推理方法：文本存在（text-present）和文本独立（text-independent）。文本存在推理同时解码文本和语音，这可能会增加延迟，但增强了 SpeechLM 的推理能力 [10] 并减少了可能的幻觉 [9]。相反，文本独立推理效率更高，但可能缺乏稳定性。此外，是否结合文本模态来增强 SpeechLM 性能仍然是一个开放问题，特别是考虑到人类通常在掌握书面语言之前就获得了口语能力。

4.3.2.2. 语言模型指令微调 (Language Model Instruction-Tuning)

指令微调是指微调 SpeechLMs 以遵循特定指令来执行各种任务的过程。此阶段对于增强预训练模型的泛化能力并使其适应多样化应用至关重要。因此，重点在于创建有效的指令遵循数据集。

已经提出了几种方法来构建 SpeechLMs 的指令遵循数据集。SpeechGPT [8] 和 SpeechGPT-Gen [60] 提出了一个两阶段的指令微调过程，包括跨模态指令微调和模态链指令微调。在第一阶段，指令数据是基于 ASR 数据集生成的，通过将指令附加到配对的 ASR 数据中，要求模型将语音转换为文本。类似地，配对数据也用于创建执行 TTS 的指令数据。在第二阶段，他们通过使用 TTS 转换基于文本的指令遵循数据集来构建一个语音进语音出（speech-in-speech-out）数据集。Llama-Omni [11] 也通过合成基于文本的数据集来创建指令遵循数据，同时遵守特定约束。首先，他们将输入文本提示转换为模仿自然语音模式的格式。接下来，他们放弃原始文本响应，并使用 TextLM 生成对转换后提示的答案，确保这些响应也遵循自然语音模式。最后，他们使用 TTS 合成提示/响应对。COSMIC [68] 通过要求 GPT-3.5 根据英语 TED talk 语音的转录生成问答对来构建语音 QA 数据。他们表明，在其提出的语音 QA 数据集上训练的模型可以通过上下文学习泛化到未见过的任务，例如语音到文本翻译。

4.3.2.3. 语言模型后对齐 (Language Model Post-Alignment)

后对齐是完善语言模型行为以符合人类偏好的关键过程，确保其输出既安全又可靠。此阶段通常被视为语言模型训练的最后阶段。它通常采用人类反馈强化学习（RLHF）等技术，特别是 Proximal Policy Optimization (PPO) [151] 和 Direct Preference Optimization (DPO) [152] 等方法。

SpeechLMs 中的后对齐侧重于解决语音交互管道中固有的独特挑战。Align-SLM [153] 指出 SpeechLMs 在给定相同提示时经常生成不一致的语义内容。它通过使用 TextLM 在通过 ASR 转录后从 SpeechLMs 中选择首选响应，然后使用 DPO 对齐这些偏好来解决这个问题。另一方面，SpeechAlign [154] 专注于 SpeechLMs 的声学质量。它观察到“黄金”语音词元与语言模型生成的词元之间的差异导致生成的语音声学质量不佳，因为声码器在推理时从生成的词元合成语音。为了缓解这个问题，它采用各种优化技术来对齐语言模型的输出与“黄金”词元的分布。尽管其重要性，SpeechLMs 的后对齐仍然未被充分探索。后对齐的一个关键应用是减轻生成模型相关的安全风险。因此，未来的研究应优先识别和解决 SpeechLMs 带来的独特安全挑战（见 Section VII-D）。

4.3.3. 语音交互范式 (Speech Interaction Paradigm)

前述章节中涵盖的大多数方法遵循 SpeechLMs 的传统生成范式，即接收预定义的输入序列并生成完整的响应。然而，这种方法并未反映语音交互的自然流程。例如，在对话中，一个人可能会打断另一个人，从听转为说。此外，如果另一个人正在与他人对话，一个人可能会选择不回应。基于这些观察，我们确定了 SpeechLMs 高级语音交互技能的两个关键方面：实时交互和交互周期识别。

4.3.3.1. 实时交互 (Real-time Interaction)

SpeechLMs 的实时交互涉及对两人或多人对话数据的高级处理，可以通过几个渐进阶段来理解。

流式分词器和声码器的采用： 这是初始阶段，消除了语言模型在处理之前等待完整语音编码的需求。这种架构能够对用户查询立即做出低延迟响应，标志着传统交互范式的显著改进。然而，虽然这种流式方法支持基本的实时交互，但它不足以捕捉自然对话中观察到的更复杂的交互模式。
全双工建模 (Full-duplex modeling)： 下一个前沿是全双工建模，它允许 SpeechLMs 支持同步双向通信——特别是处理用户或模型发起的打断的能力。它主要包括两个功能：
1. 用户打断（User interruption）： 模型在对话过程中可以被用户打断，并对新指令做出适当响应。
2. 同时响应（Simultaneous response）： 模型能够同时处理输入和生成输出。实现这一点需要联合建模用户和模型的音频流。dGSLM [4] 为双人对话中的每个参与者使用单独的 Transformer，并使用交叉注意力层捕获说话人交互。然而，大多数方法依赖于单个语言模型。NTPP [69] 采用“下一个词元对预测”（next-token-pair prediction）方法，使用 decoder-only Transformer 预测两个通道的词元。Moshi [9] 将用户输入和模型响应通道数据拼接起来，使用 RQ-Transformer 一起处理数据。LSLM [65] 专注于使用 decoder-only Transformer 建模一个说话人的语音，整合流式 SSL 编码器以融合听觉和说话通道的嵌入。

4.3.3.2. 交互周期识别 (Interactive Period Recognition, IPR)

IPR 指的是识别用户是否正在与模型交互的能力。SpeechLMs 应该在交互周期内提供响应，并在非交互周期内保持沉默。IPR 对于创建自然的对话流程至关重要，允许模型避免不必要的打断。对于小群用户进行讨论的情况尤其重要，因为 SpeechLM 需要辨别何时加入以及何时保持沉默。此外，模型学习何时忽略用户未对其说话时的指令也很重要。实现 IPR 的一种方法是通过语音活动检测（Voice Activity Detection, VAD）模块。MiniCPM-o 2.6 [72] 集成了 VAD 模块，以确保模型仅在输入音频超过预定义 VAD 阈值时才响应。低于此阈值的输入被视为噪声并被忽略。VITA [70] 采取了不同的方法，通过训练 SpeechLM 区分查询语音和非查询音频。当检测到非查询音频时，模型学习输出序列结束词元以终止其响应。

5. 实验设置

本章将详细描述 SpeechLMs 研究所使用的实验设置，包括数据集、评估指标和对比基线。

5.1. 数据集

SpeechLMs 的预训练和指令微调阶段通常利用大规模、多样化的数据集。以下是论文中提到的常用数据集及其特点。

下表（原文 Table III）总结了 SpeechLMs 预训练和指令微调阶段使用的流行数据集。

Dataset	Type	Phase	Hours	Year
LibriSpeech [131]	ASR	Pre-Training	1k	2015
Multilingual LibriSpeech [132]	ASR	Pre-Training	50.5k	2020
LibriLight [133]	ASR	Pre-Training	60k	2019
People dataset [134]	ASR	Pre-Training	30k	2021
VoxPopuli [135]	ASR	Pre-Training	1.6k	2021
Gigaspeech [136]	ASR	Pre-Training	40k	2021
Common Voice [137]	ASR	Pre-Training	2.5k	2019
VCTK [138]	ASR	Pre-Training	0.3k	2017
WenetSpeech [139]	ASR	Pre-Training	22k	2022
LibriTTS [140]	TTS	Pre-Training	0.6k	2019
CoVoST2 [141]	S2TT	Pre-Training	2.8k	2020
CVSS [142]	S2ST	Pre-Training	1.9k	2022
VoxCeleb [143]	Speaker Identification	Pre-Training	0.4k	2017
VoxCeleb2 [144]	Speaker Identification	Pre-Training	2.4k	2018
Spotify Podcasts [145]	Podcast	PreTraining	47k	2020
Fisher [146]	Telephone conversation	Pre-Training	2k	2004
SpeechInstruct* [8]	Instruction-following	Instruction-Tuning		2023
InstructS2S-200K* [11]	Instruction-following	Instruction-Tuning		2024
VoiceAssistant-400K* [10]	Instruction-following	Instruction-Tuning		2024

数据集类型与特点：

ASR 数据集： 如 LibriSpeech、Multilingual LibriSpeech、LibriLight、People dataset、VoxPopuli、Gigaspeech、Common Voice、VCTK、WenetSpeech。这些数据集包含大量的语音及其对应的文本转录，用于训练模型将语音转换为文本，或学习语音的语义表示。它们在预训练阶段提供丰富的语音-文本对齐信息。
TTS 数据集： 如 LibriTTS。包含文本和对应的语音，用于训练模型从文本生成自然语音。
语音到文本翻译（S2TT）数据集： 如 CoVoST2。包含源语言语音和目标语言文本，用于训练语音翻译任务。
语音到语音翻译（S2ST）数据集： 如 CVSS。包含源语言语音和目标语言语音，用于训练直接的语音到语音翻译。
说话人识别（Speaker Identification）数据集： 如 VoxCeleb、VoxCeleb2。包含不同说话人的语音样本，用于训练模型识别说话人身份。
播客（Podcast）数据集： 如 Spotify Podcasts。提供大量的长篇口语内容，有助于模型学习更自然的对话流和语用特征。
电话对话（Telephone conversation）数据集： 如 Fisher。提供真实世界的对话数据，包含背景噪声和非标准语音。
指令遵循（Instruction-following）数据集： 如 $SpeechInstruct*$ $Sp eec h I n s t r u c t *$ 、InstructS2S-200K*、VoiceAssistant-400K*。这些数据集通常通过合成或转换现有文本数据集而来，包含指令和对应的语音/文本响应，用于指令微调阶段，使 SpeechLMs 能够理解并执行复杂指令。
- * 表示这些数据集是文本数据集通过 TTS 合成得到的语音版本。
  
  数据集选择目的： 选择这些多样化的数据集旨在为 SpeechLMs 提供多模态（语音、文本）、多任务（ASR、TTS、ST、说话人识别、指令遵循）的学习环境，使其能够捕获语音的语义和语用信息，并泛化到各种下游应用。大规模和多样化的数据是训练强大基础模型的关键。

5.2. 评估指标

评估 SpeechLMs 的方法广泛，可以分为自动（客观）评估和人工（主观）评估。

下表（原文 Table VI）总结了 SpeechLMs 评估的流行基准。

Name	Eval Type	# Tasks	Audio Type	I/O
ABX [156][158]	Representation	1	Speech	A → −
sWUGGY [158]	Linguistic	1	Speech	A → −
sBLIMP [158]	Linguistic	1	Speech	A →
sStoryCloze [51]	Linguistic	1	Speech	A/T → −
STSP [5]	Paralinguistic	1	Speech	A/T → A/T
MMAU [159]	Downstream	27	Speech, Sound, Music	A → T
Audiobench [160]	Downstream	8	Speech, Sound	A → T
AIR-Bench [161]	Downstream	20	Speech, Sound, Music	A → T
SD-Eval [162]	Downstream	4	Speech	A → T
SUPERB [163]	Downstream	10	Speech	A → T
VoxDialogue [164]	Downstream	12	Speech, Sound, Music	A → T
Dynamic-SUPERB [163]	Downstream	180	Speech, Sound, Music	A → T
SALMON [165]	Downstream	8	Speech	A → −
VoiceBench [166]	Downstream	8	Speech	A → T
VoxEval [167]	Downstream	56	Speech	A → A

5.2.1. 自动（客观）评估 (Automatic (Objective) Evaluation)

5.2.1.1. 表示评估 (Representation Evaluation)

表示评估关注模型如何有效地将语音特征编码为有意义的向量。

ABX 分数 (ABX score)： GSLM [50] 使用说话人内（within-speaker）和说话人之间（between-speaker）的 ABX 分数来衡量嵌入相似性。它量化了语音类别（phonetic categories）分离的程度。
1. 概念定义： ABX 测试通过比较三个声音样本来工作：两个来自同一类别（ $A$ ），一个来自不同类别（ $B$ ）。测试衡量系统正确识别两个来自类别 $A$ 的声音比一个来自 $A$ 的声音与一个来自 $B$ 的声音更相似的频率。低的 ABX 错误率表示更好的表示学习。
2. 数学公式： ABX 错误率通常被定义为模型未能正确识别 $A$ 与 $A$ ' 相似度高于 $A$ 与 $B$ 相似度的比例。假设 d(x,y) 是距离度量，对于每个三元组 $(A_i, A_j, B_k)$ ，如果 $d(A_i, A_j) < d(A_i, B_k)$ ，则视为正确识别。错误率是错误识别的比例。 $\text{ABX Error Rate} = \frac{\sum_{i,j,k} \mathbb{I}(d(A_i, A_j) \ge d(A_i, B_k))}{\text{Total number of triplets}}$
3. 符号解释：
  - $A_i, A_j$ : 两个来自同一语音类别（ $A$ ）的声音样本。
  - $B_k$ : 一个来自不同语音类别（ $B$ ）的声音样本。
  - d(x,y): 衡量两个声音样本 $x$ 和 $y$ 之间距离的度量（例如，欧氏距离、余弦距离的倒数）。
  - $\mathbb{I}(\cdot)$ : 指示函数，当括号内的条件为真时值为1，否则为0。
语音重合成 (Speech Resynthesis)： 将输入语音编码为词元，然后合成回语音。然后计算输入和重合成语音的 ASR 结果的词错误率（Word Error Rate, WER）或字符错误率（Character Error Rate, CER）。
1. 概念定义： WER 和 CER 用于衡量语音识别或语音合成系统转录准确性。它们量化了系统输出与参考文本之间的差异，可以评估潜在表示在离散化过程中造成的信息损失。
2. 数学公式： WER 和 CER 的计算基于编辑距离（Levenshtein distance）。 $\text{WER} = \frac{S + D + I}{N}$ $\text{CER} = \frac{S' + D' + I'}{N'}$
3. 符号解释：
  - $S$ : 替换错误的单词（或字符）数量。
  - $D$ : 删除错误的单词（或字符）数量。
  - $I$ : 插入错误的单词（或字符）数量。
  - $N$ : 参考文本中的单词（或字符）总数。
  - S', D', I', N': 对于字符错误率，含义与单词错误率类似，但操作对象是字符。

5.2.1.2. 语言学评估 (Linguistic Evaluation)

语言学评估衡量模型生成和理解单词构建、句子结构和有意义内容的规则的能力。

sWUGGY [158]： 在词汇层面评估模型区分真实词和（真实词，非真实词）对的能力。
sBLIMP [158]： 在句法层面评估模型从（语法正确，语法不正确）句子对中识别语法正确句子的能力。
Spoken StoryCloze [51]： 通过评估模型从一对结局选择中选择故事真实结局的能力来评估语义理解。所有这些评估都是通过比较模型对数据对的负对数似然（negative log-likelihood）来完成的。
1. 概念定义： 负对数似然（Negative Log-Likelihood, NLL）衡量模型预测给定序列的概率。在语言学评估中，较低的 NLL 值表示模型对正确或更自然语言结构具有更高的置信度。
2. 数学公式： 对于一个序列 $X = (x_1, \dots, x_T)$ ，其负对数似然计算为： $\text{NLL}(X) = - \sum_{t=1}^T \log P(x_t | x_1, \dots, x_{t-1})$
3. 符号解释：
  - $P(x_t | x_1, \dots, x_{t-1})$ : 在给定前 t-1 个词元的情况下，模型预测第 $t$ 个词元 $x_t$ 的概率。

5.2.1.3. 语用学评估 (Paralinguistic Evaluation)

语用学评估关注语音通信中的非语言方面。

pGSLM [56] 提出的韵律词元评估： 衡量韵律词元的正确性、一致性和表达力。
1. 正确性： 通过计算20个生成样本的韵律词元与参考韵律词元之间的最小平均绝对误差（min-MAE）来评估模型生成准确韵律配置的能力。 $\text{min-MAE} = \min_{\text{perm}} \frac{1}{N} \sum_{i=1}^N |y_i - \hat{y}_{\text{perm}(i)}|$
2. 一致性： 通过提示韵律词元均值与生成延续韵律词元均值之间的皮尔逊相关系数（Pearson correlation）来评估。 $\rho_{X,Y} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2 \sum_{i=1}^n (Y_i - \bar{Y})^2}}$
3. 表达力： 通过生成韵律词元值的标准差来衡量，期望其与真实值的变异性相匹配。 $\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2}$
SPIRIT-LM [5] 提出的语音-文本情感保留基准（Speech-Text Sentiment Preservation, STSP）： 要求模型生成一个文本或语音词元序列，以保留提示的情感。使用情感分类器评估生成语音中的情感。
1. 概念定义： 衡量模型在跨模态生成或转换时保留原始输入情感的能力。
2. 数学公式： 通常通过比较原始输入和生成输出的情感分类器得分的一致性来量化。 $\text{Sentiment Preservation Score} = \text{Accuracy}(\text{Sentiment Classifier}(Y_{\text{generated}}), \text{Sentiment}(X_{\text{input}}))$
3. 符号解释：
  - $Y_{\text{generated}}$ : 模型生成的输出（语音或文本）。
  - $X_{\text{input}}$ : 原始输入（语音或文本）。
  - $\text{Sentiment}(\cdot)$ : 原始输入的情感标签。
  - $\text{Sentiment Classifier}(\cdot)$ : 一个预训练的情感分类器。

5.2.1.4. 生成质量和多样性 (Generation Quality and Diversity)

曲线下面积（Area Under the Curve, AUC）： GSLM [50] 建议使用不同温度值下的 AUC。
1. 概念定义： AUC 通常与 perplexity（质量）和 VERT（多样性）结合使用，通过在不同采样温度下绘制 perplexity 和 VERT 曲线并计算其曲线下面积来评估生成质量与多样性之间的权衡。
2. 数学公式： 没有单一的 AUC 公式，而是特定于绘制的性能曲线。例如，AUC_perplexity 是 perplexity 曲线下的面积，AUC_VERT 是 VERT 曲线下的面积。
- Perplexity (困惑度)： 衡量语言模型预测样本的准确性。 $\text{Perplexity}(X) = 2^{H(X)} = \prod_{t=1}^T \frac{1}{P(x_t | x_1, \dots, x_{t-1})}$
  - H(X): 序列 $X$ 的交叉熵。
- VERT： 表示生成语音中重复的 $k$ $k$ -gram 的比例的几何平均值。
  1. 概念定义： 衡量生成文本（或语音词元）的多样性，较低的 VERT 值可能表示更高的新颖性。
  2. 数学公式： $\text{VERT} = \left( \prod_{k} \frac{\text{Number of repeated } k\text{-grams}}{\text{Total number of } k\text{-grams}} \right)^{1/K}$ 其中 $K$ 是考虑的 $k$ -gram 范围。
ChatGPT 分数 (ChatGPT score)： 将生成的语音通过最先进的 ASR 模型转录，然后发送给 ChatGPT 进行质量（和多样性）评估。

5.2.1.5. 实时交互评估 (Real-Time Interaction Evaluation)

评估 SpeechLMs 实时交互的能力。

dGSLM [4] 对话自然度评估： 检查两个人之间对话的自然度，通过引入不同的轮次切换事件（turn-taking events），如语音段（Inter-Pausal Unit, IPU）、语音内的停顿（pause）、语音间的停顿（gaps）和重叠语音（overlap）。
1. 概念定义： 如果这些轮次切换事件的统计数据与人类对话中发现的统计数据非常相似，则生成的语音被认为是更自然的。
2. 数学公式： 通常涉及统计分析这些事件的持续时间、频率和分布，并与人类对话数据进行比较。没有单一的公式，但例如可以计算平均 IPU 持续时间、暂停比例等。
全双工基准（Full Duplex Bench）[168] 和 Talking Turns [169]： 评估全双工 SpeechLMs 的各种轮次切换能力。

5.2.1.6. 下游评估 (Downstream Evaluation)

评估 SpeechLMs 执行特定任务的能力，如 ASR、TTS、说话人识别等。

SUPERB [155]： 包含各种语音理解任务。
SD-Eval [162]： 使用情感、年龄、环境和年龄分类任务评估 SpeechLMs 的语用理解能力。
SALMON [165]： 测试 SpeechLMs 生成具有一致语用和环境特征语音的能力。
Voicebench [166]： 评估 SpeechLM 的通用能力。
Dynamic-SUPERB [163]、MMAU [159]、AirBench [161] 和 AudioBench [160]： 超越传统语音任务，还包括声音和/或音乐相关挑战。
VoxEval [167]： 专注于基准测试 SpeechLMs 的知识理解能力，以语音格式提供综合主题的问答对，并提供针对语音输出量身定制的评估管道。

5.2.2. 人工（主观）评估 (Human (Subjective) Evaluation)

人工评估在评估 SpeechLMs 的性能方面起着关键作用，因为语音最终是为人耳设计和感知的。这种评估依赖于人类判断来评估 SpeechLMs 生成输出的质量。

5.2.2.1. 平均主观意见得分 (Mean Opinion Score, MOS)

MOS 是语音评估领域广泛使用的指标，量化了人类听众对语音输出感知质量的判断。

概念定义： 一组评估员听取 SpeechLM 生成的一系列音频样本，并根据预定义的量表（通常从1（质量差）到5（质量优秀））对每个样本进行评分。
数学公式： MOS 通过计算所有评估员对每个音频样本的评分的平均值来得出，提供一个反映人类感知整体质量的单一分数。 $\text{MOS} = \frac{1}{N} \sum_{i=1}^N R_i$
符号解释：
- $R_i$ : 第 $i$ 个评估员对音频样本的评分。
- $N$ : 评估员的总数。
  
  MOS 的变体侧重于语音质量的不同方面，包括：

MMOS (Mean Opinion Score - Naturalness)： 评估语音的自然度。
PMOS (Mean Opinion Score - Prosody)： 评估语音的韵律。
SMOS (Mean Opinion Score - Speaker Similarity)： 评估语音的音色相似度。

注意： 虽然评估自然度或音色相似度通常涉及收集人类意见，但这可能很复杂。因此，研究人员经常转向基于机器的评估。他们通常采用专门为此类任务训练的神经网络模型。例如，自然度预测模型 [170] 可以评估生成输出的自然度，而说话人识别模型可以评估音色相似度。

5.3. 对比基线

在 SpeechLMs 的研究中，主要的对比基线可以分为以下几类：

$ASR + LLM + TTS$ 管道： 这是 SpeechLMs 试图替代的传统语音交互方法。通过比较 SpeechLMs 在信息保留、延迟和错误累积方面的表现，可以突出 SpeechLMs 的优势。例如，GSLM [50] 间接与这种管道进行比较，而 SpeechGPT [8] 等模型则直接将其作为性能参考。
不同语音分词器的 SpeechLM 变体： 论文中多次提及，不同的语音分词器（如 HuBERT、Encodec、SpeechTokenizer、CPC、wav2vec 2.0、w2v-bert 等）对 SpeechLMs 的性能有显著影响。研究通常会比较使用不同分词器的 SpeechLM 变体。
不同语言模型架构的 SpeechLM 变体： 虽然 Transformer 和 decoder-only 架构是主流，但一些研究也会探索其他架构（如 MS-TLM [56]、DLM [4] 或 Mamba Streaming Encoder [95]）作为语言模型组件，并进行比较。
单模态 TextLMs： 在跨模态任务中，例如语音到文本翻译，SpeechLMs 会与纯文本 LLMs 结合 ASR 或 TTS 的方法进行比较，以展示其在理解和生成语音方面的优势。
其他特定领域的语音模型： 在特定下游任务中，例如 ASR 或 TTS，SpeechLMs 的性能会与最先进的专门 ASR 或 TTS 模型进行比较，以评估其作为通用模型的竞争力。

这些基线之所以具有代表性，是因为它们要么是 SpeechLMs 旨在改进的传统方法，要么是该领域内不同设计选择的代表，有助于全面评估 SpeechLMs 的有效性和优势。

6. 实验结果与分析

由于这是一篇综述论文，它主要总结和分析了现有 SpeechLMs 的设计选择、训练方法、能力和评估方式，而不是提出新的实验结果。因此，本节将侧重于论文中对各种 SpeechLMs 的核心发现和对比分析。

6.1. 核心结果分析

论文通过对大量 SpeechLM 文献的综合分析，揭示了以下几个核心发现：

SpeechLMs 的优势显著： 相较于传统的 $ASR + LLM + TTS$ 管道，SpeechLMs 克服了信息丢失、显著延迟和错误累积的固有局限性。通过直接处理语音词元，SpeechLMs 能够保留语音的语用信息，如音高和音色，从而生成更具表现力和细微差别的语音。其端到端集成架构也显著降低了延迟。
语音分词器的关键作用： 语音分词器（Speech Tokenizer）的选择对 SpeechLMs 的性能至关重要。
- 语义词元（Semantic tokens）： HuBERT [33] 等语义分词器在理解语音内容和生成语义连贯的语音方面表现出色，但生成的语音往往缺乏声学细节。
- 声学词元（Acoustic tokens）： Encodec [49] 等声学分词器能够生成高保真音频，但在内容准确性方面可能存在不足。
- 混合词元（Mixed objective tokens）： SpeechTokenizer [34] 和 Moshi [9] 等混合目标分词器旨在结合语义和声学信息的优点，以平衡质量和内容准确性。
- 研究表明，不同的分词器在不同任务中表现不一，例如 AudioPaLM [52] 发现 USM-v2 在 ASR 和 ST 任务上表现最佳。
语言模型架构的继承与演进： 大多数 SpeechLMs 的语言模型组件继承自 TextLMs 的 Transformer 或 decoder-only 架构。
- 文本预训练的优势： Hassid et al. [51] 发现，从文本预训练的 LLM（如 OPT, LLaMA）进行持续预训练，可以显著加速 SpeechLM 的收敛并提高其语音理解能力。
- 文本与语音的对齐： 通过交错的文本和语音词元序列进行训练，可以显著提高模型在语音理解和生成方面的性能，并增强文本和语音特征之间的相似性 [5]。
多模态能力和应用多样性： SpeechLMs 能够处理语音、文本以及语音-文本交错的多模态序列，支持广泛的下游应用，包括语义相关（口语对话、语音翻译、ASR、TTS）、说话人相关（说话人识别、验证、语音条件生成）和语用学相关（情感识别、语音分离、语用增强生成）任务。
实时交互的挑战与进展： 传统的 SpeechLMs 存在延迟问题，但流式分词器和声码器、以及全双工建模（如 dGSLM [4]、NTPP [69]、Moshi [9]）正在逐步解决这些问题，以实现更自然的实时对话。交互周期识别（IPR）能力也通过 VAD 模块或模型自身学习来实现。
评估方法的全面性需求： 鉴于 SpeechLMs 复杂的生成能力，需要多种评估方法，包括自动评估（表示、语言学、语用学、生成质量、实时交互、下游任务）和人工主观评估（MOS 及其变体），以全面衡量其性能。

6.2. 数据呈现 (表格)

论文中提供了 SpeechLM 组件选择和预训练数据集的汇总表格。

以下是原文 Table II 的结果，总结了各种 SpeechLM 论文中三种组件的流行选择：

Approach	Speech Tokenizer	Language Model	Vocoder
Kimi-Audio [78]	Whisper Encoder [12] + Linear Projector	Qwen2.5 [79]	BigVGAN [80]
Qwen2.5-Omni [81]	Whisper	Qwen2.5	Talker + Codec Decoder [81]
Minmo o [82]	SenseVoice [83]	Qwen2.5	CosyVoice 2 [84]
Lyra [85]	Whisper [12]	Qwen2-VL [86]	HuBERT + HiFi-GAN
Flow-Omni [87]	Whisper Encoder + Linear Projector	Qwen2 [41]	Flow Matching (Transformer + MLP) + HiFi-GAN
SLAM-Omni [54]	Whisper Encoder + Linear Projector	Qwen2 [41]
OmniFlatten [53]	CosyVoice Encoder [88]	Qwen2	CosyVoice Decoder [88]
SyncLLM [89]	BET [33]	LaA- [2]	HiFi-GAN [47], [48]
EMOVA [90]	S SIL [91]	LaMA-3	VITS [92]
Freeze-Omni [67] IntrinsicVoice [94]	Transformer [38]	Qwen2	TiCodec [93]
Mini-Omni2 [66]	HuBERT	Qwen2	HiFi-GAN
SALMONN-omni [71]	Whisper	Qwen2	Mini-Omni [10]
Zeng et al. [97]	Mamba Streaming Encoder [95] Whisper + VQ	GLM [42]	VoiceCraft [96] + Codec Decoder
NTPP [69]	VQ-VAE	LLaMA-3, Mistral, Gemma 2	CosyVoice HiFi-GAN
GPST [98]	EnCodec [49]	Transformer	Codec Decoder
GLM-4-Voice [55]	Whisper + VQ [9]	GLM-4-9B-Base [42]	CosyVoice
Moshi [9]	Mimi [9]	Transformer*	Mimi
VITA [70]	CNN + Transformer + MLP [70]	Mixtral [43]	Text-to-Speech Toolkit [70]
LSLM [65]	vq-wav2vec [31]	Decoder-Only Transformer
SPIRIT-LM [5]	HuBERT, VQ-VAE [77], speechprop	LLaMA-2 [40]	UniVATS [99] HiFi-GAN
TWIST [51]	HuBERT	OPT [3], LLaMA [39]
PSLM [100]	HuBERT		HiFi-GAN
VOXTLM [102]	HuBERT	NekoMata [101]	HiFi-GAN
Voicebox [103]	EnCodec	OPT [3] Transformer* [38]	HiFi-GAN
Park et al. [104]	AV-HuBERT [105]	OPT	HiFi-GAN HiFi-GAN
USDM [106]	XLS-R [107]	Mistral	Voicebox [108]
VioLA [57]	EnCodec	Transformer*	Codec Decoder [49]
FunAudioLLM [83]	SAN-M [109]	Transformer*	HiFTNet[110]
SpeechGPT-Gen [60]	SpeechTokenizer [34]	LLaMA-2	SpeechTokenizer decoder [34]
COT [?]	SpeechTokenizer	LLaMA-2	SoundStorm
AnyGPT [111]	SpeechTokenizer	LLaMA-2	SoundStorm
LauraGPT [63]	onformer*	Qwen [112]	Transformer + Codec Decoder
Spectron [61]	Conformer*	PaLM 2* [113]	WaveFit [114]
AudioLM [115]	w2v-BErT [32]	Decoder-Only Transformer*	SoundStream* [35]
UniAudio [116]	EnCodec, Hifi-codec [117],	Transformer*	Codec Decoder
Llama-Omni [11]	RVQGAN [118] Whisper	LLaMA-3.1	HiFi-GAN
Mini-Omni [10]	Whisper + ASR Adapter [10]	Qwen2	TTS Adapter [10]
tGSLM [62]	Segmentation + SSE [119] + Lexical embedder	Transformer*	Tacotron-2 + Waveglow [45], [46]
SpeechGPT [8]	HuBERT	LLaMA	HiFi-GAN
dGSLM [4]	HuBERT	Dialogue Transformer [4]	HiFi-GAN
SUTLM [64]]	HuBERT	Transformer*
pGSLM [56]	HuBERT	MS-TLM [56]	HiFi-GAN
G GSLM [50]	HuBERT, CPC [29], Wav2vec 2.0 [30]	Transformer*	Tacotron-2 + Waveglow

分析： 从 Table II 中可以看出：

语音分词器（Speech Tokenizer）的多样性：
- Whisper Encoder [12] 及其变体（如 + Linear Projector）被广泛采用，尤其是在多模态 LLM 中。这表明其在语音表示学习方面的强大能力。
- HuBERT [33] 仍然是一个非常流行的选择，尤其是在更早期的 SpeechLM 工作中，体现了其在语义理解方面的优势。
- Encodec [49] 和 SpeechTokenizer [34] 等声学或混合目标分词器也逐渐被采用，特别是在需要高保真声学重建或混合语义/声学能力的模型中。
- 一些工作探索了 VQ-VAE [77]、vq-wav2vec [31] 等其他自监督学习方法。
语言模型（Language Model）的主流：
- Qwen2 [41] 及其变体（Qwen2.5 [79], Qwen2-VL [86]）以及 LLaMA 家族（LLaMA-2 [40], LLaMA-3 [2], LLaMA-3.1 [11]）是当前 SpeechLM 语言模型组件的主流。这表明 TextLM 的强大基座能力被直接迁移到 SpeechLM 中。
- $Transformer*$ 表示使用 Transformer 架构但可能是自定义或略有修改的版本。
- 其他如 GLM [42]、Mistral [43] 也被采用。
声码器（Vocoder）的偏好：
- HiFi-GAN [47] 及其变体（如 HiFi-GAN [47], [48]）是声码器中最常见的选择，这得益于其高保真语音合成能力。
- Codec Decoder，通常来自 Encodec 或其他神经音频编解码器，也被用于将词元解码回语音。
- CosyVoice [88] 和 SoundStorm 等较新的高保真声码器也开始被集成。
- 一些模型，如 SLAM-Omni [54] 和 TWIST [51]，在表中没有明确列出声码器，可能意味着其主要关注点在语音词元的生成和语言模型本身。

6.3. 消融实验/参数分析

作为一篇综述论文，原文没有进行新的消融实验或参数分析。然而，它总结了其他研究中进行的此类分析的结果，这些结果对 SpeechLM 的发展至关重要：

语音分词器选择的影响： GSLM [50] 比较了 CPC、wav2vec 2.0 和 HuBERT 作为分词器的性能，发现 HuBERT 在语音重合成和语音生成任务中表现最佳。AudioPaLM [52] 比较了 w2v-bert、USM-v1 和 USM-v2，指出 USM-v2 在 ASR 和 ST 任务上表现最优，这表明分词器的语义捕获能力是关键。
语言模型初始化策略： Hassid et al. [51] 发现，从文本预训练的 LLM（如 OPT 和 LLaMA）进行持续预训练，比随机初始化或从图像预训练检查点初始化能显著提高 SpeechLM 的收敛速度和语音理解能力。这强调了利用现有文本知识的重要性。
模态对齐策略： SUTLM [64] 比较了四种语音和文本词元建模方法（仅语音、仅文本、拼接、交错），发现交错语音-文本（alternating speech-text）的设置在跨模态评估中表现最佳，这表明显式地对齐不同模态的序列对模型性能有益。SPIRIT-LM [5] 也证实了交错文本和语音词元预训练能显著提升模型性能并增强模态特征相似性。
语用信息整合： pGSLM [56] 通过引入基频（F0）和单位持续时间作为韵律特征来补充 HuBERT 语义词元，并训练多流 Transformer。这种消融证实了额外语用词元能有效捕捉表现力元素，而不会显著损害语义理解。

这些分析结果共同指导了 SpeechLMs 的设计和训练策略，强调了选择合适的语音表示、有效利用文本知识和精心设计模态融合机制的重要性。

7. 总结与思考

7.1. 结论总结

这篇综述论文《Recent Advances in Speech Language Models: A Survey》全面且深入地探讨了语音语言模型（SpeechLMs）这一新兴领域。论文指出，SpeechLMs 的出现旨在克服传统 $ASR + LLM + TTS$ 管道在语音交互中固有的局限性，即信息丢失、显著延迟和错误累积。

论文的核心发现和贡献在于：

端到端优势： SpeechLMs 通过将语音分词、语言建模和语音合成集成到统一的端到端架构中，能够直接处理语音的离散或连续表示，从而更有效地保留语音的语义和语用信息，并显著降低交互延迟。
组件分解与分类： 论文系统地将 SpeechLM 拆解为语音分词器、语言模型和声码器三大核心组件，并根据其目标（语义、声学、混合）对语音分词器进行了详细分类，展示了不同组件在性能和应用上的权衡。
训练范式： 论文回顾了 SpeechLMs 的训练方法，包括特征建模（离散/连续）、训练阶段（预训练、指令微调、后对齐）以及多模态（语音-文本）对齐策略，强调了文本预训练和交错模态训练的重要性。
广泛的应用能力： SpeechLMs 不仅能处理传统的语音任务，还能支持多模态、多任务场景，包括口语对话、语音翻译、情感识别、说话人相关任务以及语用增强生成，展现了其作为通用基础模型的潜力。
评估体系构建： 论文对 SpeechLMs 的评估方法进行了全面梳理，涵盖了表示、语言学、语用学、生成质量、实时交互等多个维度的自动和人工评估指标，为领域内的模型比较和发展提供了清晰的框架。

总而言之，该综述为 SpeechLMs 领域提供了一个全面的路线图，不仅总结了当前的成就，还为未来的研究指明了方向。

7.2. 局限性与未来工作

论文作者指出了当前 SpeechLMs 领域存在的局限性，并提出了几个未来研究方向：

理解不同组件选择： 尽管现有研究探索了各种语音分词器，但对语言模型和声码器等其他组件的全面、深入比较仍然不足。未来需要进行更系统的研究，以理解不同组件选择的优缺点，为 SpeechLM 的开发提供指导。
端到端训练： 许多 SpeechLM 的组件仍是分开训练的，这可能限制了模型的整体潜力。探索真正的端到端训练，允许梯度从声码器输出反向传播到分词器输入，有望生成更连贯、上下文相关和高保真的语音输出。
实时语音生成： 尽管 SpeechLMs 旨在减少延迟，但许多方法在推理时仍存在显著延迟，特别是在声码器需要等待完整输出序列生成时。未来的研究应关注开发流式管道（streamable pipeline）和模型自主生成波形（audio samples in waveform）的方法，以实现更低的延迟。
SpeechLMs 中的安全风险： 文本 LLMs 的安全问题已得到广泛研究，但 SpeechLMs 的安全风险尚未得到充分探索。这些风险包括：
- 毒性（Toxicity）： 模型可能生成语义有害内容（如制造炸药的指令）或声学上不当内容（如情色语音）。
- 隐私（Privacy）： 模型可能从语音输入中泄露个人信息，例如通过语义内容或声学特征推断说话人身份、种族或宗教信仰。未来的研究需要优先识别和解决 SpeechLMs 带来的独特安全挑战。
稀有语言的性能： SpeechLMs 直接建模语音数据，这使其比 TextLMs 更能有效地处理“低资源”语言（缺乏大量文本数据的语言）。未来的研究可以专注于在“低资源”语言或方言上训练 SpeechLMs，以扩展其能力和应用范围。

7.3. 个人启发与批判

这篇综述论文为我深入了解 SpeechLMs 领域提供了极大的帮助。

个人启发：

端到端范式的重要性： 论文清晰地阐述了从传统管道到端到端 SpeechLMs 的演进，让我深刻理解到在复杂多模态任务中，消除中间模态转换所带来的信息损失和延迟是多么关键。这种思想可以推广到其他多模态任务，如视频理解与生成，探索更直接的跨模态交互方式。
模态对齐的挑战与机遇： 文本和语音的对齐策略，特别是交错（alternating）模式，是 SpeechLMs 学习多模态能力的关键。这启发我在设计多模态模型时，不仅要考虑如何编码不同模态，更要关注如何有效地在语言模型层面融合和对齐它们，从而让模型能够进行更深层次的跨模态推理。
语用信息的价值： SpeechLMs 能够捕捉语用信息是其相对于 TextLMs 的一个重要优势。这提示我，在未来的人机交互设计中，不仅仅是语义，情感、语调、说话人风格等非语言信息对于实现自然、人性化的交互至关重要。
训练与评估的系统性： 论文对训练方法和评估指标的全面梳理，为我构建和评估 SpeechLMs 提供了一个清晰的框架。特别是对自动评估和人工评估的结合，以及对各种细致指标的讲解，对于任何从事 SpeechLM 研究的人来说都是宝贵的参考。

批判与思考：

“黑盒”问题加剧：尽管 SpeechLMs 提高了性能，但其端到端的复杂性使得模型的内部工作机制更像一个“黑盒”。如何解释 SpeechLM 的决策过程，尤其是在涉及语用信息和情感生成时，仍然是一个巨大的挑战。这对于建立用户信任和确保模型行为可控性至关重要。
数据效率与泛化性： 训练强大的 SpeechLMs 需要海量数据，这在“低资源”语言或特定领域可能难以实现。虽然论文提到了 SpeechLMs 对低资源语言的潜力，但如何在数据稀缺的情况下，有效利用预训练知识、进行数据增强或发展更数据高效的学习范式，是需要进一步深思的问题。
安全风险的复杂性： 论文强调了 SpeechLMs 独特的安全风险（毒性、隐私）。除了作者提到的内容，语音合成技术的滥用（如深度伪造 deepfake）也是一个日益严重的问题。如何开发鲁棒的检测机制、水印技术以及伦理准则，以防止 SpeechLMs 被恶意利用，将是未来研究的重中之重。
实时交互的真实性与认知负荷： 尽管实时交互是目标，但人类对话的复杂性远超简单的轮次切换。例如，模型如何在实时交互中自然地表达犹豫、思考、更正，或者在面对认知负荷过高时进行合理的延迟，而非生硬的“同时响应”，这都是需要精细设计和评估的。
组件优化与统一： 论文指出对不同组件选择的理解不足。这反映出 SpeechLM 领域仍处于探索阶段，各组件之间是否能实现更深层次的统一和共同优化，而非仅仅是接口对接，可能是未来性能突破的关键。例如，是否能有一个真正端到端的模型，无需明确的“分词器”或“声码器”阶段，直接从原始波形生成波形，同时还能保持语言模型的强大语义能力。

总的来说，这篇综述为 SpeechLMs 领域提供了一个坚实的基础，同时也清楚地揭示了未来研究的广阔前景和深远挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。