论文状态:已完成

LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models

发表:2025/10/17
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

LongCat-Audio-Codec是一种针对工业级端到端语音大语言模型的音频分词与反分词解决方案。该方案采用解耦架构和多阶段训练策略,在16.67Hz的极低帧率下,以0.43-0.87 kbps的比特率实现了高语音可懂性和高质量合成,平衡了编码效率与解码质量。

摘要

This paper presents LongCat-Audio-Codec, an audio tokenizer and detokenizer solution designed for industrial grade end-to-end speech large language models. By leveraging a decoupled model architecture and a multistage training strategy, LongCat-Audio-Codec exhibits robust semantic modeling capabilities, flexible acoustic feature extraction capabilities, and low-latency streaming synthesis capabilities. It encodes speech at an ultra-low frame rate of 16.67 Hz, with a minimum bitrate of 0.43 kbps and a maximum bitrate of 0.87 kbps. Evaluation results demonstrate that LongCat-Audio-Codec achieves strong speech intelligibility and is capable of synthesizing highquality speech at low bitrate, thus effectively balancing coding efficiency and decoding quality. The inference code and model checkpoints of LongCat-Audio-Codec are available at: https://github.com/meituan-longcat/LongCat-Audio-Codec.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Language Models (LongCat-Audio-Codec:专为语音大语言模型设计的音频分词器与反分词器解决方案)

1.2. 作者

Xiaohan Zhao, Hongyu Xiang, Shengze Ye, Song Li, Zhengkun Tian, Guanyu Chen, Ke Ding, Guanglu Wan(来自美团 LongCat 团队)。

1.3. 发表期刊/会议

发表于 ArXiv (预印本),日期为 2025 年 10 月 17 日。该研究源自工业界(美团),具有极强的工程实践导向。

1.4. 摘要

本文介绍了 LongCat-Audio-Codec,这是一个专为工业级端到端语音大语言模型(Speech LLM)设计的音频分词(Tokenizer)与反分词(Detokenizer)方案。该方案采用解耦的模型架构和多阶段训练策略,具备强大的语义建模能力、灵活的声学特征提取能力以及低延迟流式合成能力。其在 16.67 Hz 的极低帧率下工作,比特率仅为 0.43 - 0.87 kbps,在编码效率与解码质量之间取得了优异平衡。

1.5. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 语音大语言模型(Speech LLM)需要将连续的音频信号转换为离散的符号(词元 Token),以便像文本一样进行处理。然而,现有的音频编解码器(如 Encodec 或 DAC)生成的“声学词元”通常帧率较高、冗余度大,而纯“语义词元”(如来自 HuBERT 的特征)又丢失了过多的声学细节(如音色、情感)。
  • 挑战:
    1. 理解与生成的平衡: 如何在保持低词元速率(以减轻 LLM 的计算负担)的同时,保留足够的生成质量?
    2. 模态对齐: 如何使音频词元在密度上更接近文本词元,从而促进多模态学习?
    3. 工程落地: 工业级应用需要低延迟(流式传输)和高效的推理能力。
  • 创新思路: 提出一种解耦的语义-声学架构,将音频信息拆分为底层的语义层和增强的声学层,并通过“多练少用(Train-More-Use-Less)”策略提升低比特率下的性能。

2.2. 核心贡献/主要发现

  1. 分层架构: 设计了结合卷积(Convolution)与 Transformer 的编码器,分别捕捉高频声学特征和低频语义特征。

  2. 极低帧率: 实现了 16.67 Hz 的超低帧率(每秒仅 16.67 个词元),远低于传统的 50Hz 或 75Hz,显著降低了 LLM 的序列长度。

  3. AGRVQ 策略: 提出了自适应分组残差向量量化 (Adaptive Grouped Residual Vector Quantization, AGRVQ),通过大码本(Codebook)配置提升建模精度。

  4. 多阶段训练: 通过“编码器预训练 -> 解码器预训练 -> 解码器微调”的流程,支持 24kHz 高质量音频重建。


3. 预备知识与相关工作

3.1. 基础概念

  • 词元化 (Tokenization): 将连续信号(如音频波形)映射为离散整数序列的过程。在语音 LLM 中,这些序列被视为“语音文字”。
  • 向量量化 (Vector Quantization, VQ): 神经网络将连续向量映射到预定义的离散码本中距离最近的向量的过程。
  • 残差向量量化 (Residual Vector Quantization, RVQ): 为了在低比特率下减少量化误差,将信号逐级量化,每一级只处理上一级留下的残差。
  • 比特率 (Bitrate): 每秒传输的数据量。在本文中,计算公式为: R=F×N×log2(S)/1000(kbps) R = F \times N \times \log_2(S) / 1000 \quad (\text{kbps}) 其中 FF 是帧率,NN 是码本数量,SS 是码本大小(词表大小)。

3.2. 前人工作

  • Acoustic-only Codecs:EnCodecDAC,侧重于波形重建,词元密度高。
  • Semantic-distilled Codecs:SpeechTokenizerMimi,尝试将语义模型(如 HuBERT)的信息蒸馏到码本的首层。
  • Attention 机制 (补充知识): 由于本文采用了 Transformer 架构,理解其核心 Attention 至关重要。其计算公式为: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中 QQ (查询), KK (键), VV (值) 通过对输入特征进行线性变换得到。该机制允许模型在处理当前时刻音频时,自动关注序列中相关的其他时刻,从而捕捉长程上下文语义。

3.3. 差异化分析

相比于 DAC (75Hz) 或 EnCodec (75Hz),LongCat 追求极端的低帧率 (16.67Hz),这要求模型必须具备极强的语义压缩能力。此外,它不像 SpeechTokenizer 那样简单蒸馏,而是设计了独立的语义和声学路径。


4. 方法论

4.1. 方法原理

LongCat-Audio-Codec 的核心思想是分层解耦。它认为语义信息决定了“说了什么”,而声学信息决定了“怎么说的”。通过不同的模块处理这两类信息,可以灵活调整模型在不同任务(如 ASR 或 TTS)下的表现。

4.2. 核心方法详解

下图(原文 Figure 1)展示了 LongCat-Audio-Codec 的总体架构:

Figure 1: Architecture of LongCat-Audio-Codec 该图像是LongCat-Audio-Codec的架构示意图。图中展示了音频标记器和反标记器的结构,包括语义编码器和声学编码器的工作流程。音频标记器首先通过语义编码器处理音频数据,然后应用Kmeans聚类和AGRVQ,最终生成标记。反标记器通过解码器将这些标记转换为音频信号。

4.2.1. 语义标记器 (Semantic Tokenizer)

语义标记器的目标是提取鲁棒的语言特征。其结构如图 2 所示:

Figure 2: Architecture of semantic encoder 该图像是LongCat-Audio-Codec论文中的示意图,展示了语义编码器的架构,包括多个Transformer模块和各类处理组件,如卷积层和Kmeans聚类。图中箭头表示数据流动方向,层次结构强调了编码过程中的不同步骤和组件关系。

  1. 输入: 处理采样率为 16kHz 的音频,提取 Fbank 特征(10ms 步长,25ms 窗长)。
  2. 特征变换: 使用两层二维卷积 (Conv2d) 将时间分辨率从 10ms 降低到 60ms(即 16.67 Hz)。
  3. 处理: 经过 Transformer 块处理长程依赖。
  4. 量化: 使用 K-means 聚类或特定的向量量化将连续特征映射到大小为 8192 的语义码本中。

4.2.2. 声学标记器 (Acoustic Tokenizer)

声学部分旨在补充非语音细节。作者修改了 DAC 的编码器,使其帧率与语义部分同步。

  • AGRVQ (自适应分组残差向量量化): 这是量化环节的创新,结构见图 3:

    Figure 3: Architecture of AGRVQ 该图像是LongCat-Audio-Codec的编码器架构示意图。图中展示了维度减缩层和维度提升层的互联关系,以及内部码本的处理流程,最终输出到投影层后进入解码器。

    作者没有使用单一的大码本,而是采用了分组策略。例如,将两个大小为 90 的内部码本组合,形成等效于 90×90=810090 \times 90 = 8100 大小的声学码本。这种设计在保持码本容量的同时,降低了训练难度。

4.2.3. 反标记器/解码器 (Detokenizer)

解码器负责将离散词元还原为音频波形。为了支持流式应用,作者设计了因果架构

Figure 4: Architecture of detokenizer (decoder) 该图像是长猫音频解码器的架构示意图,展示了LSTM、Conv1d和Causal ConvTransposed Blocks的连接关系,强调了多层因果扩张卷积的设计。各模块通过箭头连接,形成逻辑流。

  • 组件:LSTM、卷积层和因果转置卷积 (Causal Transposed Convolution) 组成。
  • 低延迟: 设计仅需 3 帧(180ms)的未来上下文(Look-ahead),保证了实时性。
  • 输出: 支持从 16kHz 到 24kHz 的采样率提升(带宽扩展)。

4.2.4. 训练策略

作者采用了多阶段训练流程(图 5):

Figure 5: Acoustic training pipeline 该图像是示意图,展示了 LongCat-Audio-Codec 中解码器的训练流程。在图中,语义编码器输出经过 Kmeans 聚类的语义码本,声学编码器通过 AGRVQ 方法生成声学码本 1,最终输出的是解码器(24k),用于重建语音信号。

  1. 阶段 1 (Encoder Pretrain): 在 100,000 小时大规模音频数据上预训练编码器,目标是基础的音频重建。

  2. 阶段 2 (Decoder Pretrain): 冻结编码器,使用高质量音频训练解码器,重点提升音质,将输出从 16kHz 提升到 24kHz。

  3. 阶段 3 (Decoder SFT): 针对特定音色进行有监督微调(可选),提升特定说话人的相似度。


5. 实验设置

5.1. 数据集

  • 语义预训练: 使用内部分布式数据集进行 BEST-RQ 训练。
  • 声学训练: 约 100,000 小时音频,包含各种环境和说话人。
  • 下游评估:
    • AISHELL-1 (中文 ASR)
    • LibriSpeech (英文 ASR)
    • VoxCeleb1 (说话人识别)
    • AudioSet (声音事件检测 SED)
    • IEMOCAP (情绪识别 ER)

5.2. 评估指标

  1. 词错误率 (Word Error Rate, WER) (↓): 评估内容可懂度。 WER=S+D+IN \mathrm{WER} = \frac{S + D + I}{N} 其中 SS 为替换,DD 为删除,II 为插入,NN 为真值总词数。
  2. 总基频误差 (Gross Pitch Error, GPE) (↓): 评估音高还原准确度。
  3. 语音质量感知评估 (PESQ) (↑): 评价语音清晰度。
  4. 短时客观可懂度 (STOI) (↑): 衡量可懂度。
  5. 说话人嵌入余弦相似度 (SECS) (↑): 衡量音色保留度。 SECS(e1,e2)=e1e2e1e2 \mathrm{SECS}(e_1, e_2) = \frac{e_1 \cdot e_2}{\|e_1\| \|e_2\|}

5.3. 对比基线

  • 语义类: Mimi, SpeechTokenizer, X-Codec, SemantiCodec 等。

  • 声学类: EnCodec, DAC, SNAC, WavTokenizer 等。


6. 实验结果与分析

6.1. 核心结果分析

LongCat-Audio-Codec 在极低比特率下表现卓越。即使比特率不到 1kbps,其 WER 仍接近原始音频水平。

6.1.1. 语义模型性能

以下是原文 Table 1 记录的语义模型在不同层提取特征的性能:

Model ASR-ZH CER↓ ASR-EN UER↓ SID ACC↑ SED ACC↑ ER ACC↑
BEST-RQ Layer 2 10.70 23.24 0.462 0.587 0.577
BEST-RQ Layer 14 5.26 9.32 0.514 0.564 0.644
BEST-RQ Layer 22 4.03 8.13 0.259 0.545 0.634
ASR Layer 26-last 2.91 4.09 0.274 0.572 0.669

分析: 作者发现最后几层特征在 ASR 任务上表现最好,但浅层特征更能保留说话人特征 (SID)。最终选择了经过 ASR 任务微调的模型的最后一层作为语义标记器的基础。

6.1.2. 与最先进方法的对比

以下是原文 Table 5 的部分转录,展示了在不同比特率区间下的表现:

Model Bitrate (kbps) Reconstruction
WER↓ GPE↓ PESQ↑ STOI↑ SECS↑
Ground Truth (参考) - 1.16 0.00 4.50 1.000 1.000
0.85-2 kbps 区间
Mimi 1.10 2.44 1.68 2.27 0.917 0.938
LongCat (4 codebooks) 0.87 1.48 1.65 2.30 0.921 0.942
< 0.65 kbps 区间
LSCodec 0.45 3.33 - - 0.688 -
LongCat (2 codebooks) 0.43 2.10 3.69 1.47 0.839 0.862

结论: LongCat 在仅用 0.87kbps 的情况下,各项指标全面超越了 1.10kbps 的 Mimi。在极低比特率(<0.65kbps)下,其可懂度(WER)依然保持在极高水平。

6.2. “多练少用 (TMUL)” 策略分析

作者发现,训练一个拥有更多码本(如 3 个)的模型,但在推理时只取其中 1 个使用,其效果比直接训练一个只有 1 个码本的模型更好(Table 4)。这说明多码本训练有助于模型学习更紧凑、更有代表性的特征分布。

6.3. 音质改进

通过阶段 2 的训练,使用 24kHz 高质量数据微调解码器,音频质量显著提升(图 7 显示说话人相似度从 0.7 提升至 0.9 以上)。


7. 总结与思考

7.1. 结论总结

LongCat-Audio-Codec 为语音 LLM 提供了一个高性能、低开销的“前端”。

  • 高效: 16.67 Hz 的超低帧率显著减少了 LLM 需要处理的序列长度。
  • 高质量: 通过解耦架构和多阶段训练,在极低比特率下保留了良好的音色和可懂度。
  • 工程化: 完整的因果设计支持低延迟流式推理,适合即时通讯或语音助理场景。

7.2. 局限性与未来工作

  • 时长限制: 目前模型对超过 30 秒的音频处理能力受限,未来需要针对超长音频进行优化。
  • 语义模型依赖: 性能高度依赖于预训练语义模型的质量。

7.3. 个人启发与批判

  • 启发: 该研究再次证明了在语音大模型时代,帧率压缩比单纯的比特率压缩更重要。为了让 LLM 跑得快,减少 Token 数量(降低 FF)是关键。
  • 批判: 论文在 AGRVQ 部分的公式描述略显简单,虽然给出了分组的思想,但对于如何平衡不同组之间的信息分配缺乏更深入的理论探讨。此外,尽管 16.67Hz 对于语音足够,但对于包含复杂背景声或音乐的场景,这种极致的语义导向可能会导致背景声扭曲。后续版本可以考虑引入更灵活的码本分配策略来应对复杂声景。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。