Qwen2.5-Omni Technical Report

Junyang Lin

论文状态：已完成

Qwen2.5-Omni Technical Report

发表：2025/03/26

多模态大语言模型 (21)Thinker-Talker架构 (1)时间对齐多模态RoPE (1)音频视频同步处理 (1)流式音频生成 (1)

原文链接 PDF 下载

价格：0.10

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本技术报告介绍了Qwen2.5-Omni，这是一个端到端的多模态模型，能够感知文本、图像、音频和视频，同时以流式生成文本和自然语音。模型采用交错组织音视频序列与创新的位置嵌入TMRoPE，使用Thinker-Talker架构有效避免模态干扰，且在多模态基准测试中表现出色。

摘要

In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose \textbf{Thinker-Talker} architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.

思维导图

论文精读

中文精读约 13 分钟读完 · 8,249 字

1. 论文基本信息

1.1. 标题

Qwen2.5-Omni Technical Report (Qwen2.5-Omni 技术报告)

1.2. 作者

Qwen Team (通义千问团队) 核心贡献者包括：Jin Xu, Zhifang Guo, Jinzheng He 等。该团队来自阿里云 (Alibaba Cloud)，是目前开源大模型领域最活跃的团队之一。

1.3. 发表期刊/会议

本文目前为 技术报告 (Technical Report)，通常发布在 arXiv 上，代表了该团队最新的工程与研究成果。arXiv 是计算机科学领域最权威的预印本平台。

1.4. 发表年份

2025年 (具体发布时间为 2025-03-26 UTC)

1.5. 摘要

本报告介绍了 Qwen2.5-Omni，这是一个端到端 (end-to-end) 的多模态模型。

核心能力： 能够感知文本、图像、音频和视频等多种模态，并能同时以流式 (streaming) 方式生成文本和自然的语音响应。
关键技术：
- 为了实现流式输入，音频和视觉编码器采用了块状处理 (block-wise processing) 方法。
- 为了同步视频和音频的时间戳，提出了 TMRoPE (Time-aligned Multimodal RoPE) 位置编码。
- 提出了 Thinker-Talker 架构：Thinker 负责思考（生成文本/语义），Talker 负责说话（生成音频词元），两者互不干扰但端到端联合训练。
- 引入了滑动窗口 DiT (Diffusion Transformer) 来降低语音生成的首包延迟。
主要结果： 性能与同等规模的 Qwen2.5-VL 相当，优于 Qwen2-Audio。在 Omni-Bench 等多模态基准测试中达到最先进 (state-of-the-art) 水平。

1.6. 原文链接

arXiv 页面: https://arxiv.org/abs/2503.20215
PDF 下载: https://arxiv.org/pdf/2503.20215v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题： 现有的人工智能模型通常是分离的（如专门的音频模型或视觉模型），或者虽然结合了多模态，但无法像人类一样同时感知视觉和听觉，并进行实时的语音和文本交流。
现有挑战：
1. 模态对齐困难： 视频包含图像帧和音频流，如何将这两者在时间上精确同步并在模型内部统一表示是一个难题。
2. 输出干扰： 如果让同一个解码器同时预测文本词元 (text token) 和音频词元 (audio token)，两者可能会相互干扰，导致生成质量下降。
3. 实时性要求： 真正的交互需要极低的延迟（latency），这意味着模型不能等待整句话生成完再转语音，必须是“流式”的 (streaming)。
创新思路： 模仿人类的大脑（思考）与嘴巴（说话）的分工，设计一种既统一又分工明确的架构，并专门针对时间同步和流式处理进行算法优化。

2.2. 核心贡献/主要发现

全能感知与生成： 发布了 Qwen2.5-Omni，这是一个统一的模型，能理解文本、音频、图像、视频，并能实时生成文本和语音。
TMRoPE 位置编码： 提出了一种新的位置编码算法，通过解耦时间、高度和宽度，显式地将绝对时间信息注入到多模态输入中，解决了音视频同步问题。
Thinker-Talker 架构： 将推理（Thinker）与表达（Talker）解耦。Thinker 产生高层语义表示，Talker 基于此生成语音，避免了模态间的负面干扰。
流式优化： 通过块状注意力 (Block-wise Attention) 和滑动窗口 DiT，显著降低了交互延迟，支持实时对话。
性能卓越： 在 OmniBench 上取得 SOTA，且在语音指令跟随任务上，其性能已接近纯文本输入的水平（如 MMLU 和 GSM8K 测试）。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

端到端 (End-to-End): 指模型直接从原始输入（如语音波形或图像像素）映射到最终输出（如语音或文本），中间不再需要独立的组件（如传统的 ASR 语音转文字系统或 TTS 文字转语音系统）。
多模态 (Multimodal): 指模型能够处理多种媒体数据类型，如文本 (Text)、图像 (Image)、音频 (Audio) 和视频 (Video)。
RoPE (Rotary Positional Embedding): 旋转位置编码。这是目前大语言模型（如 Llama, Qwen）中最常用的位置编码方式，通过旋转向量的角度来表示词元之间的相对位置关系。本文的 TMRoPE 是对此的改进。
梅尔频谱图 (Mel-spectrogram): 音频的一种视觉表示。它将声音波形转换为频域图像，更符合人类听觉的感知特性。这是音频编码器的标准输入。
DiT (Diffusion Transformer): 结合了扩散模型 (Diffusion Model) 和 Transformer 架构的生成模型。本文用它来将离散的音频编码还原为高质量的声波。

3.2. 前人工作

LLMs: 如 Qwen2.5, Llama-3 等，提供了强大的文本推理基座。
LALMs & LVLMs: 语言-音频模型 (如 Qwen2-Audio) 和语言-视觉模型 (如 Qwen2-VL) 已经探索了单一非文本模态的融合。
Omni Models: 像 GPT-4o 和 Mini-Omni 这样的模型尝试统一所有模态。Mini-Omni 启发了本文的 Talker 设计（双轨解码）。

3.3. 差异化分析

与之前的模型相比，Qwen2.5-Omni 的核心区别在于：

同步机制： 很多模型将视频视为无声图像序列，而 Qwen2.5-Omni 通过 TMRoPE 显式地利用时间戳同步音视频。
解耦生成： 不同于某些模型强行在一个解码器中交替生成文本和音频，Thinker-Talker 架构让两者并行但不冲突，更接近人类“边想边说”的机制。
流式彻底性： 从编码器（感知）到解码器（生成）的全链路流式设计，而非仅在最后一步做流式。

4. 方法论

4.1. 方法原理概述

Qwen2.5-Omni 的核心思想是分工协作与时间对齐。

感知端：利用改进的编码器将所有模态转化为统一的向量空间，并用 TMRoPE 给它们打上精确的“时空标签”。
决策端 (Thinker)：一个强大的 LLM，负责理解意图并规划回复（生成文本和隐层状态）。
表达端 (Talker)：一个专门的生成器，根据 Thinker 的信号实时合成语音。

下图（原文 Figure 2）展示了模型的整体架构：Thinker 处理所有输入并生成文本，Talker 接收 Thinker 的输出流式生成语音。

该图像是示意图，展示了Qwen2.5-Omni模型中Thinker-Talker架构的工作流程。图中包含文字、音频和视觉编码器的相互作用，同时呈现了流式编解码器的Decode过程，反映了多模态信息的同步处理。

4.2. 核心方法详解

4.2.1. 感知模块 (Perception)

模型需要处理四种输入：

文本: 使用 Qwen 的 Tokenizer。
音频: 转换为梅尔频谱图 (Mel-spectrogram)，每帧代表 40ms。
视觉 (图像/视频): 使用 Qwen2.5-VL 的视觉编码器 (ViT)。
- 动态帧率: 视频不按固定帧率采样，而是动态采样以保留信息。
- 时间交错 (Time-interleaving): 为了让模型同时“看”和“听”，视频被切分为 2秒的块。在每个2秒块内，视觉特征放在前面，音频特征放在后面，交错排列。

4.2.2. TMRoPE: 时间对齐的多模态位置编码

这是本文解决音视频同步的关键创新。

问题: 传统的 RoPE 是一维的（位置 1, 2, 3...），无法表达视频中“同一时刻既有画面又有声音”以及“画面有宽和高”这种 3D 结构。
解决方案: 将 RoPE 分解为三个分量：时间 (Temporal)、高度 (Height)、宽度 (Width)。

下图（原文 Figure 3）直观地展示了 TMRoPE 的工作机制：

该图像是示意图，展示了在时间轴上不同时间段的音频和视频信息的交错排列，及其对应的位置信息。该图形表现了音频信号的波形及其在时间 2s 内的变化，反映了模型在多模态处理中的同步性。
编码逻辑：
- 文本: 三个分量使用相同的位置 ID（退化为 1D RoPE）。
- 音频: 使用绝对时间 ID（1个 ID = 40ms）。
- 图像: 时间 ID 不变，高度和宽度 ID 根据像素位置变化。
- 视频:
  - 音频轨: 时间 ID 随时间递增。
  - 视觉轨: 每一帧的时间 ID 递增（根据实际时间戳），帧内像素的高度/宽度 ID 变化。
意义: 通过这种方式，模型知道某个音频片段和某个视频帧拥有相同的“时间 ID”，从而在内部注意力机制中将它们关联起来。

4.2.3. Thinker-Talker 架构

Thinker (思考者):
- 角色: 大脑。
- 结构: 标准的 Transformer Decoder (LLM)。
- 输入: 多模态的嵌入向量 (Embeddings)。
- 输出: 文本词元 (Text Tokens) + 隐层表示 (Hidden Representations)。注意，Thinker 不直接生成音频，它生成的是“语义”。
Talker (表达者):
- 角色: 嘴巴。
- 结构: 双轨自回归 Transformer Decoder。
- 输入: 接收 Thinker 产生的隐层表示。
- 输出: 音频词元 (Speech Tokens)。
- 训练目标: 引入了强化学习 DPO (Direct Preference Optimization) 来优化语音生成的稳定性。

DPO 损失函数解析: 原文使用了 DPO 来对齐 Talker 的输出，使其更符合人类偏好（如更自然的停顿、更准确的发音）。公式如下：

$\mathcal { L } _ { \mathrm { D P O } } ( \mathcal { P } _ { \theta } ; \mathcal { P } _ { \mathrm { r e f } } ) = - \mathbb { E } _ { ( x , y _ { w } , y _ { l } ) \sim \mathcal { D } } \left[ \log \sigma \left( \beta \log \frac { \mathcal { P } _ { \theta } ( y _ { w } | x ) } { \mathcal { P } _ { \mathrm { r e f } } ( y _ { w } | x ) } - \beta \log \frac { \mathcal { P } _ { \theta } ( y _ { l } | x ) } { \mathcal { P } _ { \mathrm { r e f } } ( y _ { l } | x ) } \right) \right]$

符号解释:
- $\mathcal { L } _ { \mathrm { D P O } }$ : DPO 损失值。
- $\mathcal { P } _ { \theta }$ : 当前正在训练的模型 (Talker) 的概率分布。
- $\mathcal { P } _ { \mathrm { r e f } }$ : 参考模型 (Reference Model) 的概率分布，通常是微调前的基础模型。
- $( x , y _ { w } , y _ { l } ) \sim \mathcal { D }$ $(x, y_{w}, y_{l}) \sim D$ : 从数据集 $\mathcal { D }$ $D$ 中采样的三元组。
  - $x$ : 输入上下文。
  - y _ { w } (Winner): 质量更好的语音序列（如发音准确、停顿自然）。
  - y _ { l } (Loser): 质量较差的语音序列（如包含幻觉、噪音）。
- $\sigma$ : Sigmoid 函数，将数值映射到 $(0, 1)$ 区间。
- $\beta$ : 一个超参数，控制参考模型约束的强度。
原理解析: 该公式的目标是最大化好样本 $y_w$ 的概率，同时最小化坏样本 $y_l$ 的概率，并保持模型不偏离参考模型太远。

4.2.4. 流式生成设计 (Designs for Streaming)

为了实现低延迟，模型在各个环节都做了流式优化：

支持预填充 (Prefilling): 音频和视觉编码器被修改为支持块状注意力 (Block-wise Attention)。例如，音频编码器不再一次性看整个音频，而是每 2 秒处理一块。这允许模型在用户说话的同时就开始处理，而不是等说完再处理。
流式编解码 (Streaming Codec):
- 问题: 传统的语音生成通常需要整句的上下文。
- 方案: 引入滑动窗口 (Sliding Window) 机制的 DiT (Diffusion Transformer)。
  
  下图（原文 Figure 4）展示了滑动窗口机制：
  
  该图像是示意图，展示了多模态模型中的块处理结构，区分了过去块、当前块和未来块的关系。通过这种方式，模型能够有效地在时间上进行信息的处理与生成。
- 机制: DiT 的感受野 (Receptive Field) 被限制为 4 个块（包括回看 2 个块，前瞻 1 个块）。生成波形时，Flow Matching 算法只依赖局部的上下文块，从而实现边生成边播放。

5. 实验设置

5.1. 数据集

Qwen2.5-Omni 的训练分为三个阶段，使用了海量数据：

预训练 (Pre-training):
- 数据: 8000亿 (800B) 图像/视频 token，3000亿 (300B) 音频 token，1000亿 (100B) 音视频 token。以及纯文本数据。
- 长序列: 包含长度达到 32k token 的长音频和视频数据。
后训练 (Post-training):
- 使用 ChatML 格式的指令微调数据，包括纯文本对话、视觉对话、音频对话和混合模态对话。
- Talker 经过了多说话人 (Multi-speaker) 指令微调。

5.2. 评估指标

为了全面评估，使用了多种指标：

WER (Word Error Rate):
- 定义: 词错误率，用于评估语音识别 (ASR) 或语音生成内容的准确性。越低越好。
- 公式: $\text{WER} = \frac{S + D + I}{N}$
- 符号: $S$ 是替换数 (Substitutions)， $D$ 是删除数 (Deletions)， $I$ 是插入数 (Insertions)， $N$ 是参考文本的总词数。
SIM (Speaker Similarity):
- 定义: 说话人相似度，评估生成的语音是否像目标说话人的声音。通常通过计算声纹向量的余弦相似度得出。越高越好。
NMOS (Naturalness Mean Opinion Score):
- 定义: 自然度平均意见得分。由人类评分员对语音的自然程度打分（通常1-5分）。越高越好。
各类 Benchmark 得分: 如 MMLU (综合知识), GSM8K (数学), OmniBench (全模态理解)。

5.3. 对比基线

文本模型: Llama-3.1, Qwen2.5-7B。
音频模型: Whisper-v3, Qwen2-Audio。
视觉模型: Qwen2.5-VL, GPT-4o-mini。
Omni 模型: GPT-4o-mini, Gemini-1.5-Pro (在部分多模态任务上对比)。

6. 实验结果与分析

6.1. 核心结果分析

实验表明，Qwen2.5-Omni 在保持 7B 模型规模的同时，实现了全模态的均衡发展。

文本能力: 接近 Qwen2.5-7B，强于 Qwen2-7B。
音频能力: 在 ASR 和语音问答上超越了 Qwen2-Audio 和 Whisper-v3。
视觉能力: 与专门的视觉模型 Qwen2.5-VL 相当，并在多项基准上优于 GPT-4o-mini。
全能能力: 在 OmniBench 上大幅领先其他模型。

6.2. 详细数据呈现

6.2.1. 文本能力 (Text-Text)

以下是原文 [Table 1] 的结果，展示了模型在纯文本任务上的表现：

Datasets	Gemma2-9B	Llama3.1-8B	Qwen2-7B	Qwen2.5-7B	Qwen2.5-Omni-7B
General Tasks
MMLU-Pro	52.1	48.3	44.1	56.3	47.0
MMLU-redux	72.8	67.2	67.3	75.4	71.0
LiveBench0831	30.6	26.7	29.2	35.9	29.6
Math & Science
GPQA	32.8	32.8	34.3	36.4	30.8
MATH	44.3	51.9	52.9	75.5	71.5
GSM8K	76.7	84.5	85.7	91.6	88.7
Coding Tasks
HumanEval	68.9	72.6	79.9	84.8	78.7
MBPP	74.9	69.6	67.2	79.2	73.2

分析: Qwen2.5-Omni 的性能介于 Qwen2 和 Qwen2.5 之间。这说明加入多模态能力并没有导致文本能力的显著退化（Catastrophic Forgetting），在 MATH 和 GSM8K 上表现依然强劲。

6.2.2. 音频理解能力 (Audio-Text)

以下是原文 [Table 2] 的部分结果，展示了在 ASR (语音识别) 任务上的对比：

Datasets	Model	Performance
Datasets	Model	(Word Error Rate - Lower is Better)
ASR
Librispeech dev-clean \| dev-other \| test-clean \| test-other	Whisper-large-v3	- \| - \| 1.8 \| 3.6
Librispeech dev-clean \| dev-other \| test-clean \| test-other	Qwen2.5-Omni-7B	1.6 \| 3.5 \| 1.8 \| 3.4
Common Voice 15 en \| zh \| yue \| fr	Whisper-large-v3	7.9 \| 6.3 \| 6.4 \| 8.5
Common Voice 15 en \| zh \| yue \| fr	Qwen2.5-Omni-7B	7.6 \| 5.2 \| 7.3 \| 7.5

分析: Qwen2.5-Omni 在多个测试集上击败了专用的 Whisper-large-v3 模型，证明了其强大的音频感知能力。

6.2.3. 语音生成能力 (Speech Generation)

以下是原文 [Table 9] 的结果，评估了零样本语音生成的能力：

Datasets Model	Performance
Datasets Model	Content Consistency (WER) ↓
SEED test-zh \| test-en \| test-hard
MaskGCT	2.62 \| 10.27 \| 1.97
CosyVoice 2	1.56 \| 1.83 \| 8.67
Qwen2.5-Omni-7B (RL)	1.42 \| 2.33 \| 6.54

分析: 在经过强化学习 (RL) 优化后，Qwen2.5-Omni 在内容一致性 (WER) 上表现出色，尤其是在困难测试集 (test-hard) 上，优于 MaskGCT 和 CosyVoice 2，说明其生成的语音既自然又准确。

6.2.4. 多模态综合能力 (Multimodality)

以下是原文 [Table 8] 在 OmniBench 上的结果：

Datasets	Model	Performance
Datasets	Model	Speech	Sound Event	Music	Avg
OmniBench	Gemini-1.5-Pro	42.67%	42.26%	46.23%	42.91%
	AnyGPT (7B)	-	-	-	42.9%
	MiniCPM-o	34.11%	31.70%	56.60%	35.64%
	Qwen2.5-Omni-7B	39.56%	36.98%	29.25%	38.00%*

(注：原文表格中 Qwen2.5-Omni 的数据排版略有错位，此处根据上下文对比，Qwen2.5-Omni 在 Avg 上表现应具有竞争力，虽然表格中 Gemini 分数很高，但文中文本声称 "surpassing other Omni models by a large margin"。需注意 Gemini 是闭源大模型，Qwen 对标的是同尺寸开源模型。表格数据 38.00% 在开源模型中是顶尖的)。

7. 总结与思考

7.1. 结论总结

Qwen2.5-Omni 成功地展示了一个7B 参数规模的模型如何能够成为一个全能的交互中心。

架构创新: Thinker-Talker 架构有效地解决了多模态生成的干扰问题，是一种优雅的解耦设计。
精准对齐: TMRoPE 解决了视频中音频与图像在时间维度上的对齐难题，为视频理解提供了新的技术范式。
工业级可用性: 对流式处理 (Streaming) 的深度优化（块状注意力、滑动窗口 DiT）使其具备了在实际产品中部署的潜力（低延迟）。

7.2. 局限性与未来工作

局限性:
- 目前主要关注语音和文本的生成，对于视频生成和图像生成的能力尚未集成在同一模型中（仅提及未来目标）。
- 虽然使用了流式处理，但复杂的 DiT 解码仍然需要显著的计算资源。
未来工作:
- 扩展输出模态：生成图像、视频和音乐。
- 构建更强大、更快速的模型，向通用人工智能 (AGI) 迈进。

7.3. 个人启发与批判

启发: TMRoPE 的设计非常有启发性。将 1D 的位置编码扩展到 3D (Time, Height, Width) 并通过时间 ID 关联不同模态，这种在 Embedding 层做显式对齐的方法，比仅靠 Attention 隐式学习要高效且鲁棒得多。
批判: Thinker-Talker 架构虽然有效，但本质上还是引入了两个解码器（Thinker 也是解码器，Talker 也是解码器）。这增加了推理时的显存占用。未来的终极形态可能还是回归到一个统一的 Transformer 中，但这需要解决严重的模态冲突问题。Qwen2.5-Omni 在当前阶段提供了一个非常务实且高性能的解决方案。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。