Qwen3-Omni Technical Report
TL;DR 精炼摘要
Qwen3-Omni是一种单一多模态模型,首次实现文本、图像、音频和视频的最先进性能,维持与同规模单模态模型相媲美的能力,特别在音频任务上表现突出。该模型采用混合专家架构,支持多语言音频理解与生成,并通过轻量化的卷积神经网络降低延迟。
摘要
We present Qwen3-Omni, a single multimodal model that, for the first time, maintains state-of-the-art performance across text, image, audio, and video without any degradation relative to single-modal counterparts. Qwen3-Omni matches the performance of same-sized single-modal models within the Qwen series and excels particularly on audio tasks. Across 36 audio and audio-visual benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro, Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE architecture that unifies perception and generation across text, images, audio, and video, yielding fluent text and natural real-time speech. It supports text interaction in 119 languages, speech understanding in 19 languages, and speech generation in 10 languages. To reduce first-packet latency in streaming synthesis, Talker autoregressively predicts discrete speech codecs using a multi-codebook scheme. Leveraging the representational capacity of these codebooks, we replace computationally intensive block-wise diffusion with a lightweight causal ConvNet, enabling streaming from the first codec frame. In cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet latency of 234 ms. To further strengthen multimodal reasoning, we introduce a Thinking model that explicitly reasons over inputs from any modality. Since the research community currently lacks a general-purpose audio captioning model, we fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which produces detailed, low-hallucination captions for arbitrary audio inputs. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0 license.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Qwen3-Omni 技术报告 (Qwen3-Omni Technical Report)
1.2. 作者
Qwen 团队 (Qwen Team)
1.3. 发表期刊/会议
该论文以技术报告 (Technical Report) 的形式发布,目前是预印本 (preprint),发布在 arXiv 平台。arXiv 是一个开放获取的预印本服务器,在人工智能和机器学习领域享有极高声誉,许多重要研究成果在正式会议或期刊发表前都会在此发布。
1.4. 发表年份
2025年 (根据发布时间 2025-09-22T13:26:24.000Z 推断)
1.5. 摘要
本文介绍了 Qwen3-Omni,这是一个单一的多模态模型,首次在文本、图像、音频和视频等多种模态上保持了最先进的 (state-of-the-art, SOTA) 性能,并且相对于单一模态的对应模型没有任何性能下降 (degradation)。Qwen3-Omni 在 Qwen 系列中,与同等规模的单一模态模型表现相当,尤其在音频任务上表现出色。在 36 个音频和视听基准测试中,Qwen3-Omni 在 32 个基准测试中达到了开源最先进水平,并在 22 个基准测试中达到了总体最先进水平,超越了 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大的闭源模型。Qwen3-Omni 采用了 Thinker-Talker 混合专家 (Mixture-of-Experts, MoE) 架构,统一了文本、图像、音频和视频的感知和生成能力,从而生成流畅的文本和自然的实时语音。它支持 119 种语言的文本交互,19 种语言的语音理解,以及 10 种语言的语音生成。为了降低流式合成中的首包延迟 (first-packet latency),Talker 模块采用多码本 (multi-codebook) 方案自回归地 (autoregressively) 预测离散语音码本 (discrete speech codecs)。利用这些码本的表示能力,模型用轻量级的因果卷积神经网络 (causal ConvNet) 取代了计算密集型的块状扩散模型 (block-wise diffusion),实现了从第一个码本帧开始流式传输。在冷启动 (cold-start) 设置下,Qwen3-Omni 实现了 234 毫秒的理论端到端首包延迟。为了进一步增强多模态推理能力,研究人员引入了一个 Thinking 模型,该模型能够显式地对来自任何模态的输入进行推理。鉴于研究社区目前缺乏通用的音频字幕 (audio captioning) 模型,研究人员对 Qwen3-Omni-30B-A3B 进行了微调 (fine-tuned),得到了 Qwen3-Omni-30B-A3B-Captioner,该模型能够为任意音频输入生成详细、低幻觉 (low-hallucination) 的字幕。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner 已在 Apache 2.0 许可证下公开发布。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
人类通过并行感知视觉和听觉输入,认知处理这些信号,并通过文本表达、发声以及工具或身体行动来发出响应,从而促进信息交流并展示智能。近年来,在单一模态大模型(如文本或视觉大模型)的理解和推理能力取得快速进展的基础上,原生多模态系统受到了广泛关注。然而,当前以大语言模型 (Large Language Model, LLM) 为中心的多模态模型通常存在模态间的权衡 (modality trade-offs),即在某一模态上的性能提升常常伴随着其他模态的性能下降。
本文试图解决的核心问题是:如何构建一个单一的多模态模型,使其在处理文本、图像、音频和视频等多种模态时,不仅能保持各模态的最先进性能,而且不发生任何相对于单一模态对应模型的性能退化,同时还能显著增强跨模态 (cross-modal) 能力,如视频理解。现有研究面临的挑战在于,在整合多种模态时,如何避免性能瓶颈和信息损失,以及如何在不牺牲单一模态专业性的前提下实现跨模态的协同增效。
这篇论文的切入点在于探索在主流的基于 LLM 的范式中,如何进行集成的多模态训练,以证明联合多模态训练可以实现所有模态的性能均等化,同时显著增强跨模态能力。
2.2. 核心贡献/主要发现
论文最主要的贡献在于成功构建了 Qwen3-Omni 模型,首次实现了在文本、图像、音频和视频多种模态上同时达到最先进水平,并且相对于单一模态模型无性能退化。具体的核心贡献和主要发现包括:
- 无退化多模态性能 (Non-Degrading Multimodal Performance): 首次证明了完全集成、端到端的多模态训练可以在不降低核心语言能力和其他模态性能的情况下实现。
Qwen3-Omni与 Qwen 系列中同等规模的单一模态模型在文本和视觉性能上持平,同时在音频任务上表现出强大能力。 - 音频任务卓越表现 (Exceptional Audio Performance): 在 36 个音频和视听基准测试中,
Qwen3-Omni在 32 个基准测试中达到开源最先进水平 (open-source SOTA),并在 22 个基准测试中达到总体最先进水平 (overall SOTA),超越了 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大的闭源模型。 - 创新的
Thinker-TalkerMoE 架构 (Innovative Thinker-Talker MoE Architecture): 采用了Thinker-Talker混合专家 (Mixture-of-Experts, MoE) 架构,统一了文本、图像、音频和视频的感知和生成,实现了流畅的文本和自然的实时语音输出。Thinker和Talker都升级为 MoE 设计,提高了并发性和推理速度。 - 超低延迟流式语音合成 (Ultra-Low Latency Streaming Speech Synthesis):
- 引入了新的
Talker设计,通过多码本 (multi-codebook) 自回归 (autoregressive) 预测离散语音码本,并用轻量级因果卷积神经网络 (causal ConvNet)Code2Wav取代了计算密集型的块状扩散模型,实现了从第一个码本帧开始流式传输。 - 在冷启动 (cold-start) 设置下,实现了 234 毫秒的理论端到端首包延迟 (first-packet latency),大大提升了用户体验。
- 引入了新的
- 增强的多模态推理能力 (Enhanced Multimodal Reasoning): 引入了一个
Thinking模型,该模型能够显式地对来自任何模态的输入进行推理,加强了多模态推理能力。 - 广泛的语言支持 (Extensive Language Support): 支持 119 种语言的文本交互,19 种语言的语音理解,以及 10 种语言的语音生成,实现了广泛的地域覆盖。
- 新的
AuT音频编码器 (New AuT Audio Encoder): 替换了Whisper音频编码器,使用在 2000 万小时监督音频数据上从头训练的AuT(Audio Transformer) 编码器,产生了更强的通用音频表示。 - 开源发布 (Public Release):
Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner模型已在 Apache 2.0 许可证下公开发布,包括一个通用的音频字幕模型Qwen3-Omni-30B-A3B-Captioner,以填补研究社区的空白。 - 协同效应 (Synergistic Effects): 实验证明,在文本预训练早期阶段混合单模态和跨模态数据,可以提升所有模态的性能,并且联合多模态训练能实现不同模态间的相互增强。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解 Qwen3-Omni 模型,初学者需要了解以下几个核心概念:
- 多模态模型 (Multimodal Model): 能够处理和理解来自两种或更多模态(如文本、图像、音频、视频)信息的机器学习模型。例如,一个多模态模型可以同时分析一张图片及其描述文字,以提供更全面的理解。
- 大语言模型 (Large Language Model, LLM): 具有庞大参数量(通常数十亿到数万亿)的深度学习模型,通过在海量文本数据上进行预训练来学习语言的模式、语法和语义。它们能够执行文本生成、问答、翻译等多种语言任务。
- 混合专家 (Mixture-of-Experts, MoE) 架构: 一种神经网络架构,其中包含多个“专家”网络 (expert networks)。对于给定的输入,一个“门控网络” (gating network) 会学习选择一个或多个专家来处理该输入。这种架构允许模型拥有非常大的总参数量,但在每次推理时只激活部分专家,从而在保持计算效率的同时提高模型容量。
- 自回归 (Autoregressive) 生成: 一种序列生成方式,其中当前时刻的输出(例如下一个词元或语音码本)是基于所有先前已生成的输出作为输入来预测的。这意味着生成过程是顺序的,一步一步地构建输出序列。
- 码本 (Codebook) 和离散语音码本 (Discrete Speech Codecs): 在语音合成中,码本是一组预定义的离散向量(或“代码”),用于量化和表示连续的语音信号。离散语音码本就是将语音分解成一系列这些离散代码,而不是直接处理连续的波形。这种表示方法可以有效压缩语音信息,并使其更适合神经网络处理和自回归生成。
- 因果卷积神经网络 (Causal ConvNet): 一种特殊的卷积神经网络,其设计使得输出在任何时间步都只依赖于当前时间步及之前的输入,而不会依赖未来的输入。这对于流式数据处理至关重要,因为它允许模型实时处理数据并生成输出,而无需等待整个输入序列完成。
- 流式合成 (Streaming Synthesis): 指的是模型能够实时地生成输出,即在输入数据仍在接收或处理时就开始产生部分输出。这对于交互式应用(如语音助手)非常关键,可以显著减少用户等待时间。
- 首包延迟 (First-Packet Latency): 从用户发出请求到系统生成并发送第一个响应数据包所需的时间。在交互式应用中,较低的首包延迟意味着更快的响应速度,从而提升用户体验。
- 旋转位置嵌入 (Rotary Position Embedding, RoPE): 一种用于 Transformer 模型的位置编码方法,它将位置信息通过旋转矩阵的方式融入到查询 (Query) 和键 (Key) 的表示中,而不是像传统位置编码那样直接将位置向量加到词嵌入中。RoPE 能够更好地处理长序列,并且在相对位置信息的编码上表现出优势。 其中, 表示位置 处的输入 的第 个维度经过旋转位置编码后的值。 是一个预定义的频率,其中 是嵌入维度。 是输入向量的原始分量,而 是其相邻分量。RoPE 的核心思想是,通过这种旋转操作,点积注意力 (dot-product attention) 可以在查询和键之间有效地编码相对位置信息。
3.2. 前人工作
本文建立在多种前人工作的基础上,尤其是在大模型和多模态领域:
- 单模态大模型: 论文引述了
GPT系列 (Brown et al., 2020; OpenAI, 2023)、Gemini(Gemini Team, 2024)、Claude(Anthropic, 2023a;b; 2024)、Qwen系列 (Bai et al., 2023a; Yang et al., 2024; 2025a) 等工作的快速进展,这些工作奠定了大型模型理解和推理能力的基础。 - 原生多模态系统: 近年来,多个原生多模态系统也引起了关注,如
GPT-4o(OpenAI, 2024)、Gemini 2.5(Comanici et al., 2025) 等。这些模型尝试将多种模态整合到单一架构中。 - Qwen 系列的演进:
Qwen3-Omni是Qwen团队一系列工作的最新成果。其直接前身是Qwen2.5-Omni(Xu et al., 2025),本文的许多架构设计(如Thinker-Talker架构)都建立在其基础上。此外,Qwen3(Yang et al., 2025a) 提供了基础的 LLM 参数,Qwen3-VL(Bai et al., 2023b) 提供了视觉编码器,这些都是Qwen3-Omni的重要组成部分。 - 视觉编码器:
Qwen3-Omni的视觉编码器初始化自SigLIP2-So400m(Tschannen et al., 2025),这是一个在图像-文本对上训练的强大视觉语言模型。 - 位置编码:
Qwen3-Omni的时序对齐多模态旋转位置嵌入 (Time-aligned Multimodal Rotary Position Embedding, TM-RoPE) 借鉴了M-RoPE(Multimodal Rotary Position Embedding) (Bai et al., 2023b) 和RoPE(Su et al., 2024) 的思想。 - 训练策略: 在后训练 (post-training) 阶段,
Qwen3-Omni采用了Qwen3中描述的强到弱蒸馏 (Strong-to-Weak Distillation) 流程 (Yang et al., 2025a) 和GSPO(Group Sequence Policy Optimization) (Zheng et al., 2025) 等强化学习方法。
3.3. 技术演进
多模态技术从最初的独立模态处理,到后来的模态融合 (fusion) 和跨模态对齐 (cross-modal alignment),再到当前的大型原生多模态模型,经历了显著的演进。早期的方法通常采用级联 (cascaded) 或模块化 (modular) 的方式,即为每个模态训练一个独立的编码器,然后将它们的表示输入到一个公共的语言模型中。这种方法易于实现,但往往在模态间存在性能差异,难以实现真正的深度融合和跨模态推理。
Qwen3-Omni 的工作代表了这一领域的一个重要里程碑,它试图克服传统多模态模型中“模态间权衡”的限制,通过一体化的训练和统一的架构,实现所有模态的无退化性能。这标志着从“模态融合”向“模态统一”的转变,旨在构建一个能够像人类一样,并行、协同地处理和理解多种感知输入,并做出连贯响应的通用智能体。
3.4. 差异化分析
Qwen3-Omni 与相关工作的主要区别和创新点在于:
- 无性能退化 (Non-Degradation): 这是
Qwen3-Omni的核心卖点。与许多现有多模态模型(包括一些闭源模型)相比,Qwen3-Omni声称在集成多模态能力的同时,不会导致任何单一模态性能的下降。这通过在文本预训练早期阶段混合单模态和跨模态数据,以及对编码器和 LLM 进行协同训练来实现。 - 统一的
Thinker-TalkerMoE 架构: 继承自Qwen2.5-Omni,但进一步升级了Thinker(思考者,负责文本生成和高层推理) 和Talker(说话者,负责语音生成) 模块为混合专家 (MoE) 架构。这种设计不仅提升了模型容量和并发处理能力,还通过解耦Thinker和Talker的输入(Talker不再直接消费Thinker的文本输出,而是基于多模态特征),允许对文本响应风格和音频风格进行独立控制,提供了更大的灵活性。 - 卓越的音频处理能力: 引入了全新的
AuT(Audio Transformer) 音频编码器,该编码器在海量监督音频数据上从头训练,取代了之前使用的Whisper编码器,显著提升了音频表示能力。 - 创新的流式语音合成机制:
Talker采用了多码本自回归生成方案,结合轻量级因果ConvNetCode2Wav,大大降低了首包延迟,实现了业界领先的 234 毫秒端到端冷启动首包延迟,这对于实时交互式应用至关重要。 - 显式多模态推理
Thinking模型: 引入了一个专门的Thinking模型,显式地对来自任何模态的输入进行推理,从而增强了模型的复杂多模态推理能力,尤其是在音视频场景中。 - 通用音频字幕模型
Qwen3-Omni-30B-A3B-Captioner: 填补了现有研究社区在通用音频字幕模型方面的空白,为音频理解和相关研究提供了新的工具。
4. 方法论
4.1. 方法原理
Qwen3-Omni 的核心思想是构建一个统一的端到端多模态模型,能够在不牺牲任何单一模态性能的前提下,有效地处理和生成文本、图像、音频和视频。其背后的理论基础是,通过将感知 (perception) 和生成 (generation) 任务整合到一个统一的架构中,并利用混合专家 (MoE) 机制提高模型容量和效率,同时通过精细设计的数据流和训练策略,实现模态间的协同增效而非权衡。
Qwen3-Omni 采用 Thinker-Talker 架构,将模型功能划分为两个主要部分:
-
Thinker(思考者): 负责处理多模态输入(文本、图像、音频、视频),进行高层次的理解、推理,并生成文本响应。 -
Talker(说话者): 接收Thinker的高层表示以及多模态特征,专注于生成流式 (streaming) 语音输出。这种分离但协同的设计允许
Thinker专注于复杂的认知任务,而Talker专注于高效、自然的语音生成,从而实现低延迟的实时交互。
4.2. 核心方法详解 (逐层深入)
4.2.1. 整体架构概览
Qwen3-Omni 采用了 Thinker-Talker 架构,如下图所示:

该图像是Qwen3-Omni的示意图,展示了其Thinker-Talker架构。Thinker负责文本生成,而Talker生成流式语音令牌,通过直接接收Thinker的高层表示来实现超低延迟流式处理。每个解码步骤中,MTP模块输出当前帧的残差代码本,随后Code2Wav渲染器逐步合成相应波形,支持逐帧流式生成。
图 2:Qwen3-Omni 概览。Qwen3-Omni 采用 Thinker-Talker 架构。Thinker 负责文本生成,而 Talker 则通过直接接收来自 Thinker 的高层表示来生成流式语音词元。为了实现超低延迟流式传输,Talker 自回归地预测多码本序列。在每个解码步骤中,一个 MTP 模块输出当前帧的残差码本,之后 Code2Wav 渲染器增量地合成相应的波形,从而实现逐帧流式生成。
Thinker模块:- 输入: 接收文本、音频、图像和视频等多种模态的输入。
- 处理: 将这些多模态输入转化为一系列表示 (representations)。
- 输出: 主要负责文本生成,并为
Talker提供高层多模态特征。 - 架构: 采用混合专家 (MoE) Transformer 架构。
Talker模块:- 输入: 接收来自
Thinker的高维多模态特征,并共享完整的对话历史。 - 处理: 自回归地预测离散语音码本序列。
- 输出: 生成流式语音词元 (streaming speech tokens),最终通过
Code2Wav模块合成波形。 - 架构: 采用混合专家 (MoE) Transformer 架构。
- 输入: 接收来自
MTP(Multi-Token Prediction) 模块:- 在
Talker内部,当Talker预测出当前帧的第一个码本后,MTP模块负责预测同一帧内的其余残差码本。 - 架构: 轻量级稠密 Transformer (Dense Transformer)。
- 在
Code2Wav模块:- 接收
MTP模块输出的码本,将其转换为可听的波形。 - 架构: 轻量级因果卷积神经网络 (Causal ConvNet)。
- 接收
4.2.2. Thinker 和 Talker 的 MoE 架构与解耦设计
- MoE 升级:
Thinker和Talker都从Qwen2.5-Omni的架构升级为混合专家 (MoE) 架构。- MoE 的优势: MoE 架构能够支持高并发 (high concurrency) 和快速推理 (fast inference)。它通过在每次前向传播时只激活部分专家,来有效提升模型容量,同时相比于同等参数量的稠密模型,显著减少了 KV 缓存 (KV cache) 在处理长序列时的 I/O 消耗,从而提高了每秒处理的词元数量。
- Talker 的解耦:
Talker不再直接消费Thinker的高层文本表示,而是只依赖于音频和视觉多模态特征进行条件生成。- 设计动机:
- 对于文本内容,离散词元 (discrete tokens) 和嵌入 (embeddings) 在信息上是等效的。
- 对于音视频协调的语音生成(如保留语速、语调等),多模态条件是必要的。
- 灵活性: 这种解耦使得外部工具(如检索增强生成 (RAG)、函数调用 (function calling)、安全过滤器 (safety filters))可以在
Thinker的文本输出上进行干预,并在需要时通过受控的预处理将文本提供给Talker进行流式合成。 - 独立控制:
Thinker和Talker可以使用独立的系统提示 (system prompts),从而独立控制Thinker的响应风格和Talker的音频风格。
- 设计动机:
4.2.3. 音频 Transformer (AuT) 编码器
AuT 是 Qwen3-Omni 中新引入的音频编码器,用于获取通用音频表示。

该图像是AuT模型的示意图,展示了其基于注意力的编码器-解码器结构。AuT解码器包含8个解码器交叉注意力层和自注意力层,而AuT编码器则包括32个自注意力层和3个降采样卷积层。此外,图中还展示了FBank特征及其10ms的帧移。
图 3:AuT 概览。AuT 是一个基于注意力编码器-解码器 (attention-encoder-decoder) 的自回归模型,从头开始在 2000 万小时的监督音频数据上进行训练。Qwen3-Omni 采用 AuT 编码器作为音频编码器,以 12.5 Hz 的词元速率获取通用音频表示。
- 架构:
AuT是一个基于注意力 (attention) 的编码器-解码器模型。在Qwen3-Omni中,它主要作为音频编码器使用。 - 训练: 从头开始 (from scratch) 在 2000 万小时的监督音频数据上进行训练,旨在学习更强、更通用的音频表示。训练数据包括 80% 的中英文伪标签 ASR 数据、10% 其他语言的 ASR 数据和 10% 音频理解数据。
- 下采样: 在注意力层之前,音频的滤波器组特征 (filter bank features) 通过
Conv2D块下采样 8 倍,将词元速率 (token rate) 降低到 。 - 实时预填充缓存 (Real-time Prefill Caching): 为了平衡实时预填充缓存的效率和离线音频任务的性能,
AuT使用了带有动态注意力窗口大小的flash attention,覆盖 1 到 8 秒的注意力查询模式。 - 参数量:
AuT编码器包含约 0.6B (6 亿) 参数。
4.2.4. 感知模块 (Perceivation)
Thinker 负责将来自文本、音频、图像和视频等多种模态的输入转换为一系列可供模型处理的表示。
- 文本输入: 使用
Qwen的词元分析器 (tokenizer),它采用字节级字节对编码 (byte-level byte-pair encoding),词汇表大小为 151,643 个常规词元。 - 音频输入 (包括从视频中提取的音频):
- 重采样 (resample) 到 。
- 将原始波形转换为 128 通道的 Mel 频谱图 (mel-spectrogram),窗口大小为 ,步长为 。
- 使用
AuT编码器进行编码,每个音频表示帧对应原始音频信号约 的片段。
- 视觉输入 (图像和无音频的视频):
- 采用
Qwen3-VL的视觉编码器,该编码器从SigLIP2-So400m(约 5.43 亿参数) 初始化。 - 在图像和视频数据混合上进行训练,确保强大的图像理解和视频理解能力。
- 为了尽可能完整地保留视频信息并与音频采样率对齐,视频帧以动态帧率进行采样。
- 采用
- 视频和多模态位置嵌入 (Time-aligned Multimodal Rotary Position Embedding, TM-RoPE):
- 目的: 扩展了多模态旋转位置嵌入 (M-RoPE),融入了绝对时间信息。
- 分解: 将传统的旋转位置嵌入分解为三个不同的维度:时序 (temporal)、高度 (height) 和宽度 (width)。
- 角度分配: 原始
M-RoPE使用前 16 个旋转角度建模时序依赖。为了解决长序列外推 (extrapolate) 能力受限的问题,Qwen3-Omni重新分配了旋转角度:时序、高度和宽度维度分别分配 24、20 和 20 个旋转角度。这使得模型能更好地平衡局部语义和长程依赖的表示。 - 模态特定应用:
- 文本输入: 三个组件共享相同的
position identifiers,使TM-RoPE在功能上等同于一维RoPE。 - 音频输入: 使用共享的
position IDs,并通过绝对时序编码进一步增强,每个时序 ID 对应 的持续时间。 - 图像数据: 所有视觉词元 (visual tokens) 都被分配一个恒定的时序 ID,其独特的行和列位置决定了高度和宽度 ID。
- 多模态视听流: 音频组件以 为间隔编码时序 ID。视频被视为帧序列,其单调递增的时序 ID 根据实际时间戳动态调整,以确保每 有一个一致的时序分辨率。视频帧的高度和宽度 ID 分配方式与静态图像相同。
- 文本输入: 三个组件共享相同的
- 位置冲突避免: 为了防止处理多模态时出现位置冲突,位置编号是连续的,每个后续模态都从前一个模态的最大位置 ID 加一开始。
- 与 Qwen2.5-Omni 的区别:
Qwen2.5-Omni将视听表示分割成固定的 2 秒块,而Qwen3-Omni直接使用明确锚定到绝对时间的时序 ID 对这些表示进行对齐,从而支持任意持续时间的流式输入。
4.2.5. 语音生成 (Speech Generation)
Talker 模块负责语音合成,特别是在多轮对话中。
- 上下文依赖:
Talker模块以“Thinker”组件提供的丰富上下文为条件,包括历史文本词元、多模态表示以及当前轮次的流式文本。这种对长上下文信息的依赖至关重要,因为高保真语音合成必须根据持续的对话来调整韵律 (prosody)、响度 (loudness) 和情感 (emotion) 等声学属性。 - RVQ 词元操作:
Qwen3-Omni的方法与 (即Qwen2.5-Omni)不同,它直接在残差矢量量化 (Residual Vector Quantization, RVQ) 词元上操作。 - 分层预测方案 (Hierarchical Prediction Scheme):
- 骨干网络 (Backbone): 接收当前帧的聚合码本特征,并使用线性头 (linear head) 预测零阶码本 (zeroth codebook)。
MTP(Multi-Token Prediction) 模块: 在骨干网络预测零阶码本后,MTP模块生成所有残差码本 (residual codebooks)。这种策略使得模型能够学习完整的声学细节表示,增强了发声表现力。
Code2Wav模块: 波形重建简化为一个轻量级因果卷积神经网络 (causal ConvNet)。- 优势: 相比于更复杂的基于扩散模型 (DiT-based vocoders) 的声码器 (vocoders),这显著降低了推理延迟 (inference latency) 和计算成本 (FLOPs),同时实现了更优的音频保真度。
4.2.6. 流式和并发设计 (Designs for Streaming and Concurrency)
为了优化用户体验和降低服务成本,Qwen3-Omni 在流式视听交互场景中特别关注降低首包延迟 (first-packet latency) 和提升并发能力。
- 分块预填充 (Chunked Prefilling) 和 MoE 架构:
- 分块预填充: 保留了
Qwen2.5-Omni中的分块预填充机制,其音频和视觉编码器能够沿时间维度输出块 (chunks)。 - 异步预填充: 在实时交互中,
Thinker和Talker模块执行异步预填充:当Thinker完成当前块的预填充后,其输出的高层表示会立即异步地用于Talker的当前块预填充,同时Thinker开始预填充其下一个块。这显著减少了Thinker和Talker的首词元时间 (Time-To-First-Token, TTFT)。 - MoE 提升吞吐量:
Thinker和Talker的 MoE 设计在提高服务吞吐量方面非常有效。与稠密模型相比,MoE 架构显著减少了处理长序列时由于 KV 缓存 (KV cache) 引起的 I/O 消耗,提高了每秒处理的词元数。
- 分块预填充: 保留了
- 流式多码本码本生成 (Streaming Multi-Codebook Codec Generation):
- 为了最大程度减少用户接收第一个生成数据包的等待时间,采用了仅左上下文 (left context only) 的多码本生成机制。
- 如 Figure 2 所示,一旦
Talker生成第一个词元,MTP模块就会预测当前帧的其余词元。这些词元随后由流式多码本码本解码器 (streaming multi-codebook codec decoder) 解码为波形,该解码器只关注左侧上下文。 - 与
Qwen2.5-Omni需要等待足够的块上下文才能合成不同,Qwen3-Omni在Talker生成每个词元后即可立即输出波形,显著减少了首包延迟。
- 轻量级
MTP模块和ConvNet:-
MTP模块和码本解码器都是轻量级模块,计算浮点运算量 (FLOPs) 低,并支持批处理推理 (batched inference),非常适合高并发场景。 -
MTP模块: 是一个超轻量级的固定步长自回归稠密 Transformer。它对推理硬件的内存带宽要求低,自然支持高吞吐量请求的有效批处理。其固定步长自回归推理保证了低推理延迟。 -
基于
ConvNet的码本解码器: 也实现了高吞吐量和低延迟,因为其卷积架构在各种推理平台上享有广泛的硬件加速支持,并实现了高效的批处理推理。以下是
Qwen3-Omni-30B-A3B的架构设计以及音视频的首包延迟:
-
以下是原文 Table 1 的结果:
| Module | Architecture | Params | Streaming |
| Audio Encoder | AuT | 650M | ✓ |
| Vision Encoder | SigLIP2-S0400M | 540M | |
| Thinker | MoE Transformer | 30B-A3B | ✓ |
| Talker | MoE Transformer | 3B-A0.3B | V |
| MTP | Dense Transformer | 80M | ✓ |
| Code2wav | ConvNet | 200M | |
| End-to-End First-Packet Latency: 234/547ms | |||
理论首包延迟分析 (Theoretical First-Packet Latency):
以下是原文 Table 2 的结果:
| Qwen3-Omni-30B-A3B | |||
| 1 Concurrency | 4 Concurrency 6 Concurrency | ||
| Thinker-Talker Tail Packet Preprocessing Latency | 72/160ms | 94/180ms | 100/200ms |
| Thinker Time-to-First-Token (TTPT) | 88/160ms | 468/866ms | 673/1330ms |
| Talker Time-to-First-Token (TTPT) | 57/210ms | 145/450ms | 376/734ms |
| MTP Module Time Cost Per Token | 14ms | 16ms | 18ms |
| Codec Decoder Time Cost Per Code | 3ms | 5ms | 5ms |
| Overral Latency (Audio/Video) | 234/547ms | 728/1517ms | 1172/2284ms |
| Thinker Token Generation Rate (TPS) | 75 tokens/s | 63 tokens/s | 53 tokens/s |
| Talker Token Generation Rate (TPS) | 140 tokens/s | 125 tokens/s | 110 tokens/s |
| Generation RTF(Real Time Factor) | 0.47 | 0.56 | 0.66 |
影响总首包延迟的因素:
Thinker和Talker的模型大小: 影响它们的尾包预处理延迟 (tail packet preprocessing latency) 和首词元时间 (TTFT)。MTP模块和码本解码器的架构和大小: 影响它们的推理延迟。- 串行依赖性: 由于这些组件之间存在串行依赖性,总首包延迟是这些单独延迟的总和。
分析结果:
Thinker和Talker的 MoE 架构确保了它们在高并发下,预填充延迟和 TTFT 仍能保持相对稳定。MTP模块和码本解码器的轻量级设计最大程度地减少了它们的计算开销,对首包延迟的影响较小。- 生成实时因子 (Generation Real Time Factor, RTF): 计算方式为:(
Thinker和Talker生成一个词元所需时间总和 +MTP模块和码本解码器处理每个词元所需时间) 除以 。结果显示,在不同并发级别下,RTF 始终低于 1 (例如,在 1 并发下为 0.47),这确保了用户能持续接收流式音频响应。
5. 实验设置
5.1. 数据集
Qwen3-Omni 在多样化的多语言和多模态数据集上进行了预训练 (pre-training) 和后训练 (post-training)。
预训练阶段:
- 数据构成: 图像-文本、视频-文本、音频-文本、视频-音频、视频-音频-文本以及纯文本语料库。
- Prompt 多样性: 与
Qwen2.5-Omni为每个任务使用单一prompt不同,Qwen3-Omni采用了更广泛的自然语言prompt,以增强模型的泛化能力和指令遵循能力。 - 训练策略: 在早期预训练阶段就混合了单模态和跨模态数据,以实现所有模态的鲁棒性能。
后训练阶段 (Thinker):
- 数据格式:
ChatML(OpenAI, 2022) 格式。 - 数据类型: 纯文本对话数据、视觉模态对话数据、音频模态对话数据和混合模态对话数据。
后训练阶段 (Talker):
- 第一阶段 (多模态表示到语音映射): 数亿条带有
多模态上下文的语音数据。 - 第二阶段 (持续预训练): 高质量数据,用于缓解第一阶段噪声数据导致的幻觉 (hallucinations),并进行长上下文训练 (long-context training)。
- 第三阶段 (多语言泛化): 从多样化的多语言语音样本构建偏好对 (preference pairs),并使用直接偏好优化 (Direct Preference Optimization, DPO) 进行模型优化。
- 第四阶段 (说话人微调): 在上述基础模型上进行说话人微调 (speaker fine-tuning)。
Captioner 模块的微调:
- 对
Qwen3-Omni-30B-A3B模型在大规模详细音频描述数据集上进行微调,以生成低幻觉的音频字幕。
语言支持: 以下是原文 Table 3 的结果:
| Modality | # Langs | Languages |
| Text | 119 | See Qwen3 for the full list. |
| Speech Input | 19 | ar, de, en, es, fr, id, it, ja, ko, ms, nl, pt, ru, th, tr, ur, vi, yue, zh |
| Speech Output | 10 | de, en, es, fr, it, ja, ko, pt, ru, zh |
- 文本: 119 种语言。
- 语音输入 (理解): 19 种语言 (阿拉伯语、德语、英语、西班牙语、法语、印度尼西亚语、意大利语、日语、韩语、马来语、荷兰语、葡萄牙语、俄语、泰语、土耳其语、乌尔都语、越南语、粤语、中文)。
- 语音输出 (生成): 10 种语言 (德语、英语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语、俄语、中文)。
评估数据集:
- 文本-文本 (Text-Text):
- 通用任务 (General Tasks):
MMLURedux(Gema et al., 2024),GPQA(Rein et al., 2023)。 - 推理能力 (Reasoning):
AIME25(AIME, 2025),ZebraLogic(Lin et al., 2025)。 - 编码能力 (Coding):
MultiPL-E(Cassano et al., 2023)。 - 对齐任务 (Alignment Tasks):
IFEval(Zhou et al., 2023),Creative Writing V3(Paech, 2024),WritingBench(Wu et al., 2025b)。 - 智能体 (Agent):
BFCL-v3(Yan et al., 2024)。 - 多语言任务 (Multilingual Tasks):
MultiF(He et al., 2024),PolyMath(Wang et al, 2025c)。
- 通用任务 (General Tasks):
- 音频-文本 (Audio-Text):
- 基础音频任务 (Basic Audio Tasks):
- 自动语音识别 (ASR) & 语音转文本翻译 (S2TT):
Wenetspeech,Librispeech,CV15-en/zh,Fleurs(en/zh, 19 种语言平均),MIR-1K(vocal-only),Opencpop-test。
- 自动语音识别 (ASR) & 语音转文本翻译 (S2TT):
- 高级音频任务 (Advanced Audio Tasks):
- 语音聊天 (Voice Chatting):
VoiceBench(Chen et al., 202b) (包括AlpacaEval,CommonEval,WildVoice,SDD-QA,MMSU,OpenBookQA,BH,IFEval AdvBench子集)。 - 音频推理 (Audio Reasoning):
MMAU(Sakshi et al., 2024),MMSU(Wang et al., 2025a)。 - 音乐理解 (Music Understanding):
RUL-MuchoMusic(Zang et al., 2025),GTZAN(Tzanetakis & Cook, 2002),MTG-Jamendo(Bogdanov et al. (2019)) (四个子集),MagnaTagATune(Law et al., 2009)。
- 语音聊天 (Voice Chatting):
- 基础音频任务 (Basic Audio Tasks):
- 视觉-文本 (Vision-Text):
- 通用视觉问答 (General Visual Question Answering):
MMStar(Chen et al., 2024a),HallusionBench(Guan et al., 2024),MM-MT-Bench(Agrawal et al., 2024)。 - 数学与 STEM 推理 (Math & STEM Reasoning):
MathVista(Lu et al., 2024),MathVision(Wang et al., 2024a),MMMU(Yue et al., 2023),MMMU-Pro(Yue et al., 2024)。 - 文档理解 (Document Understanding):
AI2D(Kembhavi et al., 2016),ChartQA(Masry et al., 2022)。 - 计数 (Counting):
CountBench(Paiss et al., 2023)。 - 视频理解 (Video Understanding):
Video-MME(Fu et al., 2024),LVBench(Wang et al., 2024b),MLVU(Zhou et al., 2025a)。
- 通用视觉问答 (General Visual Question Answering):
- 音视频-视频-文本 (AudioVisual Video-Text):
- 通用理解:
WorldSense(Hong et al., 2025)。 - 音视频推理 (Audiovisual Reasoning):
DailyOmni(Zhou et al., 2025b),VideoHolmes(Cheng et al., 2025)。
- 通用理解:
- 语音生成 (Speech Generation):
- 零样本语音生成 (Zero-Shot Speech Generation):
SEED(Anastassiou et al., 2024) (测试集)。 - 多语言语音生成 (Multilingual Speech Generation):
MiniMax multilingual test set(Zhang et al., 2025)。 - 跨语言语音生成 (Cross-Lingual Speech Generation):
CV3-Eval(Du et al., 2025)。
- 零样本语音生成 (Zero-Shot Speech Generation):
5.2. 评估指标
论文使用了多种评估指标来衡量模型在不同任务上的性能,以下是对其中关键指标的解释:
5.2.1. 词错误率 (Word Error Rate, WER)
- 概念定义 (Conceptual Definition): 词错误率 (WER) 是评估自动语音识别 (ASR) 系统性能的常用指标,它衡量的是识别出的词序列与参考(真实标注)词序列之间的差异。WER 越低,表示 ASR 系统的性能越好。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 替换 (Substitutions) 错误,指一个词被另一个词错误替换。
- : 删除 (Deletions) 错误,指参考序列中的一个词被 ASR 系统遗漏。
- : 插入 (Insertions) 错误,指 ASR 系统识别出了参考序列中不存在的词。
- : 参考序列中的总词数。
- : 正确 (Correct) 识别的词数。
- 成立。
5.2.2. BLEU 分数 (Bilingual Evaluation Understudy, BLEU)
- 概念定义 (Conceptual Definition): BLEU 分数是衡量机器翻译或文本生成质量的指标,通过计算机器生成文本与一个或多个参考(人工翻译)文本之间 n-gram(连续的 n 个词序列)的重叠程度来评估。BLEU 分数越高,表示机器翻译或生成文本的质量越好,越接近人工水平。
- 数学公式 (Mathematical Formula): 其中,
- 符号解释 (Symbol Explanation):
- : 考虑的最大 n-gram 长度(通常为 4)。
- : n-gram 的权重(通常是 )。
- : 修正的 n-gram 精度 (modified n-gram precision),即机器翻译中与参考翻译匹配的 n-gram 数量除以机器翻译中的 n-gram 总数。这里的“修正”是为了避免重复词导致的过高分数。
- BP: 简洁惩罚因子 (Brevity Penalty)。
- : 机器翻译文本的长度。
- : 参考翻译文本的有效长度(通常是与机器翻译文本长度最接近的参考翻译长度)。
- BLEU 分数旨在惩罚过短的机器翻译。
5.2.3. Micro F1 分数 (Micro F1 Score)
- 概念定义 (Conceptual Definition): Micro F1 分数是多标签分类任务中常用的评估指标,它通过在所有类别上汇总(求和)真阳性 (True Positives, TP)、假阳性 (False Positives, FP) 和假阴性 (False Negatives, FN) 的数量,然后计算全局的精确率 (Precision) 和召回率 (Recall),最后计算 F1 分数。Micro F1 分数对样本量大的类别给予更高的权重。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 类别的总数。
- : 对于第 个类别,正确预测为正例的数量。
- : 对于第 个类别,错误预测为正例的数量。
- : 对于第 个类别,错误预测为负例的数量。
5.2.4. 准确率 (Accuracy, Acc.)
- 概念定义 (Conceptual Definition): 准确率是最直观的分类评估指标,它表示模型正确预测的样本数占总样本数的比例。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- Number of Correct Predictions: 模型正确分类的样本数量。
- Total Number of Predictions: 总共进行分类的样本数量。
5.2.5. 说话人相似度 (Speaker Similarity, SIM)
- 概念定义 (Conceptual Definition): 说话人相似度 (SIM) 衡量的是合成语音与目标说话人(通常是克隆语音的来源)的真实语音在音色、语调等声学特征上的相似程度。SIM 分数越高,表示合成语音的说话人特征与目标说话人越接近。
- 数学公式 (Mathematical Formula): 论文中未给出具体的数学公式。在实践中,说话人相似度通常通过预训练的说话人识别模型 (speaker verification model) 计算嵌入 (embeddings) 之间的余弦相似度 (cosine similarity) 来衡量。
- 符号解释 (Symbol Explanation):
- : 目标说话人语音的嵌入向量。
- : 合成语音的嵌入向量。
- : 向量点积。
- : 向量的 L2 范数(模长)。
- SIM 分数范围在 -1 到 1 之间,1 表示完全相同,-1 表示完全相反。
5.2.6. 生成实时因子 (Generation Real Time Factor, RTF)
- 概念定义 (Conceptual Definition): 生成实时因子 (RTF) 衡量的是生成一段语音所需的时间与这段语音本身的持续时间之比。RTF 小于 1 表示模型能够以比语音实际播放速度更快的速度生成语音,即可以实现实时生成。RTF 越低,实时性越好。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- Time to Generate Audio: 模型生成一段音频所需的时间。
- Duration of Generated Audio: 这段音频本身的播放持续时间。
5.3. 对比基线
论文将 Qwen3-Omni 与多种领先的专业模型和通用模型进行了比较,包括:
- 闭源多模态大模型:
GPT-4o(OpenAI)Gemini-2.5-Pro/Gemini-2.5-Flash(Google)GPT-4o-Transcribe(OpenAI)GPT-4o-Audio(OpenAI)
- 开源 Qwen 系列模型:
Qwen3-235B-A22B(纯文本大型模型,非思考和思考版本)Qwen3-30B-A3B(纯文本同等规模模型,非思考和思考版本)Qwen2.5-Omni(直接前身)Qwen2.5-VL-72B(视觉语言模型)
- 音频领域专业模型:
Seed-ASR(用于 ASR)Voxtral-Mini/Voxtral-Small(用于 ASR/S2TT)Seed-TTS系列 (Anastassiou et al., 2024) (用于零样本语音生成)MaskGCT(Wang et al., 2024c),E2 TTS(Eskimez et al., 2024),F5-TTS(Chen et al., 2024c),Spark TTS(Wang et al., 2025b) (用于零样本 TTS)CosyVoice 2/CosyVoice 3(Du et al., 2024; 2025) (用于语音生成,特别是跨语言)MiniMax-Speech(Zhang et al., 2025),ElevenLabs Multilingual v2(用于多语言语音生成)Audio Flamingo 3(Goel et al., 2025) (最佳专业模型,用于音乐理解)CLaMP 3(Wu et al., 2025a) (最佳专业模型,用于音乐理解)MuQ-MuLan(Zhu et al., 2025),MuQ(Zhu et al., 2025) (最佳专业模型,用于音乐理解)
- 视觉领域专业或大型模型:
-
InternVL-3.5-241B-A28B(用于视觉-文本推理)选择这些基线模型旨在全面评估
Qwen3-Omni在不同模态和任务上的性能,包括与同系列模型、业界领先闭源模型以及各领域专业模型的比较,以验证其“无退化”和“最先进”的宣称。
-
6. 实验结果与分析
Qwen3-Omni 的评估结果分为理解任务(模态到文本)和语音生成任务(模态到语音)两大类。此外,还进行了跨模态无退化性能的验证。
6.1. 核心结果分析
6.1.1. 文本-文本 (Text Text) 性能
以下是原文 Table 4 的结果:
| GPT-40-0327 | Qwen3-235B-A22B Non Thinking | Qwen3-30B-A3B -Instruct-2507 | Qwen3-Omni-30B-A3B -Instruct | Qwen3-Omni-Flash -Instruct | ||
| GeneralTasks | MMLU-Redux | 91.3 | 89.2 | 89.3 | 86.6 | 86.8 |
| GPQA | 66.9 | 62.9 | 70.4 | 69.6 | 69.7 | |
| AIME25 | 26.7 | 24.7 | 61.3 | 65.0 | 65.9 | |
| Reasoning Code | ZebraLogic | 52.6 | 37.7 | 90.0 | 76.0 | 76.1 |
| MultiPL-E | 82.7 | 79.3 | 83.8 | 81.4 | 81.5 | |
| Alignment | IFEval | 83.9 | 83.2 | 84.7 | 81.0 | 81.7 |
| Creative Writing v3 | 84.9 | 80.4 | 86.0 | 80.6 | 81.8 | |
| Tasks Agent | WritingBench | 75.5 | 77.0 | 85.5 | 82.6 | 83.0 |
| BFCL-v3 | 66.5 | 68.0 | 65.1 | 64.4 | 65.0 | |
| Multilingual Tasks | MultiIF | 70.4 | 70.2 | 67.9 | ||
| PolyMATH | 25.5 | 27.0 | 43.1 | 64.0 37.9 | 64.7 39.3 | |
以下是原文 Table 5 的结果:
| Gemini-2.5-Flash Thinking | Qwen3-235B-A22B Thinking | Qwen3-30B-A3B -Thinking-2507 | Qwen3-Omni-30B-A3B Thinking | Qwen3-Omni-Flash Thinking | ||
| General Tasks | MMLU-Redux | 92.1 | 92.7 | 91.4 | 88.8 | 89.7 |
| GPQA | 82.8 | 71.1 | 73.4 | 73.1 | 73.1 | |
| Reasoning | AIME25 | 72.0 | 81.5 | 85.0 | 73.7 | 74.0 |
| LiveBench 20241125 | 74.3 | 77.1 | 76.8 | 71.8 | 70.3 | |
| Code | MultiPL-E | 84.5 | 79.9 | 81.3 | 80.6 | 81.0 |
| Alignment Tasks | IFEval | 89.8 | 83.4 | 88.9 | 85.1 | 85.2 |
| Arena-Hard v2 | 56.7 | 61.5 | 56.0 | 55.1 | 57.8 | |
| Creative Writing v3 | 85.0 | 84.6 | 84.4 | 82.5 | 83.6 | |
| Agent | WritingBench | 83.9 | 80.3 | 85.0 | 85.5 | 85.9 |
| BFCL-v3 | 68.6 | 70.8 | 72.4 | 63.2 | 64.5 | |
| Multilingual Tsks | MultiIF PolyMATH | 74.4 49.8 | 71.9 54.7 | 76.4 52.6 | 72.9 47.1 | 73.2 48.7 |
Qwen3-Omni-30B-A3B-Instruct的表现: 尽管参数量较小,但在GPQA、AIME25、ZebraLogic、WritingBench和PolyMath等多个基准测试中超越了参数量更大的开源模型Qwen3-235B-A22B Non-Thinking和强大的闭源模型GPT-4o-0327。这表明了其在指令遵循和某些推理任务上的高效性。Qwen3-Omni-30B-A3B-Thinking的表现: 性能与Gemini-2.5-Flash-Thinking和Qwen3-235B-A22B Non-Thinking相当,尤其在MMLU-Redux和GPQA等通用任务上保持竞争力。- 与纯文本同等规模模型的比较:
Qwen3-Omni-30B-A3B展现出与纯文本Qwen3-30B-A3B-Instruct-2507和Qwen3-30B-A3B-Thinking-2507模型相当的文本能力,验证了其“无退化”的核心主张。
6.1.2. 音频-文本 (Audio Text) 性能
以下是原文 Table 6 的结果:
| Seed -ASR | Voxtral -Mini | Voxtral -Small | GPT-40 -Transcribe | Gemini-2.5 -Pro | Qwen2.5 -Omni | Qwen3-Omni -30B-A3B-Instruct | Qwen3-Omni -Flash-Instruct | |
| EN & ZH ASR (wer) | ||||||||
| Wenetspeech net I meeting | 4.66 | 5.69 | 24.30 | 31.53 | 20.33 | 26.08 | 15.30 | 32.27 | 14.43 | 13.47 | 5.9117.65 | 4.69 | 5.89 | 4.62 | 5.75 |
| Librispeech clean | other | 1.58 |2.84 | 1.88 | 4.12 | 1.56 |3.30 | 1.39 |3.75 | 2.89 | 3.56 | 1.74|3.45 | 1.22 | 2.48 | 1.27 | 2.44 |
| CV15-en | - | 9.47 | 7.79 | 10.01 | 9.89 | 7.61 | 6.05 | 5.94 |
| CV15-zh | - | 24.67 | 19.30 | 9.84 | 8.00 | 5.13 | 4.31 | 4.28 |
| Fleurs-en | 3.40 | 3.96 | 3.77 | 3.32 | 2.94 | 3.77 | 2.72 | 2.74 |
| Fleurs-zh | 2.69 | 12.22 | 7.98 | 2.44 | 2.71 | 2.54 | 2.20 | 2.19 |
| Multilingual ASR (wer) | ||||||||
| Fleurs-avg (19 lang)a | 15.67 | 8.09 | 4.48 | 5.55 | 14.04 | 5.33 | 5.31 | |
| Lyric ASR (wer) | ||||||||
| MIR-1K (vocal-only)b | 6.45 | 23.33 | 18.73 | 11.87 | 9.85 | 8.15 | 5.90 | 5.85 |
| Opencpop-test | 2.98 | 31.01 | 16.06 | 7.93 | 6.49 | 2.84 | 1.54 | 2.02 |
| S2TT (BLEU) | ||||||||
| Fleurs-en2xxc | 30.35 | 37.85 | 39.25 | 29.22 | 37.50 | 36.22 | ||
| Fleurs-xx2en | 27.54 | 32.81 | 35.41 | 28.61 | 31.08 | 30.71 | ||
| Fleurs-zh2xx | 17.03 | 22.05 | 26.63 | 17.97 | 25.17 | 25.10 | ||
| Fleurs-xx2zh | 28.75 | 34.82 | 37.50 | 27.68 | 33.13 | 31.19 | ||
-
ASR & S2TT:
Qwen3-Omni-Instruct在中英文ASR(自动语音识别) 和歌词ASR任务上,如Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test和MIR-1K(vocal),取得了最先进的 (SOTA) 性能。在多语言ASR和S2TT(语音转文本翻译) 任务上,其性能也优于或与Voxtral-Small和Gemini-2.5-Pro等其他专业或通用模型相当。这突显了Qwen3-Omni在语音识别和语音翻译方面的强大能力。以下是原文 Table 7 的结果:
GPT-40 -Audio Gemini-2.5 -Flash Gemini-2.5 -Pro Qwen2.5 -Omni Qwen3-Omni -30B-A3B-Instruct Qwen3-Omni -30B-A3B-Thinking Qwen3-Omni -Flash-Instruct Qwen3-Omni FlashThinking VoiceBench AlpacaEval 95.6 96.1 94.3 89.9 94.8 96.4 95.4 96.8 CommonEval 89.8 88.3 88.4 76.7 90.8 90.5 91.0 90.9 WildVoice 91.6 92.1 93.4 77.7 91.6 90.5 92.3 90.9 SDD-QA 75.5 84.5 90.1 56.4 76.9 78.1 76.8 78.5 MMSU 80.3 66.1 71.1 61.7 68.1 83.0 68.4 84.3 OpenBookQA 89.2 56.9 92.3 80.9 89.7 94.3 88.9 91.4 80.6 95.0 BH 84.1 83.9 83.8 92.6 85.7 66.7 53.5 80.4 77.8 80.6 75.2 89.6 80.8 IFEval AdvBench 76.0 98.7 98.9 98.1 99.2 99.3 97.2 99.4 98.9 Overall 86.8 83.4 89.6 73.6 85.5 88.8 85.6 89.5 Audio Reasoning MMAU-v05.15.25 MMSU 62.5 56.4 71.8 70.2 77.4 77.7 65.5 62.6 77.5 69.0 75.4 70.2 77.6 69.1 76.5 71.3 -
语音交互和音频推理:
Qwen3-Omni-Thinking在VoiceBench上取得了 89.5 的平均分,超越了除Gemini-2.5-Pro(89.6) 之外的所有音频语言模型,展示了其强大的语音交互能力。在MMAU基准测试中,它超越了强大的闭源模型Gemini-2.5-Pro和Gemini-2.5-Flash。在MMSU基准测试中,它也超越了Gemini-2.5-Flash和GPT-4o-Audio。这些结果证明了Qwen3-Omni在通用音频理解和推理方面的强大能力。以下是原文 Table 8 的结果:
Best Specialist Modes GPT-40 -Audio Gemini-2.5 -Pro Qwen2.5 -Omni Qwen3-Omni -30B-A3B-Instruct Qwen3-Omni -Flash-Instruct RUL-MuchoMusic 47.6 (Audio Flamingo 3) (Goel et al., 2025) 36.1 49.4 47.3 52.0 52.1 GTZAN Acc. 87.9 (CLaMP 3) (Wu et al., 2025a) 76.5 81.0 81.7 93.0 93.1 MTG Genre Micro F1 35.8 (MuQ-MuLan) (Zhu et al., 2025) 25.3 32.6 32.5 39.0 39.5 MTG Mood/Theme Micro F1 10.9 (MuQ-MuLan) (Zhu et al., 2025) 11.3 14.1 8.9 21.0 21.7 MTG Instrument Micro F1 39.8 (MuQ-MuLan) (Zhu et al., 2025) 34.2 33.0 22.6 40.5 40.7 MTG Top50 Micro F1 33.2 (MuQ-MuLan) (Zhu et al., 2025) 25.0 26.1 21.6 36.7 36.9 MagnaTagATune Micro F1 41.6 (MuQ) (Zhu et al., 2025) 29.2 28.1 30.1 44.3 46.8 -
音乐理解:
Qwen3-Omni-Instruct在RUL-MuchoMusic上取得了最先进的 (SOTA) 性能。在GTZAN、MTG-Jamendo和MagnaTagATune等任务上,其得分也显著超越了包括Gemini-2.5-Pro和GPT-4o-Audio在内的其他音频语言模型,以及在相应数据集上探测的自监督音乐专业模型。这表明Qwen3-Omni-Instruct在各种音乐理解任务中具有卓越的能力。
6.1.3. 视觉-文本 (Vision Text) 性能
以下是原文 Table 9 的结果:
| Datasets | GPT4-0 | Gemini-2.0-Flash | Qwen2.5-VL 72B | Qwen3-Omni-30B-A3B -Instruct | Qwen3-Omni-Flash -Instruct |
| General Visual Question Ansrering | |||||
| MMStar | 64.7 | 71.4 | 70.8 | 68.5 | 69.3 |
| HallusionBench | 55.0 | 56.3 | 55.2 | 59.7 | 60.4 |
| MM-MT-Bench | 7.7 | 6.7 | 7.6 | 7.4 | 7.6 |
| Math & STEM | |||||
| MMMUval | 69.1 | 71.3 | 70.2 | 69.1 | 69.8 |
| MMMU-Prooverall | 51.9 | 56.1 | 51.1 | 57.0 | 58.2 |
| MathVistamini MATH-Visionfull | 63.8 | 71.4 | 74.8 | 75.9 | 77.4 |
| 30.4 | 48.6 | 38.1 | 56.3 | 57.3 | |
| Documentation Understanding | |||||
| AI2Dw.M. | 84.6 | 86.7 | 88.7 | 85.2 | 86.4 |
| ChartQAtest Avg. | 86.7 | 64.6 | 89.5 | 86.8 | 87.1 |
| Counting | |||||
| CountBench | 87.9 | 91.2 | 93.6 | 90.0 | 90.0 |
| Video Understanding | |||||
| Video-MMEw/o sub | 71.9 | 72.4 | 73.3 | 70.5 | 71.4 |
| LVBench | 30.8 | 57.9 | 47.3 | 50.2 | 51.1 |
| MLVU | 64.6 | 71.0 | 74.6 | 75.2 | 75.7 |
-
Qwen3-Omni-Instruct的表现: 性能与Qwen2.5-VL-72B相当,并在MathVista-mini和MATH-Visionfull任务上超越了GPT-4o和Gemini-2.0-Flash等其他视觉语言模型,这揭示了模型在图像理解和推理任务上的卓越能力。以下是原文 Table 10 的结果:
Datasets Gemini-2.5-Flash -Thinking InternVL-3.5-241B-A28B Qwen3-Omni-30B-A3B Thinking Qwen3-Omni-Flash -Thinking General Visual Question Answering MMStar 75.5 77.9 74.9 75.5 HallusionBench 61.1 57.3 62.8 63.4 MM-MT-Bench 7.8 − 8.0 8.0 Math & STEM MMMUval 76.9 77.7 75.6 75.0 MMMU-PrOoverall 65.8 60.5 60.8 MathVistamini 77.6 82.7 80.0 81.2 MATH-Visionfull 62.3 63.9 62.9 63.8 Documentation Understanding AI2Dw.M. 88.6 87.3 86.1 86.8 ChartQAtest Avg. 88.0 89.5 89.3 Counting CountBench 88.6 88.6 92.5 Video Understanding Video-MMEw/o sub 79.6 72.9 69.7 69.8 LVBench 64.5 49.0 49.5 MLVU 82.1 78.2 72.9 73.9 -
Qwen3-Omni-Thinking的表现: 在数学和 STEM 基准测试上,其性能比Qwen3-Omni-Instruct基线高出 4.4 分。它达到了与参数量更大的基线模型相当的性能水平,突出了其在效率和效果之间的良好平衡。 -
局限性: 当前模型在长视频基准测试上的性能不佳,这主要是由于位置外推能力有限和上下文长度受限所致。
6.1.4. 音视频-视频-文本 (AudioVisual Video Text) 性能
以下是原文 Table 11 的结果:
| Datasets | Previous Open-source SoTA | Gemini-2.5-Flash | Qwen2.5-Omni | Qwen3-Omni-30B-A3B -Instruct | Qwen3-Omni-Flash -Instruct |
| WorldSense | 47.1(Yang et al., 2025b) | 50.9 | 45.4 | 54.0 | 54.1 |
-
通用理解:
Qwen3-Omni-Instruct在WorldSense基准测试上取得了最先进的 (SOTA) 性能,大幅超越了其他 Omni 模型,显示了其在基础多模态集成方面的有效性。以下是原文 Table 12 的结果:
Datasets Previous Open-source SoTA -Thinking Gemini-2.5-Flash Qwen3-Omni-30B-A3B -Thinking Qwen3-Omni-Flash -Thinking DailyOmni 69.8(Tang et al., 2025) 72.7 75.8 76.2 VideoHolmes 55.6(Tang et al., 2025) 49.5 57.3 57.3 -
复杂推理任务: 在
DailyOmni和VideoHolmes等需要音视频信息互联推理的复杂任务上,模型表现出增强的性能。这些发现共同表明Qwen3-Omni在现实世界场景中具有先进的感知和推理潜力。
6.1.5. 语音生成 (Speech Generation) 性能
以下是原文 Table 13 的结果:
| Datasets | Model | Performance |
| Content Consistency | ||
| SEED test-zh | test-en | Seed-TTSIcL (Anastassiou et al., 2024) | 1.11 | 2.24 |
| Seed-TTSRL (Anastassiou et al., 2024) | 1.00 | 1.94 | |
| MaskGCT (Wang et al., 2024c) | 2.27 2.62 | |
| E2 TTS (Eskimez et al., 2024) | 1.97 2.19 | |
| F5-TTS (Chen et al., 2024c) | 1.56 1.83 | |
| Spark TTS (Wang et al., 2025b) | 1.20 1.98 | |
| CosyVoice 2 (Du et al., 2024) | 1.45 2.57 | |
| CosyVoice 3 (Du et al., 2025) | 0.71 | 1.45 | |
| Qwen2.5-Omni-7B (Xu et al., 2025) | 1.42 2.33 | |
| Qwen3-Omni-30B-A3B | 1.07 | 1.39 |
-
零样本语音生成:
Qwen3-Omni在SEED-TTS测试集上表现出极具竞争力的性能,尤其是在test-en集上达到了最佳性能,这得益于其预训练和持续预训练阶段强大的语音理解和生成能力,并通过强化学习 (RL) 优化显著提升了生成稳定性。以下是原文 Table 14 的结果:
Language Content Consistency Speaker Similarity Qwen3-Omni -30B-A3B MiniMax ElevenLabs Qwen3-Omni -30B-A3B MiniMax ElevenLabs Chinese 0.716 2.252 16.026 0.772 0.780 0.677 English 1.069 2.164 2.339 0.773 0.756 0.613 German 0.777 1.906 0.572 0.738 0.733 0.614 Italian 1.067 1.543 1.743 0.742 0.699 0.579 Portuguese 1.872 1.877 1.331 0.770 0.805 0.711 Spanish 1.765 1.029 1.084 0.744 0.762 0.615 Japanese 3.631 3.519 10.646 0.763 0.776 0.738 Korean 1.670 1.747 1.865 0.778 0.776 0.700 French 2.505 4.099 5.216 0.689 0.628 0.535 Russian 3.986 4.281 3.878 0.759 0.761 0.676 -
多语言语音生成:
Qwen3-Omni在MiniMax Multilingual Test Set上显著超越MiniMax-Speech和ElevenLabs Multilingual v2模型,尤其是在中文、英文和法文等语言上。同时,在其余语言上也取得了有竞争力的结果。这表明Qwen3-Omni能够以一致的稳定性和类人声音生成克隆语音,适用于所有评估的语言。以下是原文 Table 15 的结果:
Language Qwen3-Omni-30B-A3B CosyVoice3 CosyVoice2 en-to-zh 5.37 5.09 13.5 ja-to-zh 3.32 3.05 48.1 ko-to-zh 0.99 1.06 7.70 zh-to-en 2.76 2.98 6.47 ja-to-en 3.31 4.20 17.1 ko-to-en 3.34 4.19 11.2 zh-to-ja 8.29 7.08 13.1 en-to-ja 7.53 6.80 14.9 ko-to-ja 4.24 3.93 5.86 zh-to-ko 5.13 14.4 24.8 en-to-ko 4.96 5.87 21.9 ja-to-ko 6.23 7.92 21.5 -
跨语言语音生成:
Qwen3-Omni在跨语言语音克隆任务中表现出色,在“任意语言到英语 (any-to-en)”和“任意语言到韩语 (any-to-ko)”的语音克隆中优于CosyVoice3。值得注意的是,在“任意语言到日语 (any-to-ja)”的任务中,即使Qwen3-Omni没有进行文本规范化(CosyVoice3将所有日语字符转换为假名),其性能也与CosyVoice3相当。这凸显了Qwen3-Omni在跨语言语音生成方面的优势及其在多样化语言环境中的适应性。
6.1.6. 跨模态无退化性能评估 (Evaluating Non-Degradation Across Modalities)
以下是原文 Table 16 的结果:
| Datasets | Qwen3-30B-A3B -Base-202507 | Qwen3-VL-30B-A3B -Base-202507 | Qwen3-Omni-30B-A3B | |
| -Base-202507 | ||||
| General Tasks | MMLU | 81.24 | 81.69 | |
| MMLU-Redux | 80.17 | 80.60 | ||
| MMLU-Pro | 61.81 | 61.57 | ||
| SuperGPQA | 38.24 | 40.14 | ||
| BBH | 83.79 | 83.53 | ||
| Math & STEAM Tasks | GSM8K MATH | 90.83 | 91.36 | |
| 60.84 | 60.42 | |||
| Coding Tasks | EvalPlus | 69.70 | 73.96 | |
| MultiPL-E | 65.75 | 64.79 | ||
| MBPP | 72.60 | 72.60 | ||
| CRUX-O | 66.94 | 69.06 | ||
| Multilingual Tasks | MGSM INCLUDE | 78.75 65.17 | - | 79.93 64.73 |
| College-level Problems | MMMUval | 57.22 | 59.33 | |
| General Visual Question Answering | MMStar | 67.2 | 69.6 | |
| RealWorldQAavg | 73.98 | 71.89 | ||
| OCR-related Tasks | AI2D | 85.88 | 86.62 | |
| TextVQAval | 81.67 | 81.65 | ||
| DocVQAtest | 95.19 | 95.27 | ||
| InfoVQAtest | 81.17 | 83.31 | ||
| ChartQAtest Avg | 87.12 | 87.52 | ||
| OCRBench | 85.8 | 86.0 | ||
| Video Understanding Tasks | Video-MMEw/o sub | 69.22 | 69.25 | |
| MVBench | 71.87 | 69.50 | ||
| LVBench | 48.61 | 51.07 | ||
为了验证“无退化”的宣称,研究人员设计了一项严格的受控比较研究。他们预训练了三个参数量匹配的模型:一个纯文本基线 (Qwen3-30B-A3B-Base-202507)、一个纯视觉基线 (Qwen3-VL-30B-A3B-Base-202507) 和一个多模态 Omni 模型 (Qwen3-Omni-30B-A3B-Base-202507)。所有混淆变量都被严格控制,包括:Omni 模型使用与单模态基线相同的文本和视觉语料库,所有模型都使用相同的学习率调度、批大小和通过调整数据采样比率规范化的有效训练周期。唯一的区别是 Omni 模型在预训练阶段包含了额外的音频和视听数据。
- 实验结果证明:
- 在文本预训练早期阶段混合单模态和跨模态数据,可以实现所有模态的更优性能。
- 联合多模态训练实现了不同模态之间的相互增强,甚至提高了单一模态的性能。
- 关键发现: 早期多模态整合允许语言模型与视觉或音频协同训练,而不会降低语言能力。文本模态的引入显著提升了视觉和音频性能。相反,添加视觉或音频信号并未观察到语言能力的可衡量提升。
- 额外发现: 经验表明,添加音频数据始终能提升
MMMU基准测试和 OCR 相关任务上的视觉性能。
6.1.7. Qwen3-Omni-Thinking 在语音和音乐理解上的表现 (附录部分)
以下是原文 Table 17 的结果:
| Seed -ASR | Voxtral -Mini | Voxtral -Small | GPT-40 -Transcribe | Gemini-2.5 -Pro | Qwen2.5 -Omni | Qwen3-Omni -30B-A3B-Thinking -Flash-Thinking | Qwen3-Omni | |
| EN & ZH ASR (wer) | ||||||||
| Wenetspeech net I meeting | 4.66 | 5.69 | 24.30 | 31.53 | 20.33 | 26.08 | 15.30 | 32.27 | 14.43 | 13.47 | 5.9117.65 | 6.16|8.17 | 6.85 | 8.42 |
| Librispeech clean other | 1.58 | 2.84 | 1.88 | 4.12 | 1.56|3.30 | 1.39 |3.75 | 2.89 | 3.56 | 1.74|3.45 | 2.22 | 4.38 | 1.82 | 4.01 |
| CV15-en | - | 9.47 | 7.79 | 10.01 | 9.89 | 7.61 | 10.44 | 10.52 |
| CV15-zh | - | 24.67 | 19.30 | 9.84 | 8.00 | 5.13 | 6.25 | 6.61 |
| Fleurs-en | 3.40 | 3.96 | 3.77 | 3.32 | 2.94 | 3.77 | 3.75 | 3.67 |
| Fleurs-zh | 2.69 | 12.22 | 7.98 | 2.44 | 2.71 | 2.54 | 2.73 | 2.57 |
| Multilingual ASR (wer) | ||||||||
| Fleurs-avg (19 lang)a6 | 15.67 | 8.09 | 4.48 | 5.55 | 14.04 | 8.63 | 8.88 | |
| Lyric ASR (wer) | ||||||||
| MIR-1K (vocal-only)b | 6.45 | 23.33 | 18.73 | 11.87 | 9.85 | 8.15 | 11.15 | 10.47 |
| Opencpop-test | 2.98 | 31.01 | 16.06 | 7.93 | 6.49 | 2.84 | 6.11 | 4.52 |
| S2TT (BLEU) | ||||||||
| Fleurs-en2xxc | 30.35 | 37.85 | - | 39.25 | 29.22 | 36.24 | 36.04 | |
| Fleurs-xx2en | 27.54 | 32.81 | 35.41 | 28.61 | 30.50 | 30.22 | ||
| Fleurs-zh2xx | 17.03 | 22.05 | 26.63 | 17.97 | 23.74 | 23.77 | ||
| Fleurs-xx2zh | 28.75 | 34.82 | 37.50 | 27.68 | 34.51 | 34.49 | ||
以下是原文 Table 18 的结果:
| Best Specialist Models | GPT-40 -Audio | Gemini-2.5 -Pro | Qwen2.5 -Omni | Qwen3-Omni -30B-A3B-Thinking | Qwen3-Omni Flash-Thinking | |
| RUL-MuchoMusic | 47.6 (Audio Flamingo 3) (Goel et al., 2025) | 36.1 | 49.4 | 47.3 | 48.3 | 48.4 |
| GTZAN Acc. | 87.9 (CLaMP 3) (Wu et al., 2025a) | 76.5 | 81.0 | 81.7 | 89.0 | 89.0 |
| MTG Genre Micro F1 | 35.8 (MuQ-MuLan) (Zhu et al., 2025) | 25.3 | 32.6 | 32.5 | 32.5 | 33.0 |
| MTG Mood/Theme Micro F1 | 10.9 (MuQ-MuLan) (Zhu et al., 2025) | 11.3 | 14.1 | 8.9 | 14.3 | 15.4 |
| MTG Instrument Micro F1 | 39.8 (MuQ-MuLan) (Zhu et al., 2025) | 34.2 | 33.0 | 22.6 | 36.4 | 36.4 |
| MTG Top50 Micro F1 | 33.2 (MuQ-MuLan) (Zhu et al., 2025) | 25.0 | 26.1 | 21.6 | 29.1 | 29.3 |
| MagnaTagATune Micro F1 | 41.6 (MuQ) (Zhu et al., 2025) | 29.2 | 28.1 | 30.1 | 32.2 | 32.6 |
- 在 和音乐理解领域,
Qwen3-Omni-Thinking模型的性能不如其Instruct对应模型。这表明对于这些主要基于感知 (perception-based) 的任务,复杂的推理过程并不能带来性能提升,甚至可能引入更高的幻觉 (hallucinations) 倾向。
6.2. 定性结果 (Qwen3-Omni-30B-A3B-Captioner 的定性结果)
附录中展示了 Qwen3-Omni-30B-A3B-Captioner 在三种代表性案例研究中的性能:
-
富有表现力的语音分析 (Analysis of Expressive Speech): 模型能够详细描述一个男性说话者在录音室环境中的表演性、自嘲式演讲,包括音调变化、情感表达、录音细节(如背景嘶嘶声、混响)和编辑方式,展现了对语音内容和声学特征的细致理解。
-
复杂场景音效分析 (Analysis of Complex Scene Sound Effect): 模型能够对 25 秒的电影音景进行详细描述,识别出深沉的音乐背景、金属碰撞声、引擎轰鸣、高频尖叫、爆炸冲击等元素,并推断出场景的紧张、危险气氛和工业/科幻背景,以及事件发生后的幸存者状态(呼吸、挣扎声)。这显示了对复杂音效的解构和场景推理能力。
-
混合语音、音频和音乐分析 (Analysis of Mixed Speech, Audio, and Music): 模型成功地对包含机械声、环境音、人声对话和音乐片段的混合音频进行描述。它能区分不同说话者的声音(女性、男性),捕捉对话的情感(抱怨、不耐烦、亲昵),并结合环境音效(金属碰撞、轰鸣、空气摩擦、能量脉冲)和音乐片段,构建一个连贯的叙事(如太空飞船中的家庭旅行场景)。这证明了模型在处理多源、多类型音频信息时的卓越整合和理解能力。
这些定性结果有力地支持了
Qwen3-Omni-30B-A3B-Captioner生成详细、低幻觉音频字幕的能力。
7. 总结与思考
7.1. 结论总结
本论文介绍了 Qwen3-Omni-30B-A3B 及其变体 (Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-Flash-Instruct 和 Qwen3-Omni-Flash-Thinking)。核心结论是,Qwen3-Omni-30B-A3B 在文本和视觉基准测试上,与最新同等规模的单模态 Qwen 模型表现相当或超越。尤其在音频处理和对话基准测试中,它在 32 个开源系统中达到最先进的 (SOTA) 性能,并与强大的专有模型 Gemini-2.5-Pro 相比,性能持平或更优。Qwen3-Omni-30B-A3B-Thinking 变体在跨文本、视觉和音视频推理的复杂任务中取得了进一步的提升。
除了准确性,该模型还支持 119 种文本语言、19 种语音识别语言和 10 种语音合成语言,并实现了音视频理解与交互。尽管功能强大,Qwen3-Omni-30B-A3B 仍能实现 234 毫秒的端到端首包延迟。研究人员认为,Qwen3-Omni 是一个里程碑,首次证明了完全集成、端到端的多模态训练可以在不降低核心语言能力和其他模态性能的情况下实现。
在实际应用中,Qwen3-Omni-30B-A3B 提供了强大的文本和视觉能力、鲁棒可靠的 ASR、超过 20 种语言的交互式语音支持、极低的首包延迟以及稳定自然的语音合成。关键在于,它相比级联 (cascade) 流水线 (pipelines) 展现出优势,包括更强的跨模态推理、更低的端到端延迟以及更低的系统复杂性和成本。
7.2. 局限性与未来工作
论文作者指出了当前模型的一些局限性:
-
长视频理解性能欠佳: 这是由于模型目前在位置外推 (positional extrapolation) 能力有限和上下文长度受限所致。
未来可能的研究方向包括:
-
多说话人 ASR (Multi-speaker ASR): 提升在多说话人场景下的语音识别能力。
-
视频 OCR (Video OCR): 增强在视频中进行光学字符识别的能力。
-
音视频前瞻性学习 (Audiovisual proactive learning): 探索模型如何更主动地从音视频信息中学习和预测。
-
增强对基于智能体工作流和函数调用的支持: 进一步整合模型与外部工具和智能体框架。
7.3. 个人启发与批判
7.3.1. 个人启发
- “无退化”的里程碑意义:
Qwen3-Omni能够实现多模态能力的融合而不牺牲任何单一模态的性能,这对于通用人工智能 (AGI) 的发展具有重要的里程碑意义。它解决了长期以来多模态模型面临的“模态间权衡”的挑战,为未来构建更强大的、真正通用的多模态智能体铺平了道路。 - 工程与用户体验并重: 模型在追求SOTA性能的同时,高度重视工程实现和用户体验,例如 234 毫秒的超低首包延迟,以及 MoE 架构带来的高并发支持。这表明在大型多模态模型领域,性能和实际部署的效率、响应速度同样重要。
- Thinker-Talker 架构的巧妙性: 将复杂的认知任务(
Thinker)和高效的生成任务(Talker)解耦,并允许两者独立控制风格,这提供了一种灵活且可扩展的模型设计范式。Talker不直接依赖Thinker的文本输出,而是基于多模态特征进行条件生成,这在理论上允许更丰富的语音表达,不受文本表达的直接限制。 - 数据混合策略的重要性: 论文强调了在文本预训练早期阶段就混合单模态和跨模态数据的重要性,并证明了这种策略能带来性能的整体提升,甚至在单一模态上也有增益。这提示了多模态训练应尽早、深度地融入,而非仅仅作为后期适配。
- 填补研究空白:
Qwen3-Omni-30B-A3B-Captioner的发布,直接解决了通用音频字幕模型的缺失问题,这对于推动音频理解领域的研究和应用具有积极作用。
7.3.2. 批判与思考
- “无退化”的严格定义与验证: 尽管论文声称“无退化”,但表格中的一些数据(例如 Table 4 中
Qwen3-Omni-30B-A3B-Instruct在MMLU-Redux上的 86.6 分略低于Qwen3-30B-A3B-Instruct-2507的 89.3 分)仍然显示出微小的差异。虽然这些差异可能在统计学上不显著或可接受,但对于“无退化”这一强宣称,未来更严格的统计检验和更广泛的基准测试是必要的。此外,其在长视频理解上的局限性也说明了在某些特定场景下,模态集成仍面临挑战。 - MoE 架构的成本与收益: MoE 架构虽然提高了模型容量和吞吐量,但其训练和推理的复杂性(如专家路由、负载均衡)也可能带来额外的工程挑战。论文中虽然提到了降低 KV 缓存 I/O,但 MoE 本身对内存和计算资源的需求仍然巨大。如何进一步优化 MoE 的效率,使其在更广泛的硬件条件下易于部署,是值得深入探讨的问题。
- AuT 编码器的泛化性:
AuT编码器在 2000 万小时的监督音频数据上从头训练,这无疑是一项巨大的投入。其数据构成(80% 中英文 ASR、10% 其他语言 ASR、10% 音频理解)在一定程度上反映了研究团队的侧重。未来,如何进一步提高其在长尾语言、复杂声学环境或非语音音频(如环境音、音乐情感)理解上的泛化能力,将是重要的研究方向。 - Thinking 模型的具体机制: 论文提到了
Thinking模型能够“显式地对来自任何模态的输入进行推理”,但对其内部的具体推理机制、与Thinker和Talker的交互方式,以及如何量化其“显式推理”的贡献,描述相对较少。这为后续研究提供了探索空间,例如通过可解释性方法深入分析Thinking模型如何进行跨模态推理。 - 未来工作的挑战性: 论文指出的未来工作,如多说话人 ASR、视频 OCR 等,都是当前多模态领域的难点。特别是音视频前瞻性学习,涉及到对动态、时序相关信息的更深层次理解和预测,这要求模型具备更强的世界模型构建能力。
- 应用场景的进一步探索: 尽管论文提到了语音对话、视频对话和视频推理,但多模态模型在教育、医疗、艺术创作等领域的潜力巨大。如何将
Qwen3-Omni的能力进一步细化和适配到特定行业应用中,并解决实际部署中的数据隐私、伦理等问题,将是未来重要的应用方向。
相似论文推荐
基于向量语义检索推荐的相关论文。