Qwen3 Technical Report
TL;DR 精炼摘要
Qwen3是最新的Qwen语言模型系列,结合了稠密和专家混合架构,参数范围从0.6亿到2350亿。其核心创新在于统一框架下的思维模式与非思维模式整合,支持动态切换。引入思维预算机制使用户能根据任务复杂性自适应分配计算资源,优化性能。同时,Qwen3多语言支持由29种扩展至119种,显著提高了全球可访问性。
摘要
In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Qwen3 Technical Report (Qwen3 技术报告)
1.2. 作者
Qwen Team
1.3. 发表期刊/会议
该论文作为预印本(preprint)发布在 arXiv 上。
1.4. 发表年份
2025 年 5 月 14 日
1.5. 摘要
这篇工作介绍了 Qwen 模型家族的最新版本 Qwen3。Qwen3 系列包含一系列旨在提升性能、效率和多语言能力的大型语言模型(LLMs)。Qwen3 系列模型包括稠密(dense)和专家混合(Mixture-of-Expert, MoE)两种架构,参数规模从 0.6 亿到 2350 亿不等。Qwen3 的一个关键创新是将思维模式(thinking mode,用于复杂的多步推理)和非思维模式(non-thinking mode,用于快速的、上下文驱动的响应)整合到一个统一的框架中。这消除了在不同模型(如针对聊天优化的 GPT-4o 和专用推理模型 QwQ-32B)之间切换的需求,并能根据用户查询或聊天模板动态切换模式。同时,Qwen3 引入了思维预算机制,允许用户在推理过程中自适应地分配计算资源,从而根据任务复杂性平衡延迟和性能。此外,通过利用旗舰模型的知识,显著降低了构建小规模模型所需的计算资源,同时确保了其极具竞争力的性能。经验评估表明,Qwen3 在代码生成、数学推理、Agent 任务等各种基准测试中达到了最先进的(state-of-the-art)结果,与更大的 MoE 模型和专有模型相比也具有竞争力。与前身 Qwen2.5 相比,Qwen3 的多语言支持从 29 种扩展到 119 种语言和方言,通过改进的跨语言理解和生成能力增强了全球可访问性。为了促进可复现性(reproducibility)和社区驱动的研究与开发,所有 Qwen3 模型均在 Apache 2.0 许可下公开。
1.6. 原文链接
https://arxiv.org/abs/2505.09388
1.7. PDF 链接
https://arxiv.org/pdf/2505.09388v1.pdf
2. 整体概括
2.1. 研究背景与动机
当前人工智能领域正积极追求通用人工智能(AGI)甚至超人工智能(ASI)。近期 GPT-4o、Claude 3.7、Gemini 2.5 等大型基础模型的进展显著推动了这一目标。这些模型通过在海量数据集上训练,有效地将人类知识和能力提炼到其参数中。特别是在推理能力方面,通过强化学习优化的模型如 03、DeepSeek-R1 展现了巨大潜力。
然而,现有研究面临几个挑战:
-
模式切换不便: 传统的
LLMs通常针对特定任务(如聊天优化或专门推理)进行优化,导致用户在需要不同模式能力时必须切换不同的模型,效率低下。例如,用户在需要快速响应和复杂推理之间切换时,可能需要在Qwen2.5和QwQ模型之间来回切换。 -
资源分配不灵活: 模型的计算资源在推理时通常是固定的,无法根据任务的复杂性动态调整,导致在简单任务上浪费资源,而在复杂任务上可能性能不足。
-
小模型构建成本高: 训练高性能的小规模模型通常需要大量的计算资源和开发精力。
Qwen3的研究动机正是为了解决这些挑战,通过以下创新点切入: -
统一框架: 将推理(
thinking mode)和快速响应(non-thinking mode)整合到一个模型中,允许动态切换。 -
思维预算机制: 赋予用户对模型推理过程的细粒度控制,优化计算资源和性能。
-
知识蒸馏: 利用旗舰模型的知识来高效地提升小规模模型的性能,降低其开发成本。
-
多语言扩展: 显著增加语言支持,提升全球可访问性。
2.2. 核心贡献/主要发现
这篇论文的核心贡献和主要发现可以总结如下:
- 发布
Qwen3系列模型: 推出了一系列开放权重(open-weight)的大型语言模型,包括稠密和专家混合(MoE)架构,参数规模从 0.6 亿到 2350 亿,满足了不同下游应用的性能和效率需求。旗舰模型Qwen3-235B-A22B拥有 2350 亿总参数和 220 亿激活参数。 - 创新性模式集成与控制: 首次在单个模型中集成了思维模式和非思维模式。这一设计允许用户动态地在两种模式之间切换,避免了在不同模型之间来回切换的需要。同时引入了思维预算(
thinking budget)机制,使用户能够对模型在推理过程中的计算资源分配进行精细控制,以平衡延迟和性能。 - 显著提升多语言能力: 将模型的多语言支持从
Qwen2.5的 29 种语言和方言扩展到 119 种,极大地增强了全球可访问性和跨语言理解与生成能力。 - 高效的小模型构建策略: 通过
强到弱蒸馏 (Strong-to-Weak Distillation)方法,利用旗舰模型的知识,显著降低了构建高性能小规模模型所需的计算资源和开发工作,确保了其在同等或更大参数规模模型中保持竞争力。 - 卓越的
state-of-the-art性能: 经验评估表明,Qwen3系列模型在广泛的基准测试中(包括代码生成、数学推理、Agent任务等)取得了state-of-the-art的结果,不仅超越了其前身Qwen2.5,还与更大的MoE模型和一些专有模型(如OpenAI-o1、Gemini2.5-Pro、GPT-4o)展现出强劲的竞争力。 - 开源开放: 所有
Qwen3模型均在 Apache 2.0 许可下公开,促进了社区驱动的研究和创新。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解 Qwen3 的技术报告,我们首先需要了解一些关键的基础概念。
- 大型语言模型 (Large Language Models, LLMs):
LLMs是一类使用深度学习技术(特别是Transformer架构)在海量文本数据上训练的模型。它们能够理解、生成人类语言,并执行各种自然语言处理任务,如问答、翻译、摘要、代码生成等。 - Transformer 架构 (Transformer Architecture):
Transformer是一种深度学习模型架构,由Attention机制(特别是自注意力机制 (Self-Attention Mechanism))构成,广泛应用于LLMs。它能有效地处理序列数据,捕捉长距离依赖关系。 - 注意力机制 (Attention Mechanism):
Attention机制允许模型在处理序列的每个元素时,动态地关注输入序列中的不同部分,从而更好地理解上下文。其核心思想是为输入序列中的每个元素分配一个权重,表示其对当前输出的重要性。- 自注意力机制 (Self-Attention Mechanism):
Self-Attention是Attention机制的一种特殊形式,它允许模型在处理序列中的一个词元(token)时,同时考虑序列中所有其他词元与它的关系。 - 组查询注意力 (Grouped Query Attention, GQA):
GQA是一种Attention机制的变体,旨在提高推理效率。它介于多头注意力 (Multi-Head Attention, MHA)和多查询注意力 (Multi-Query Attention, MQA)之间。在GQA中,多个查询头(query heads)共享一组键(key)和值(value)头,而不是每个查询头都有独立的键和值头(MHA),也不是所有查询头共享同一个键和值头(MQA)。这在保持MHA性能的同时,有效降低了MQA可能带来的性能下降,从而在效率和性能之间取得平衡。
- 自注意力机制 (Self-Attention Mechanism):
- 稠密模型 (Dense Models):这是传统的
Transformer模型架构,其中所有的参数在每次前向传播时都会被激活和使用。模型越大,计算成本越高。 - 专家混合模型 (Mixture-of-Experts, MoE):
MoE是一种神经网络架构,旨在通过条件计算提高模型容量和效率。在MoE模型中,网络的某些层由多个“专家”(expert)子网络组成,一个“门控网络”(gating network)或“路由网络”(router network)根据输入动态地选择或组合少数几个专家来处理当前输入。这意味着在每次前向传播时,只有一部分专家会被激活,从而在拥有巨大总参数量的同时,保持相对较低的计算成本。- 总参数 (Total Parameters):
MoE模型中所有专家网络和门控网络的参数总和。 - 激活参数 (Activated Parameters):在
MoE模型中,每次处理一个输入时,实际被激活和参与计算的专家参数量。这通常远小于总参数量,是衡量MoE模型推理效率的关键指标。
- 总参数 (Total Parameters):
- 旋转位置嵌入 (Rotary Positional Embeddings, RoPE):
RoPE是一种用于Transformer模型的位置编码方法。它通过在Attention计算中将位置信息以旋转矩阵的形式融入到查询(query)和键(key)向量中,使得模型能够感知序列中词元的位置关系,并能更好地外推到比训练时更长的序列。 - 根均方归一化 (Root Mean Square Normalization, RMSNorm):
RMSNorm是一种简化版的层归一化(Layer Normalization),它只对激活值的平方和进行归一化,而省略了均值减去的过程。这通常能略微提高训练效率和性能。 - SwiGLU:
SwiGLU是一种激活函数,结合了Swish激活函数和门控线性单元 (Gated Linear Unit, GLU)的思想。它通过一个门控机制来控制信息流,能够提高模型的表达能力和性能。 - QK-Norm:
QK-Norm是一种用于稳定Transformer训练的技术,特别是在Attention机制中。它通过对query和key向量进行归一化,可以帮助缓解Attention分数过大或过小的问题,从而避免训练不稳定或梯度消失/爆炸。 - 词元器 (Tokenizer):
Tokenizer是将原始文本(如句子)分割成更小的单元(称为词元)的过程。这些词元可以是单词、子词或字符,然后被映射到数值表示(token ID)作为模型的输入。Byte-level Byte-Pair Encoding (BBPE)是一种常见的Tokenizer算法,它首先将文本编码为字节序列,然后通过迭代合并频繁出现的字节对来构建词汇表,从而能够处理任意文本(包括未知字符)并有效控制词汇表大小。 - 思维模式 (Thinking Mode) 和 非思维模式 (Non-Thinking Mode):这是
Qwen3引入的创新概念。思维模式 (Thinking Mode):当模型需要进行复杂、多步骤的推理时激活。在此模式下,模型可能会生成中间推理步骤(如Chain-of-Thought),然后再给出最终答案。非思维模式 (Non-Thinking Mode):当模型需要快速、直接地响应,或者任务不需要复杂推理时激活。在此模式下,模型会直接给出答案,减少推理时间。
- 思维预算机制 (Thinking Budget Mechanism):允许用户控制在
思维模式下模型可以生成多少词元(token)用于推理。这使得用户可以根据任务的复杂度和对延迟的要求,灵活分配计算资源。 - 强化学习 (Reinforcement Learning, RL):
RL是一种机器学习范式,其中智能体 (agent)通过与环境交互来学习如何做出决策以最大化累积奖励。在LLM训练中,RL通常用于后训练 (post-training)阶段,以使模型行为更符合人类偏好或特定任务要求。 - 监督微调 (Supervised Fine-Tuning, SFT):
SFT是指在预训练模型的基础上,使用带有标签的特定任务数据对模型进行进一步训练。这有助于模型适应特定任务的风格和要求。 - 知识蒸馏 (Knowledge Distillation):这是一种模型压缩技术,其中一个大型、高性能的“教师”(
teacher)模型将其学习到的知识传递给一个小型、低容量的“学生”(student)模型。学生模型通过模仿教师模型的输出(如logits或注意力分布)来学习,从而在保持相对较小规模的同时,达到接近教师模型的性能。 - Chain-of-Thought (CoT):
CoT是一种提示(prompting)技术,通过引导LLM逐步思考问题,展示其推理过程,从而提高模型在复杂推理任务上的性能。
3.2. 前人工作
Qwen3 的开发建立在 LLM 领域众多前人工作的基础之上,并在此基础上进行创新。
- 大型基础模型 (Large Foundation Models):
GPT-4o(OpenAI, 2024)、Claude 3.7(Anthropic, 2025)、Gemini 2.5(DeepMind, 2025)、DeepSeek-V3(Liu et al., 2024a)、Llama-4(Meta-AI, 2025) 以及Qwen2.5(Yang et al., 2024b) 等模型代表了LLM领域的最新进展。这些模型通过在海量数据集上的训练,展现了强大的通用能力。
- 推理优化模型 (Reasoning-Optimized Models):
03(OpenAI, 2025) 和DeepSeek-R1(Guo et al., 2025) 等模型通过强化学习等技术专门优化了推理能力,展示了LLM在复杂逻辑和多步问题解决方面的潜力。
Qwen系列前作 (Previous Qwen Series):Qwen2.5(Yang ett al., 2024b) 是Qwen3的直接前身,提供了Qwen3稠密模型架构的基础。Qwen2.5-MoE(Yang et al., 2024b) 为Qwen3的MoE架构设计提供了起点,并在专家分割方面进行了继承。QwQ(Qwen Team, 2024, 2025) 是Qwen团队专门为推理任务优化的模型,其在Qwen3的思维模式设计中被视为一种参考和超越的目标。
- 数据扩展与合成 (Data Expansion and Synthesis):
Qwen2.5-VL(Bai et al., 2025) 被用于从PDF文档中提取文本,以扩大训练数据。Qwen2.5-Math(Yang et al., 2024c) 和Qwen2.5-Coder(Hui et al., 2024) 用于生成领域特定的合成数据,以增强模型在数学和编码方面的能力。
- 长文本处理技术 (Long-Context Processing Techniques):
ABF(Xiong et al., 2023) 技术用于RoPE的频率扩展,以处理更长的上下文。YARN(Peng et al., 2023) 和Dual Chunk Attention (DCA)(An et al., 2024) 用于在推理时进一步扩展序列长度容量。
- 架构组件 (Architectural Components):
GQA(Ainslie et al., 2023)、SwiGLU(Dauphin et al., 2017)、RoPE(Su et al., 2024)、RMSNorm(Jiang et al., 2023) 等先进组件在Qwen3中得到沿用或改进。QK-Norm(Dehghani et al., 2023) 被引入以确保训练稳定性。全局批次负载均衡损失 (global-batch load balancing loss)(Qiu et al., 2025) 用于优化MoE模型的专家利用。
3.3. 技术演进
Qwen3 代表了 LLM 领域的几个重要技术演进方向:
- 从单一模型到多功能统一: 早期
LLM往往专注于特定任务,如通用聊天或专门推理。Qwen3通过整合思维模式和非思维模式,实现了在一个统一框架内动态切换不同功能的能力,提高了模型的通用性和用户便利性。 - 从固定资源到动态分配:
思维预算机制的引入,标志着从固定计算资源分配向根据任务需求动态分配资源的转变,这对于优化推理效率和成本至关重要。 - 从语言受限到全球覆盖: 将多语言支持从 29 种扩展到 119 种语言和方言,反映了
LLM越来越重视全球化应用和跨文化交流的能力。 - 从独立训练到知识共享:
强到弱蒸馏策略的成功应用,使得小规模模型能够受益于旗舰模型的强大能力,显著提高了开发效率和成本效益,促进了高性能模型的普及。 MoE架构的持续优化:Qwen3在MoE架构上的改进(如取消共享专家、引入全局批次负载均衡损失)体现了对MoE模型效率和性能极限的不断探索。- 预训练和后训练的精细化: 三阶段预训练策略和多阶段后训练流程(包括
长 CoT 冷启动、推理 RL、思维模式融合、通用 RL)表明LLM的训练过程正变得越来越精细和有针对性。
3.4. 差异化分析
Qwen3 与其相关工作(特别是与 Qwen2.5 和其他 state-of-the-art 模型)相比,具有以下核心区别和创新点:
- 统一的思维/非思维模式框架:
- Qwen3 创新: 最显著的特点。它在一个模型中同时支持
思维模式(用于复杂推理)和非思维模式(用于快速响应),并允许用户动态切换。 - 与现有模型差异: 许多现有模型(包括
Qwen2.5)通常是单一模式的,或者需要用户在不同模型版本(如chat优化版和reasoning优化版)之间手动切换。例如,GPT-4o侧重聊天,QwQ-32B侧重推理,Qwen3将这两种能力统一。
- Qwen3 创新: 最显著的特点。它在一个模型中同时支持
- 思维预算机制:
- Qwen3 创新: 引入了
思维预算,用户可以根据任务复杂性自适应地分配计算资源,平衡延迟和性能。 - 与现有模型差异: 多数
LLM在推理时计算资源是固定的,或者仅通过改变采样参数(如温度)来间接影响输出冗余度,而非直接控制推理步骤的深度。
- Qwen3 创新: 引入了
- 高效的小模型构建:
- Qwen3 创新: 采用
强到弱蒸馏策略,从旗舰模型(如Qwen3-235B-A22B)的知识中学习,显著降低了开发高性能小模型(如Qwen3-0.6B到Qwen3-14B)的计算成本和时间。 - 与现有模型差异: 其他模型通常需要对每个模型规模进行独立的、昂贵的强化学习或微调过程。
Qwen3的蒸馏方法在性能和训练效率上都优于直接的强化学习。
- Qwen3 创新: 采用
- 扩展的多语言支持:
- Qwen3 创新: 将多语言覆盖范围从
Qwen2.5的 29 种大幅扩展到 119 种语言和方言。 - 与现有模型差异: 虽然许多
LLM宣称支持多语言,但Qwen3在覆盖范围和实际性能上都达到了一个新的高度,特别是在低资源语言方面。
- Qwen3 创新: 将多语言覆盖范围从
MoE架构优化:- Qwen3 创新:
Qwen3 MoE模型(如Qwen3-235B-A22B)取消了共享专家,并采用了全局批次负载均衡损失来鼓励专家特化,从而在更少的激活参数下实现卓越性能。 - 与
Qwen2.5-MoE差异:Qwen2.5-MoE包含共享专家,Qwen3 MoE通过这些改进,在更少的激活参数和总参数下超越了Qwen2.5 MoE。 - 与
DeepSeek-V3等 MoE 差异:Qwen3-235B-A22B在多数基准上超越了DeepSeek-V3 Base,且总参数量仅为其约三分之一,激活参数量为其约三分之二,显示出更高的成本效益。
- Qwen3 创新:
- 整体性能提升:
- Qwen3 创新: 在预训练和后训练模型上都达到了
state-of-the-art性能,尤其在编码、数学和Agent任务中表现突出,即使与闭源模型相比也极具竞争力。 - 与
Qwen2.5差异: 在相同或更小的参数规模下,Qwen3模型(特别是小型稠密模型和MoE模型)在 STEM、编码和推理基准上显著超越了Qwen2.5模型。
- Qwen3 创新: 在预训练和后训练模型上都达到了
4. 方法论
4.1. 方法原理
Qwen3 的核心方法原理在于构建一个统一、高效且多功能的 LLM 系列。这通过将先进的 Transformer 架构(包括稠密和 MoE 变体)、大规模多语言预训练数据、精细化的多阶段训练流程以及创新的模式控制机制(思维模式 和 非思维模式 及 思维预算)相结合来实现。其背后直觉是,通过在模型设计之初就考虑多种使用场景(快速响应和复杂推理),并辅以精密的训练策略和知识蒸馏,可以创建一个既能提供顶级性能,又能在不同规模下保持高效的通用 LLM。
4.2. 核心方法详解
4.2.1. 模型架构 (Architecture)
Qwen3 系列包含了六个稠密模型和两个 MoE 模型,参数规模多样化,以适应不同应用的需求。
-
稠密模型 (Dense Models):
Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B。 -
MoE模型 (MoE Models):Qwen3-30B-A3B和旗舰模型Qwen3-235B-A22B。其中,Qwen3-235B-A22B的总参数为 2350 亿,每个词元激活参数为 220 亿。Qwen3稠密模型的架构与Qwen2.5相似,主要特征包括: -
组查询注意力 (Grouped Query Attention, GQA):用于提高推理效率。
-
SwiGLU:作为激活函数增强模型表达能力。
-
旋转位置嵌入 (Rotary Positional Embeddings, RoPE):处理位置信息。
-
RMSNorm:带有预归一化 (pre-normalization)的RMSNorm用于稳定训练。此外,
Qwen3稠密模型做出了一些改进: -
移除 QKV-bias:与
Qwen2不同,Qwen3移除了QKV-bias。 -
引入 QK-Norm:在
Attention机制中引入QK-Norm,以确保Qwen3训练的稳定性。以下是
Qwen3稠密模型的关键架构信息:
以下是原文 Table 1 的结果:
| Models | Layers | Heads (Q / KV) | Tie Embedding | Context Length |
| Qwen3-0.6B | 28 | 16 / 8 | Yes | 32K |
| Qwen3-1.7B | 28 | 16 / 8 | Yes | 32K |
| Qwen3-4B | 36 | 32 / 8 | Yes | 128K |
| Qwen3-8B | 36 | 32 / 8 | No | 128K |
| Qwen3-14B | 40 | 40 / 8 | No | 128K |
| Qwen3-32B | 64 | 64 / 8 | No | 128K |
Qwen3 MoE 模型与稠密模型共享相同的基本架构。
-
专家分割 (Expert Segmentation):沿用
Qwen2.5-MoE的精细专家分割方案。 -
专家数量:
Qwen3 MoE模型共有 128 个专家,每个词元激活 8 个专家。 -
无共享专家:与
Qwen2.5-MoE不同,Qwen3 MoE设计排除了共享专家。 -
负载均衡损失 (Load Balancing Loss):采用
全局批次负载均衡损失 (global-batch load balancing loss)来鼓励专家特化,从而提高模型性能。以下是
Qwen3 MoE模型的关键架构信息:
以下是原文 Table 2 的结果:
| Models | Layers | Heads (Q / KV) | # Experts (Total / Activated) | Context Length |
| Qwen3-30B-A3B | 48 | 32 / 4 | 128 / 8 | 128K |
| Qwen3-235B-A22B | 94 | 64 / 4 | 128 / 8 | 128K |
- 词元器 (Tokenizer):
Qwen3模型使用Qwen的词元器,该词元器实现了字节级字节对编码 (byte-level byte-pair encoding, BBPE),词汇表大小为 151,669。
4.2.2. 预训练 (Pre-training)
Qwen3 的预训练旨在构建一个基础扎实、能力多样的模型。
4.2.2.1. 预训练数据 (Pre-training Data)
Qwen3 使用了一个规模和多样性都显著扩展的训练数据集。
- 规模与语言:总计 36 万亿词元,涵盖 119 种语言和方言(相比
Qwen2.5增加了三倍的语言种类)。 - 内容多样性:包括编码、
STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本和合成数据等高质量内容。 - 数据扩展方法:
- 文本识别:利用
Qwen2.5-VL模型对大量PDF文档进行文本识别,然后通过Qwen2.5模型进行精炼以提高文本质量,获得了数万亿额外的文本词元。 - 合成数据:使用
Qwen2.5、Qwen2.5-Math和Qwen2.5-Coder模型合成数万亿词元,涵盖教科书、问答、指令和代码片段等多种格式和数十个领域。 - 多语言数据:引入了额外的多语言数据,显著增加了支持的语言种类。
- 文本识别:利用
- 数据标注与优化:开发了一个多语言数据标注系统,对超过 30 万亿词元进行多维度标注(教育价值、领域、安全性等),以支持更有效的数据过滤和组合。通过在小型代理模型上进行大规模消融实验,利用细粒度数据标签优化数据混合比例。
4.2.2.2. 预训练阶段 (Pre-training Stage)
Qwen3 模型采用三阶段预训练过程:
-
通用阶段 (General Stage, S1):
- 所有
Qwen3模型在此阶段使用 4,096 词元序列长度,在超过 30 万亿词元上进行训练。 - 目标是建立强大的语言能力和通用世界知识基础,涵盖 119 种语言和方言。
- 所有
-
推理阶段 (Reasoning Stage, S2):
- 为进一步提升推理能力,此阶段的预训练语料库增加了
STEM、编码、推理和合成数据的比例。 - 模型在约 5 万亿更高质量的词元上进行进一步预训练,序列长度未明确给出,但暗示是为推理优化。
- 为进一步提升推理能力,此阶段的预训练语料库增加了
-
长文本阶段 (Long Context Stage):
- 在最终的预训练阶段,收集高质量的长文本语料,以扩展
Qwen3模型的上下文长度。 - 所有模型在数千亿词元上进行预训练,序列长度为 32,768 词元。
- 长文本语料包含 75% 长度在 16,384 到 32,768 词元之间的文本,以及 25% 长度在 4,096 到 16,384 词元之间的文本。
- 技术应用:
RoPE:遵循Qwen2.5,使用ABF技术将RoPE的基频从 10,000 增加到 1,000,000。YARN和Dual Chunk Attention (DCA):引入这些技术,以在推理时实现四倍的序列长度容量增长。
- 在最终的预训练阶段,收集高质量的长文本语料,以扩展
- 缩放法则 (Scaling Laws):借鉴
Qwen2.5,Qwen团队为上述三个预训练阶段开发了用于最佳超参数(学习率调度器、批次大小)预测的缩放法则。通过大量实验,系统研究了模型架构、训练数据、训练阶段和最佳训练超参数之间的关系,为每个稠密或MoE模型设定了预测的学习率和批次大小策略。
4.2.3. 后训练 (Post-training)
Qwen3 的后训练流程旨在将预训练模型的通用能力转化为更符合人类偏好和下游应用需求的能力,特别是整合了 思维模式 和 非思维模式。
下图(原文 Figure 1)展示了 Qwen3 系列模型的后期训练流程:
该图像是Qwen3系列模型的后期训练流程示意图。图中展示了从基础模型到旗舰模型和轻量级模型的不同训练阶段,包括长期CoT冷启动、推理强化学习、思维模式融合和一般强化学习等关键步骤。
VLM 描述: 该图像是Qwen3系列模型的后期训练流程示意图。图中展示了从基础模型到旗舰模型和轻量级模型的不同训练阶段,包括长期CoT冷启动、推理强化学习、思维模式融合和一般强化学习等关键步骤。
Qwen3 的后训练管线有两个核心目标:
-
思维控制 (Thinking Control):集成
非思维和思维两种模式,允许用户灵活选择模型是否进行推理,并通过思维预算控制推理深度。 -
强到弱蒸馏 (Strong-to-Weak Distillation):优化轻量级模型的后训练过程,通过从大型模型中转移知识,降低计算成本和开发工作。
旗舰模型采用复杂的四阶段后训练过程,前两个阶段侧重于开发“思维”能力,后两个阶段旨在整合强大的“非思维”功能。对于小型模型,直接将教师模型的
输出 logits (output logits)蒸馏到学生模型中,以提高性能并保持对推理过程的精细控制,这种方法比独立进行四阶段训练效率高得多(仅需约 1/10 的GPU小时)。
4.2.3.1. 长 CoT 冷启动 (Long-CoT Cold Start)
- 数据集构建:构建了一个涵盖数学、代码、逻辑推理和通用
STEM问题的大型数据集,每个问题都配有经过验证的参考答案或基于代码的测试用例。 - 两阶段过滤过程:
- 查询过滤 (Query Filtering):使用
Qwen2.5-72B-Instruct识别并移除难以验证的查询(如包含多个子问题或要求通用文本生成),以及无需CoT就能正确回答的查询。同时,使用Qwen2.5-72B-Instruct注释每个查询的领域,以保持数据集的领域平衡。 - 响应过滤 (Response Filtering):对于保留的查询,使用
QwQ-32B生成 个候选响应。当QwQ-32B无法生成正确解决方案时,由人工标注者评估响应的准确性。对于Pass@N为正的查询,进一步应用严格的过滤标准,移除不正确的最终答案、大量重复、明显猜测、思维与总结内容不一致、不当语言混合或风格转换、以及可能过于接近验证项目(validation item)的响应。
- 查询过滤 (Query Filtering):使用
- 目标:在此阶段,目标是向模型灌输基础的推理模式,而不过度强调即时推理性能,为后续的
强化学习 (Reinforcement Learning, RL)阶段提供更大的灵活性和改进空间。因此,在此准备阶段,训练样本数量和训练步骤都尽可能最小化。
4.2.3.2. 推理强化学习 (Reasoning RL)
- 数据选择:用于
推理 RL阶段的查询-验证器对必须满足四个标准:(1) 未在冷启动阶段使用;(2) 对冷启动模型可学习;(3) 尽可能具有挑战性;(4) 涵盖广泛的子领域。最终收集了 3,995 对查询-验证器对。 - 算法与优化:采用
GRPO(Shao et al., 2024) 更新模型参数。实验发现,使用大批次、每个查询高次数的推演 (rollout)以及离策略训练 (off-policy training)以提高样本效率对训练过程有益。 - 探索与利用的平衡:通过控制模型的熵(
entropy)使其稳定或逐渐增加,以平衡探索(exploration)和利用(exploitation),这对维持训练稳定至关重要。 - 效果:例如,
Qwen3-235B-A22B模型在 170 步RL训练后,AIME'24分数从 70.1 提高到 85.1。
4.2.3.3. 思维模式融合 (Thinking Mode Fusion)
-
目标:将
非思维能力整合到先前开发的思维模型中,允许开发者管理和控制推理行为,同时降低部署独立模型(用于思维和非思维任务)的成本和复杂性。 -
方法:在
推理 RL模型上进行连续的监督微调 (Supervised Fine-Tuning, SFT),并设计聊天模板 (chat template)融合两种模式。 -
SFT 数据构建:
SFT数据集结合了思维和非思维数据。思维数据:通过对第一阶段查询使用第二阶段模型进行拒绝采样 (rejection sampling)生成,以确保不影响第二阶段模型的性能。非思维数据:精心策划,涵盖聊天、知识和角色扮演等多样化任务。使用自动生成的检查清单评估非思维数据的响应质量。为了增强低资源语言任务的性能,特别增加了翻译任务的比例。
-
聊天模板设计 (Chat Template Design):设计了用于
Qwen3的聊天模板,以便更好地集成两种模式并允许用户动态切换模型的思维过程。-
标记:在用户查询或系统消息中引入
/think和/no_think标记。 -
格式一致性:对于
非思维模式样本,在助手的响应中保留一个空的思维块 (thinking block)。这确保了模型内部格式的一致性,并允许开发者通过在聊天模板中连接一个空的思维块来阻止模型进行思维行为。 -
默认行为:模型默认以
思维模式运行,因此在训练数据中也包含了一些用户查询不带/think标记的思维模式训练样本。 -
多轮对话:对于更复杂的多轮对话,随机在用户查询中插入多个
/think和/no_think标记,模型响应遵循遇到的最后一个标记。以下是原文 Table 9 的结果:
Thinking Mode Non-Thinking Mode <|im_start/>user {query}/think<|im_end|> <|im_start|>user {query}/no_think<|im_end|> <|im_start/>assistant <think> <|im_start/>assistant <think> {thinking_content} </think> </think> {response}<|im_end|> {response}<|im_end|>
-
-
思维预算 (Thinking Budget):
思维模式融合的一个额外优势是,一旦模型学会了在非思维和思维模式下响应,它自然会发展出处理中间情况的能力——即基于不完整的思维生成响应。这为实现模型思维过程的预算控制奠定了基础。具体来说,当模型的思维长度达到用户定义的阈值时,会手动停止思维过程,并插入停止思维指令:“”。在此指令插入后,模型会根据其截至该点积累的推理生成最终响应。值得注意的是,这种能力并非明确训练,而是思维模式融合的自然结果。
4.2.3.4. 通用强化学习 (General RL)
- 目标:在多样化场景中,全面增强模型的各种能力和稳定性。
- 奖励系统 (Reward System):建立了包含 20 多个任务的复杂奖励系统,每个任务都有定制的评分标准,以提升以下核心能力:
- 指令遵循 (Instruction Following):确保模型准确理解并遵循用户指令(内容、格式、长度、结构化输出要求),生成符合用户期望的响应。
- 格式遵循 (Format Following):除了显式指令,模型还应遵守特定格式约定。例如,根据
/think和/no_think标记切换模式,并一致使用 和 等标记分隔思维和响应部分。 - 偏好对齐 (Preference Alignment):对于开放式查询,侧重于提高模型的有用性、参与度和风格,以提供更自然、更令人满意的用户体验。
Agent能力 (Agent Ability):训练模型通过指定接口正确调用工具。在RL 推演 (RL rollout)过程中,模型被允许执行完整的、多轮的与真实环境执行反馈的交互循环,从而提高其在长序列决策任务中的性能和稳定性。- 专门场景能力 (Abilities for Specialized Scenarios):在更专业的场景中,设计了针对特定上下文的任务。例如,在
检索增强生成 (Retrieval-Augmented Generation, RAG)任务中,引入奖励信号,引导模型生成准确和上下文相关的响应,从而最大程度地减少幻觉 (hallucination)风险。
- 奖励类型 (Reward Types):为了提供上述任务的反馈,使用了三种不同的奖励类型:
- 基于规则的奖励 (Rule-based Reward):广泛用于
推理 RL阶段,也适用于指令遵循和格式遵循等通用任务。精心设计的基于规则的奖励可以高精度评估模型输出的正确性,防止奖励欺骗 (reward hacking)等问题。 基于模型的奖励 (Model-based Reward with Reference Answer):为每个查询提供参考答案,并提示Qwen2.5-72B-Instruct根据此参考对模型的响应进行评分。这种方法可以更灵活地处理多样化任务,无需严格格式化,避免了纯基于规则的奖励可能出现的假阴性(false negatives)。不带参考答案的基于模型的奖励 (Model-based Reward without Reference Answer):利用人类偏好数据训练一个奖励模型 (reward model),为模型响应分配标量分数。这种方法不依赖参考答案,可以处理更广泛的查询,同时有效增强模型的参与度和有用性。
- 基于规则的奖励 (Rule-based Reward):广泛用于
4.2.3.5. 强到弱蒸馏 (Strong-to-Weak Distillation)
强到弱蒸馏 管线专门设计用于优化轻量级模型,包括 5 个稠密模型(Qwen3-0.6B、1.7B、4B、8B 和 14B)和一个 MoE 模型(Qwen3-30B-A3B)。这种方法在提升模型性能的同时,有效地赋予了强大的模式切换能力。蒸馏过程分为两个主要阶段:
-
离策略蒸馏 (Off-policy Distillation):
- 在此初始阶段,结合教师模型(通常是旗舰模型,如
Qwen3-235B-A22B)在/think和/no_think两种模式下生成的输出进行响应蒸馏。 - 这有助于轻量级学生模型发展基本的推理技能和在不同思维模式之间切换的能力,为后续的
在策略训练 (on-policy training)阶段奠定坚实基础。
- 在此初始阶段,结合教师模型(通常是旗舰模型,如
-
在策略蒸馏 (On-policy Distillation):
- 在此阶段,学生模型生成
在策略序列 (on-policy sequences)用于微调。 - 具体来说,采样提示(
prompts),学生模型以/think或/no_think模式生成响应。 - 然后,通过将其
logits与教师模型(Qwen3-32B或Qwen3-235B-A22B)的logits对齐,最小化KL 散度 (KL divergence)来对学生模型进行微调。
- 在此阶段,学生模型生成
4.2.4. 思维预算有效性 (Effectiveness of Thinking Budget)
为了验证 Qwen3 能够通过增加 思维预算 来提升其智能水平,研究人员在数学、编码和 STEM 领域的四个基准测试中调整了分配的 思维预算。结果表明,Qwen3 展现出与分配的 思维预算 相关的可扩展且平滑的性能改进。此外,如果将输出长度进一步扩展到 32K 以外,模型的性能预计会进一步提高。
下图(原文 Figure 2)展示了 Qwen3-235B-A22B 在不同思维预算下的性能:
该图像是一个图表,显示了 Qwen3-235B-A22B 在不同思维预算下的性能表现,包括 AIME'24、AIME'25、LiveCodeBench (v5) 和 GPQA Diamond 四个任务。图中分别展示了思维模式和非思维模式的效果,随着思维预算的增加,性能显著提升。
VLM 描述: 该图像是一个图表,显示了 Qwen3-235B-A22B 在不同思维预算下的性能表现,包括 AIME'24、AIME'25、LiveCodeBench (v5) 和 GPQA Diamond 四个任务。图中分别展示了思维模式和非思维模式的效果,随着思维预算的增加,性能显著提升。
从图中可以看出,随着 思维预算 的增加(横轴),Qwen3-235B-A22B 在 AIME'24、AIME'25、LiveCodeBench (v5) 和 GPQA Diamond 这四个任务上的性能(纵轴)均呈现出明显的上升趋势,证实了 思维预算 机制的有效性。
5. 实验设置
5.1. 数据集
Qwen3 的评估使用了大量的基准数据集,涵盖了通用知识、推理、数学、科学知识、编码和多语言能力等多个方面。
5.1.1. 预训练模型评估数据集 (Pre-training Evaluation Datasets)
预训练基础模型的评估主要关注其在通用知识、推理、数学、科学知识、编码和多语言能力方面的表现。使用的评估数据集包括 15 个基准:
- 通用任务 (General Tasks):
MMLU(Hendrycks et al., 2021a):包含 57 个学科的通用知识和问题解决能力测试(5-shot)。MMLU-Pro(Wang et al., 2024):MMLU的专业扩展版,专注于更深层次的理解和推理(5-shot,CoT)。MMLU-redux(Gema et al., 2024):MMLU的另一个变体(5-shot)。BBH(Suzgun et al., 2023):Big-Bench Hard的缩写,包含具有挑战性的推理任务(3-shot,CoT)。SuperGPQA(Du et al., 2025):一个跨 285 个研究生学科的LLM评估基准(5-shot,CoT)。
- 数学与
STEM任务 (Math & STEM Tasks):GPQA(Rein et al., 2023):研究生水平的Google-proof Q&A基准,衡量深入的科学理解和推理(5-shot,CoT)。GSM8K(Cobbe et al., 2021):包含小学数学单词问题(4-shot,CoT)。MATH(Hendrycks et al., 2021b):高中数学竞赛问题,需要复杂的符号推理(4-shot,CoT)。
- 编码任务 (Coding Tasks):
EvalPlus(Liu et al., 2023a):代码生成基准的集合,平均了HumanEval(Chen et al., 2021)、MBPP(Austin et al., 2021)、 和 (Liu et al., 2023a) 的结果(0-shot)。MultiPL-E(Cassano et al., 2023):多语言代码生成基准,包括 Python, C++, JAVA, PHP, TypeScript, C#, Bash, JavaScript(0-shot)。MBPP-3shot(Austin et al., 2021):MBPP的 3-shot 版本。CRUX-OofCRUXEval(Gu et al., 2024):代码推理、理解和执行基准(1-shot)。
- 多语言任务 (Multilingual Tasks):
MGSM(Shi et al., 2023):多语言GSM8K,测试多语言数学推理能力(8-shot,CoT)。MMMLU(OpenAI, 2024):多语言MMLU,测试多语言通用知识(5-shot)。INCLUDE(Romanou et al., 2024):评估多语言理解与区域知识(5-shot)。
5.1.2. 后训练模型评估数据集 (Post-training Evaluation Datasets)
为全面评估 指令微调模型 (instruction-tuned models) 的质量,采用了以下分类的自动基准测试:
- 通用任务 (General Tasks):
MMLU-Redux(Gema et al., 2024)。GPQA-Diamond(Rein et al., 2023):采样 10 次,报告平均准确率。C-Eval(Huang et al., 2023)。LiveBench (2024-11-25)(White et al., 2024)。
- 对齐任务 (Alignment Tasks):
IFEval(Zhou et al., 2023):报告strict-prompt准确率,评估指令遵循性能。Arena-Hard(Li et al., 2024):评估模型对人类偏好的通用主题对齐。AlignBench v1.1(Liu et al., 2023b):对齐性能基准。Creative Writing V3(Paech, 2024) 和WritingBench(Wu et al., 2025):评估模型在写作任务中的熟练度和创造力。
- 数学与文本推理 (Math & Text Reasoning):
MATH-500(Lightman et al., 2023)。AIME'24和AIME'25(AIME, 2025):高级数学基准。ZebraLogic(Lin et al., 2025) 和AutoLogi(Zu et al., 2025):文本推理任务。- 对于
AutoLogi,每个问题采样 64 次,取平均准确率作为最终分数。
Agent与编码 (Agent & Coding):BFCL v3(Yan et al., 2024):Berkeley Function Calling Leaderboard,所有Qwen3模型使用FC格式评估,YARN部署到 64k 上下文长度进行多轮评估。LiveCodeBench (v5, 2024.10-2025.02)(Jain et al., 2024):编码基准。非思维模式使用官方推荐prompt。思维模式调整prompt模板,允许更自由的思考(移除You will not return anything except for the program限制)。
Codeforces Ratings(Quan et al., 2025):通过CodeElo计算Elo等级,评估模型与竞技编程专家的性能差距。每个问题生成多达八个独立的推理尝试。
- 多语言任务 (Multilingual Tasks):评估四种能力:指令遵循、知识、数学和逻辑推理。
指令遵循:Multi-IF(He et al., 2024),关注 8 种关键语言。知识评估:INCLUDE(Romanou et al., 2024):区域知识,涵盖 44 种语言。MMMLU(OpenAI, 2024):通用知识,涵盖 14 种语言(排除未优化的 Yoruba 语)。- 为了提高评估效率,这两个基准只采样 10% 的原始数据。
数学任务:MT-AIME2024(Son et al., 2025):涵盖 55 种语言。PolyMath(Wang et al., 2025):包括 18 种语言。
逻辑推理:MLogiQA(Zhang et al., 2024),涵盖 10 种语言。
5.1.3. 长文本能力评估 (Long-Context Ability Evaluation)
- RULER 基准 (RULER Benchmark) (Hsieh et al., 2024):用于评估长文本处理能力。在
思维模式下,思维预算设置为 8192 词元,以避免在极长输入上过度冗长的推理。
5.1.4. Belebele 多语言评估 (Belebele Multilingual Evaluation)
- Belebele 基准 (Bandarkar et al., 2023):一个用于自然语言理解的基准,包含 122 种语言变体。
Qwen3在 80 种支持的语言上进行了评估,排除了 42 种未优化的语言。
5.2. 评估指标
论文中使用了多种评估指标来衡量模型的性能。以下是这些指标的详细说明:
- 准确率 (Accuracy):
- 概念定义:在分类任务中,准确率是指模型正确预测的样本数量占总样本数量的比例。它衡量了模型在给定任务中做出正确决策的能力。
- 数学公式:
- 符号解释:
Number of Correct Predictions:模型正确分类的样本数量。Total Number of Predictions:总共进行分类的样本数量。
- Pass@k (通过率@k):
- 概念定义:主要用于代码生成任务。
Pass@k表示从模型生成的 个候选代码中,至少有一个通过了所有测试用例的比例。它衡量了模型生成可用代码的概率,即使它不是唯一的正确解决方案。 - 数学公式:根据
HumanEval和MBPP等代码生成基准的惯例,Pass@k的计算通常涉及到组合和概率。假设模型为每个问题生成 个候选解决方案,其中 个通过了测试用例。那么对于 个采样,至少有一个通过测试的概率可以表示为 。然而,在实际评估中,通常会直接生成 个代码,然后检查是否有通过的。 更精确的计算,如果 ,通常通过无放回抽样的方式计算: 其中, 表示对所有问题取期望, 是模型为每个问题生成的总尝试次数, 是其中通过测试的尝试次数。 - 符号解释:
Number of Problems with at least one correct solution among k samples:在 次生成中,至少有一个正确解决方案的问题数量。Total Number of Problems:代码生成任务中的问题总数。- : 模型为每个问题生成的总尝试次数。
- : 在 次尝试中通过测试的尝试次数。
- : 每次评估采样的候选解决方案数量。
- 概念定义:主要用于代码生成任务。
- Elo Ratings (Elo 等级):
- 概念定义:
Elo等级系统最初用于衡量国际象棋选手的相对技能水平。在LLM评估中,它被用于通过模拟模型之间的“比赛”来量化其在特定任务(如竞技编程)上的相对性能。得分越高,表示模型能力越强。 - 数学公式:
Elo等级更新公式基于两个玩家(或模型)的预期胜率和实际比赛结果。对于两个玩家 和 ,其Elo等级分别为 和 ,预期胜率 和 计算如下: 比赛结束后,玩家 的新等级 计算如下: - 符号解释:
- :玩家 和 当前的
Elo等级。 - :玩家 和 的预期胜率。
- : 值,一个常数,用于调整每次比赛对等级的影响大小。
- :玩家 的实际比赛结果(1 表示胜,0.5 表示平局,0 表示负)。
400:Elo评分系统中的一个常数,用于定义等级差与胜率之间的关系。
- :玩家 和 当前的
- 概念定义:
- RULER Score (RULER 分数):
- 概念定义:
RULER是一个用于评估LLM长文本上下文处理能力的基准。它通常涉及在长文档中检索特定信息,或根据长上下文执行任务。RULER score衡量模型在不同长度上下文下对指令或事实的遵循能力。具体分数可能根据基准中的子任务类型(如多项选择、抽取式问答)而有所不同,但核心是模型正确处理长文本的能力。 - 数学公式:
RULER基准通常涉及在不同的文档长度和查询类型下进行评估。虽然没有一个统一的RULER公式,但它通常是基于任务的准确率或 F1 分数的平均值。例如,对于包含多个子任务的基准,最终分数可能是: 在具体的任务中,如果是在长文本中进行信息检索,可能是判断模型是否能正确找到目标信息。 - 符号解释:
Average Accuracy or F1 across various context lengths and tasks:在不同上下文长度和任务中的平均准确率或F1 分数。
- 概念定义:
- IFEval strict prompt accuracy (IFEval 严格提示准确率):
- 概念定义:
IFEval是一个指令遵循评估基准。strict prompt accuracy特指模型在面对明确、严格的指令时,能够精确地按照指令要求生成响应的比例。这衡量了模型对用户意图的理解和执行的精确度。 - 数学公式:
- 符号解释:
Number of Responses Strictly Following Instructions:模型严格遵循指令并生成正确响应的数量。Total Number of Instructions:总指令数量。
- 概念定义:
- AlignBench v1.1 Score (AlignBench v1.1 分数):
- 概念定义:
AlignBench是一个评估LLM对齐(alignment)性能的基准,特别是其与人类偏好的符合程度。AlignBench v1.1 score旨在量化模型在通用主题上生成有用、无害且符合人类价值观的响应能力。分数通常通过人工评估或奖励模型 (reward model)评估,并汇总成一个综合指标。 - 数学公式:
AlignBench的具体评分机制复杂,涉及多个维度和子任务。通常,它不是一个简单的公式,而是基于评估者对模型响应的评分,然后进行加权平均或统计分析。如果分数是介于 1-10 之间的平均分,则可以表示为: - 符号解释:
- :第 个模型响应的评分。
- :总评分数量。
- 概念定义:
- BFCL v3 Score (BFCL v3 分数):
- 概念定义:
Berkeley Function Calling Leaderboard (BFCL)是一个用于评估LLM函数调用 (function calling)能力的基准。BFCL v3 score衡量模型在给定用户意图和可用工具描述的情况下,正确生成函数调用请求的能力。这包括正确识别意图、选择正确的工具、并以正确的格式填充所有必要的参数。 - 数学公式:
BFCL评分通常基于模型生成的函数调用请求与标准答案之间的匹配程度,可能包括: 或更简单的,直接的Pass Rate。 - 符号解释:
Accuracy in Intent Recognition:模型正确识别用户意图的准确率。Accuracy in Format:模型生成函数调用请求格式的准确率。Accuracy in Parameter Filling:模型正确填充函数调用参数的准确率。
- 概念定义:
- ThinkFollow Score (ThinkFollow 分数):
- 概念定义:这是一个内部基准,用于评估模型在多轮对话中根据用户在
prompt中插入的/think和/no_think标记,正确切换思维模式和非思维模式的能力。分数越高,表示模式切换的准确性越好。 - 数学公式:
- 符号解释:
Number of Correct Mode Switches:模型正确执行模式切换指令的数量。Total Number of Mode Switch Instructions:总模式切换指令数量。
- 概念定义:这是一个内部基准,用于评估模型在多轮对话中根据用户在
- CounterFactQA (反事实问答):
- 概念定义:这是一个内部基准,包含反事实问题,模型需要识别问题不符合事实,并避免生成
幻觉 (hallucinatory)回答。分数衡量模型识别反事实并给出适当响应(如“我不知道”或纠正事实)的能力。 - 数学公式:通常为正确识别反事实并避免
幻觉的问题比例。 - 符号解释:
Number of Correctly Handled Counterfactual Questions:模型正确处理的反事实问题数量。Total Number of Counterfactual Questions:反事实问题总数。
- 概念定义:这是一个内部基准,包含反事实问题,模型需要识别问题不符合事实,并避免生成
- LengthCtrl (长度控制):
- 概念定义:这是一个内部基准,包含有长度要求的创意写作任务。分数基于生成内容长度与目标长度之间的差异。分数越低,表示长度控制能力越好。
- 数学公式:分数可能基于平均绝对误差或某种惩罚函数。
- 符号解释:
Average Absolute Difference between Generated Length and Target Length:生成长度与目标长度之间平均绝对差异。
- ToolUse (工具使用):
- 概念定义:这是一个内部基准,评估模型识别意图、格式准确性以及在工具调用过程中参数准确性的综合能力。分数越高,表示模型在利用外部工具解决问题方面的能力越强。
- 数学公式:该分数是多方面的,可能结合了意图识别准确率、格式准确率和参数填充准确率。
- 符号解释:
Weighted Average of Intent Accuracy, Format Accuracy, and Parameter Accuracy:意图准确性、格式准确性和参数准确性的加权平均。
5.3. 对比基线
在预训练和后训练评估中,Qwen3 模型与一系列领先的开放源码(open-source)和专有(proprietary)模型进行了比较,以全面衡量其性能。
5.3.1. 预训练模型基线 (Pre-trained Model Baselines)
Qwen系列前作:Qwen2.5基础模型(如Qwen2.5-72B-Base、Qwen2.5-Plus-Base、Qwen2.5-32B-Base、Qwen2.5-14B-Base、Qwen2.5-7B-Base、Qwen2.5-3B-Base、Qwen2.5-1.5B-Base、Qwen2.5-0.5B-Base)。- 其他开放源码模型:
DeepSeek-V3 Base(Liu et al., 2024a):参数规模较大的MoE模型。Llama-4系列 (Llama-4-Maverick、Llama-4-Scout) (Meta-AI, 2025)。Llama-3系列 (Llama-3-8B Base) (Dubey et al., 2024)。Gemma-3系列 (Gemma-3-27B、Gemma-3-12B、Gemma-3-4B、Gemma-3-1B) (Team et al., 2025)。
MoE模型对比:特别针对MoE模型,比较了Qwen3-235B-A22B-Base与Qwen2.5-Plus-Base、DeepSeek-V3 Base等。
5.3.2. 后训练模型基线 (Post-trained Model Baselines)
5.3.2.1. 思维模式 (Thinking Mode) 基线
- 专有推理模型:
OpenAI-o1(OpenAI, 2024)、Grok-3-Beta (Think)(xAI, 2025)、Gemini2.5-Pro(DeepMind, 2025)。 - 开放源码推理模型:
DeepSeek-R1(Guo et al., 2025)、QwQ-32B(Qwen Team, 2025)(Qwen团队之前的推理旗舰模型)。 - 蒸馏模型:
DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Llama-8B。 - 小尺寸专有模型:
OpenAI-o3-mini (medium)。
5.3.2.2. 非思维模式 (Non-thinking Mode) 基线
- 专有聊天/通用模型:
GPT-4o-2024-11-20(OpenAI, 2024)、GPT-4o-mini-2024-07-18。 - 开放源码通用模型:
DeepSeek-V3(Liu et al., 2024a)、LLaMA-4-Maverick(Meta-AI, 2025)、LLaMA-4-Scout、LLaMA-3.1-8B-Instruct(Dubey et al., 2024)。 Qwen系列前作:Qwen2.5-72B-Instruct、Qwen2.5-32B-Instruct、Qwen2.5-14B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-1.5B-Instruct。- 其他小型开放源码模型:
Gemma-3-27B-IT、Gemma-3-12B-IT、Gemma-3-4B-IT、Gemma-3-1B-IT(Team et al., 2025)、Phi-4(Abdin et al., 2024)、Phi-4-mini。
5.4. 采样超参数 (Sampling Hyperparameters)
思维模式 (Thinking Mode):采样温度 (sampling temperature):0.6top-p:0.95top-k:20存在惩罚 (presence penalty):1.5(仅用于Creative Writing v3和WritingBench,鼓励生成更多样化的内容)
非思维模式 (Non-thinking Mode):采样温度 (sampling temperature):0.7top-p:0.8top-k:20存在惩罚 (presence penalty):1.5
- 最大输出长度 (Max Output Length):
- 除
AIME'24和AIME'25外,所有Qwen3模型(思维和非思维模式)的最大输出长度设置为 32,768 词元。 AIME'24和AIME'25的最大输出长度扩展到 38,912 词元,以提供足够的思考空间。
- 除
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 预训练模型评估总结
基于整体评估结果,Qwen3 基础模型呈现出以下关键结论:
- 旗舰模型
Qwen3-235B-A22B-Base表现卓越: 相较于之前开源的SOTA稠密和MoE基础模型(如DeepSeek-V3 Base、Llama-4-Maverick Base和Qwen2.5-72B-Base),Qwen3-235B-A22B-Base在多数任务中表现更优,且总参数或激活参数显著更少。 Qwen3 MoE基础模型的高效性:- 在使用相同预训练数据的情况下,
Qwen3 MoE基础模型仅用 的激活参数即可达到与Qwen3稠密基础模型相似的性能。 - 得益于
Qwen3 MoE架构的改进、训练词元规模的扩大以及更先进的训练策略,Qwen3 MoE基础模型在激活参数和总参数都更少的情况下,超越了Qwen2.5 MoE基础模型。 - 即使激活参数仅为
Qwen2.5稠密基础模型的 ,Qwen3 MoE基础模型也能达到可比性能,这在推理和训练成本上带来了显著优势。
- 在使用相同预训练数据的情况下,
Qwen3稠密基础模型的竞争力: 在更高参数规模下,Qwen3稠密基础模型的整体性能与Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base达到了与Qwen2.5-3B/7B/14B/32B/72B-Base可比的性能。尤其在STEM、编码和推理基准上,Qwen3稠密基础模型甚至超越了参数规模更大的Qwen2.5基础模型。
6.1.2. 后训练模型评估总结
对最终 Qwen3 模型的评估结果总结如下:
- 旗舰模型
Qwen3-235B-A22B达成state-of-the-art: 在思维模式和非思维模式下,Qwen3-235B-A22B在开源模型中展现出state-of-the-art的整体性能,超越了DeepSeek-R1和DeepSeek-V3等强大基线。它与OpenAI-o1、Gemini2.5-Pro和GPT-4o等闭源领先模型也极具竞争力,显示出其深刻的推理能力和全面的通用能力。 - 旗舰稠密模型
Qwen3-32B表现强劲:Qwen3-32B在大多数基准测试中超越了之前最强的推理模型QwQ-32B,并与闭源的OpenAI-o3-mini表现相当,显示出其强大的推理能力。在非思维模式下,Qwen3-32B表现卓越,超越了之前旗舰级的非推理稠密模型Qwen2.5-72B-Instruct。 - 轻量级模型性能优异: 包括
Qwen3-30B-A3B、Qwen3-14B和其他较小的稠密模型,其性能持续优于参数量相近或更大的开源模型,证明了强到弱蒸馏方法的成功。
6.2. 数据呈现 (表格)
6.2.1. 预训练模型评估结果
以下是原文 Table 3 的结果:
| Qwen2.5-72B Base | Qwen2.5-Plus Base | Base | Base | sLlama-4-Maverick DeepSeek-V3 Qwen3-235B-A22B Base | |
| Architecture | Dense | MoE | MoE | MoE | MoE |
| # Total Params | 72B | 271B | 402B | 671B | 235B |
| # Activated Params | 72B | 37B | 17B | 37B | 22B |
| General Tasks | |||||
| MMLU | 86.06 | 85.02 | 85.16 | 87.19 | 87.81 |
| MMLU-Redux | 83.91 | 82.69 | 84.05 | 86.14 | 87.40 |
| MMLU-Pro | 58.07 | 63.52 | 63.91 | 59.84 | 68.18 |
| SuperGPQA | 36.20 | 37.18 | 40.85 | 41.53 | 44.06 |
| BBH | 86.30 | 85.60 | 83.62 | 86.22 | 88.87 |
| Math & STEM Tasks | |||||
| GPQA | 45.88 | 41.92 | 43.94 | 41.92 | 47.47 |
| GSM8K | 91.50 | 91.89 | 87.72 | 87.57 | 94.39 |
| MATH | 62.12 | 62.78 | 63.32 | 62.62 | 71.84 |
| Coding Tasks | |||||
| EvalPlus | 65.93 | 61.43 | 68.38 | 63.75 | 77.60 |
| MultiPL-E | 58.70 | 62.16 | 57.28 | 62.26 | 65.94 |
| MBPP | 76.00 | 74.60 | 75.40 | 74.20 | 81.40 |
| CRUX-O | 66.20 | 68.50 | 77.00 | 76.60 | 79.00 |
| Multilingual Tasks | |||||
| MGSM | 82.40 | 82.21 | 79.69 | 82.68 | 83.53 |
| MMMLU | 84.40 | 83.49 | 83.09 | 85.88 | 86.70 |
| INCLUDE | 69.05 | 66.97 | 73.47 | 75.17 | 73.46 |
从 Table 3 中可以看出,Qwen3-235B-A22B-Base 在大多数基准测试中表现出色,尤其在 MATH、EvalPlus 等任务上显著领先。它在总参数和激活参数远少于 DeepSeek-V3 Base 和 Llama-4-Maverick 的情况下,取得了更好的性能,体现了其强大的性能和成本效益。
以下是原文 Table 4 的结果:
| Qwen2.5-32B Base | Qwen2.5-72B Base | Gemma-3-27B Base | Llama-4-Scout Base | Qwen3-32B Base | |
| Architecture | Dense | Dense | Dense | MoE | Dense |
| # Total Params | 32B | 72B | 27B | 109B | 32B |
| # Activated Params | 32B | 72B | 27B | 17B | 32B |
| General Tasks | |||||
| MMLU | 83.32 | 86.06 | 78.69 | 78.27 | 83.61 |
| MMLU-Redux | 81.97 | 83.91 | 76.53 | 71.09 | 83.41 |
| MMLU-Pro | 55.10 | 58.07 | 52.88 | 56.13 | 65.54 |
| SuperGPQA | 33.55 | 36.20 | 29.87 | 26.51 | 39.78 |
| BBH | 84.48 | 86.30 | 79.95 | 82.40 | 87.38 |
| Math & STEM Tasks | |||||
| GPQA | 47.97 | 45.88 | 26.26 | 40.40 | 49.49 |
| GSM8K | 92.87 | 91.50 | 81.20 | 85.37 | 93.40 |
| MATH | 57.70 | 62.12 | 51.78 | 51.66 | 61.62 |
| Coding Tasks | |||||
| EvalPlus | 66.25 | 65.93 | 55.78 | 59.90 | 72.05 |
| MultiPL-E | 58.30 | 58.70 | 45.03 | 47.38 | 67.06 |
| MBPP | 73.60 | 76.00 | 68.40 | 68.60 | 78.20 |
| CRUX-O | 67.80 | 66.20 | 60.00 | 61.90 | 72.50 |
| Multilingual Tasks | |||||
| MGSM | 78.12 | 82.40 | 73.74 | 79.93 | 83.06 |
| MMMLU | 82.40 | 84.40 | 77.62 | 74.83 | 83.83 |
| INCLUDE | 64.35 | 69.05 | 68.94 | 68.09 | 67.87 |
Table 4 比较了 Qwen3-32B-Base 与同等规模及更大规模模型。Qwen3-32B-Base 在大多数基准上优于 Qwen2.5-32B-Base 和 Gemma-3-27B Base。令人惊讶的是,它在 15 个基准中的 10 个上甚至超越了参数量是其两倍多的 Qwen2.5-72B-Base,特别是在编码、数学和推理任务上优势显著。
以下是原文 Table 5 的结果:
| Gemma-3-12B Qwen2.5-14B Qwen2.5-32B Qwen2.5-Turbo Qwen3-14B | ||||||
| Base | Base | Base | Base | Base | Base | |
| Architecture | Dense | Dense | Dense | MoE | Dense | MoE |
| # Total Params | 12B | 14B | 32B | 42B | 14B | 30B |
| # Activated Params | 12B | 14B | 32B | 6B | 14B | 3B |
| General Tasks | ||||||
| MMLU | 73.87 | 79.66 | 83.32 | 79.50 | 81.05 | 81.38 |
| MMLU-Redux | 70.70 | 76.64 | 81.97 | 77.11 | 79.88 | 81.17 |
| MMLU-Pro | 44.91 | 51.16 | 55.10 | 55.60 | 61.03 | 61.49 |
| SuperGPQA | 24.61 | 30.68 | 33.55 | 31.19 | 34.27 | 35.72 |
| BBH | 74.28 | 78.18 | 84.48 | 76.10 | 81.07 | 81.54 |
| Math & STEM Tasks | ||||||
| GPQA | 31.31 | 32.83 | 47.97 | 41.41 | 39.90 | 43.94 |
| GSM8K | 78.01 | 90.22 | 92.87 | 88.32 | 92.49 | 91.81 |
| MATH | 44.43 | 55.64 | 57.70 | 55.60 | 62.02 | 59.04 |
| Coding Tasks | ||||||
| EvalPlus | 52.65 | 60.70 | 66.25 | 61.23 | 72.23 | 71.45 |
| MultiPL-E | 43.03 | 54.79 | 58.30 | 53.24 | 61.69 | 66.53 |
| MBPP | 60.60 | 69.00 | 73.60 | 67.60 | 73.40 | 74.40 |
| CRUX-O | 52.00 | 61.10 | 67.80 | 60.20 | 68.60 | 67.20 |
| Multilingual Tasks | ||||||
| MGSM | 64.35 | 74.68 | 78.12 | 70.45 | 79.20 | 79.11 |
| MMMLU | 72.50 | 78.34 | 82.40 | 79.76 | 79.69 | 81.46 |
| INCLUDE | 63.34 | 60.26 | 64.35 | 59.25 | 64.55 | 67.00 |
Table 5 比较了 Qwen3-14B-Base 和 Qwen3-30B-A3B-Base。Qwen3-14B-Base 在所有基准上都显著优于 Qwen2.5-14B-Base 和 Gemma-3-12B-Base。Qwen3-30B-A3B 仅用 的激活参数就显著超越了 Qwen2.5-14B-Base,并与 Qwen3-14B-Base 和 Qwen2.5-32B-Base 达到可比性能,这在推理和训练成本上具有显著优势。
以下是原文 Table 6 的结果:
| Llama-3-8B Base | Qwen2.5-7B Base | Qwen2.5-14B Base | Qwen3-8B Base | |
| Architecture | Dense | Dense | Dense | Dense |
| # Total Params | 8B | 7B | 14B | 8B |
| # Activated Params | 8B | 7B | 14B | 8B |
| General Tasks | ||||
| MMLU | 66.60 | 74.16 | 79.66 | 76.89 |
| MMLU-Redux | 61.59 | 71.06 | 76.64 | 76.17 |
| MMLU-Pro | 35.36 | 45.00 | 51.16 | 56.73 |
| SuperGPQA | 20.54 | 26.34 | 30.68 | 31.64 |
| BBH | 57.70 | 70.40 | 78.18 | 78.40 |
| Math & STEM Tasks | ||||
| GPQA | 25.80 | 36.36 | 32.83 | 44.44 |
| GSM8K | 55.30 | 85.36 | 90.22 | 89.84 |
| MATH | 20.50 | 49.80 | 55.64 | 60.80 |
| Coding Tasks | ||||
| EvalPlus | 44.13 | 62.18 | 60.70 | 67.65 |
| MultiPL-E | 31.45 | 50.73 | 54.79 | 58.75 |
| MBPP | 48.40 | 63.40 | 69.00 | 69.80 |
| CRUX-O | 36.80 | 48.50 | 61.10 | 62.00 |
| Multilingual Tasks | ||||
| MGSM | 38.92 | 63.60 | 74.68 | 76.02 |
| MMMLU | 59.65 | 71.34 | 78.34 | 75.72 |
| IINCLUDE | 44.94 | 53.98 | 60.26 | 59.40 |
Table 6 比较了 Qwen3-8B-Base。Qwen3-8B-Base 在 MMLU-Pro、SuperGPQA、GPQA 和所有编码任务上超越了 Qwen2.5-14B-Base(一个参数量更大的模型),显示出其显著的改进。
以下是原文 Table 7 的结果:
| Gemma-3-4B Base | Qwen2.5-3B Base | Qwen2.5-7B Base | Qwen3-4B Base | |
| Architecture | Dense | Dense | Dense | Dense |
| # Total Params | 4B | 3B | 7B | 4B |
| # Activated Params | 4B | 3B | 7B | 4B |
| General Tasks | ||||
| MMLU | 59.51 | 65.62 | 74.16 | 72.99 |
| MMLU-Redux | 56.91 | 63.68 | 71.06 | 72.79 |
| MMLU-Pro | 29.23 | 34.61 | 45.00 | 50.58 |
| SuperGPQA | 17.68 | 20.31 | 26.34 | 28.43 |
| BBH | 51.70 | 56.30 | 70.40 | 72.59 |
| Math & STEM Tasks | ||||
| GPQA | 24.24 | 26.26 | 36.36 | 36.87 |
| GSM8K | 43.97 | 79.08 | 85.36 | 87.79 |
| MATH | 26.10 | 42.64 | 49.80 | 54.10 |
| Coding Tasks | ||||
| EvalPlus | 43.23 | 46.28 | 62.18 | 63.53 |
| MultiPL-E | 28.06 | 39.65 | 50.73 | 53.13 |
| MBPP | 46.40 | 54.60 | 63.40 | 67.00 |
| CRUX-O | 34.00 | 36.50 | 48.50 | 55.00 |
| Multilingual Tasks | ||||
| MGSM | 33.11 | 47.53 | 63.60 | 67.74 |
| MMMLU | 59.62 | 65.55 | 71.34 | 71.42 |
| INCLUDE | 49.06 | 45.90 | 53.98 | 56.29 |
Table 7 展示了 Qwen3-4B-Base。Qwen3-4B-Base 在大部分基准上优于 Gemma-3-4B Base 和 Qwen2.5-3B Base。它甚至在 MMLU-Pro、SuperGPQA、GSM8K、MATH 和所有编码任务上超越了参数量更大的 Qwen2.5-7B Base。
以下是原文 Table 8 的结果:
| Qwen2.5-0.5B Base | Qwen3-0.6B Base | Gemma-3-1B Base | Qwen2.5-1.5B Base | Qwen3-1.7B Base | |
| Architecture | Dense | Dense | Dense | Dense | Dense |
| # Total Params | 0.5B | 0.6B | 1B | 1.5B | 1.7B |
| # Activated Params | 0.5B | 0.6B | 1B | 1.5B | 1.7B |
| General Tasks | |||||
| MMLU | 47.50 | 52.81 | 26.26 | 60.90 | 62.63 |
| MMLU-Redux | 45.10 | 51.26 | 25.99 | 58.46 | 61.66 |
| MMLU-Pro | 15.69 | 24.74 | 9.72 | 28.53 | 36.76 |
| SuperGPQA BBH | 11.30 | 15.03 | 7.19 | 17.64 | 20.92 |
| 20.30 | 41.47 | 28.13 | 45.10 | 54.47 | |
| Math & STEM Tasks | |||||
| GPQA | 24.75 | 26.77 | 24.75 | 24.24 | 28.28 |
| GSM8K | 41.62 | 59.59 | 2.20 | 68.54 | 75.44 |
| MATH | 19.48 | 32.44 | 3.66 | 35.00 | 43.50 |
| Coding Tasks | |||||
| EvalPlus | 31.85 | 36.23 | 8.98 | 44.80 | 52.70 |
| MultiPL-E | 18.70 | 24.58 | 5.15 | 33.10 | 42.71 |
| MBPP | 29.80 | 36.60 | 9.20 | 43.60 | 55.40 |
| CRUX-O | 12.10 | 27.00 | 3.80 | 29.60 | 36.40 |
| Multilingual Tasks | |||||
| MGSM | 12.07 | 30.99 | 1.74 | 32.82 | 50.71 |
| MMMLU | 31.53 | 50.16 | 26.57 | 60.27 | 63.27 |
| INCLUDE | 24.74 | 34.26 | 25.62 | 39.55 | 45.57 |
Table 8 包含了 Qwen3-1.7B-Base 和 Qwen3-0.6B-Base。这些小型模型也展示了强大的性能,在多个基准上超越了参数量更大的 Qwen2.5 模型。
6.2.2. 后训练模型评估结果
以下是原文 Table 11 的结果:
| OpenAI-o1 | DeepSeek-R1 | Grok-3-Beta (Think) | Gemini2.5-Pro | Qwen3-235B-A22B | ||
| Architecture | MoE | MoE | ||||
| # Activated Params | 37B | - | 22B | |||
| # Total Params | - | 671B | - | 235B | ||
| MMLU-Redux | 92.8 | 92.9 | 93.7 | 92.7 | ||
| General Tasks | GPQA-Diamond C-Eval | 78.0 | 71.5 | 80.2 | 84.0 | 71.1 |
| LiveBench 2024-11-25 | 85.5 | 91.8 | 82.9 | 89.6 | ||
| 75.7 | 71.6 | - | 82.4 | 77.1 | ||
| IFEval strict prompt | 92.6 | 83.3 | - | 89.5 | 83.4 | |
| Alignment Tasks | Arena-Hard | 92.1 | 92.3 | 96.4 | 95.6 | |
| AlignBench v1.1 | 8.86 | 8.76 | 9.03 | 8.94 | ||
| Creative Writing v3 | 81.7 | 85.5 | 86.0 | 84.6 | ||
| WritingBench | 7.69 | 7.71 | 8.09 | 8.03 | ||
| MATH-500 | 96.4 | 97.3 | 98.8 | 98.0 | ||
| Math & Text Reasoning Agent & | AIME'24 | 74.3 | 79.8 | 83.9 | 92.0 | 85.7 |
| AIME'25 | 79.2 | 70.0 | 77.3 | 86.7 | 81.5 | |
| ZebraLogic | 81.0 | 78.7 | - | 87.4 | 80.3 | |
| AutoLogi | 79.8 | 86.1 | - | 85.4 | 89.0 | |
| BFCL v3 | 67.8 | 56.9 | - | 62.9 | 70.8 | |
| Coding | LiveCodeBench v5 | 63.9 1891 / 96.7% | 64.3 | 70.6 | 70.4 | 70.7 |
| CodeForces (Rating / Percentile) | 2029 / 98.1% | - | 2001 / 97.9% | 2056 / 98.2% | ||
| Multi-IF | 48.8 | 67.7 | 77.8 | 71.9 | ||
| INCLUDE | 84.6 | 82.7 | 85.1 | 78.7 | ||
| Multilingual Tasks | MMMLU 14 languages | 88.4 | 86.4 | 86.9 | 84.3 | |
| MT-AIME2024 | 67.4 | 73.5 | 76.9 | 80.8 | ||
| PolyMath | 38.9 | 47.1 | 52.2 | 54.7 | ||
| MLogiQA | 75.5 | 73.8 | 75.6 | 77.1 | ||
Table 11 展示了 Qwen3-235B-A22B(思维模式)与其他推理基线的比较。Qwen3-235B-A22B 在 17/23 的基准上超越了 DeepSeek-R1,特别是在数学、Agent 和编码等需要推理的任务上,展现了开源模型中最先进的推理能力。它与闭源的 OpenAI-o1、Grok-3-Beta (Think) 和 Gemini2.5-Pro 相比也极具竞争力,显著缩小了开源和闭源模型在推理能力上的差距。
以下是原文 Table 12 的结果:
| GPT-40 -2024-11-20 | DeepSeek-V3 | Qwen2.5-72B -Instruct | LLaMA-4 -Maverick | Qwen3-235B-A22B | ||
| Architecture | MoE | Dense | MoE | MoE | ||
| # Activated Params | 37B | 72B | 17B | 22B | ||
| # Total Params | - | 671B | 72B | 402B | 235B | |
| General Tasks | MMLU-Redux | 87.0 | 89.1 | 86.8 | 91.8 | 89.2 |
| GPQA-Diamond | 46.0 | 59.1 | 49.0 | 69.8 | 62.9 | |
| C-Eval | 75.5 | 86.5 | 84.7 | 83.5 | 86.1 | |
| LiveBench 2024-11-25 | 52.2 | 60.5 | 51.4 | 59.5 | 62.5 | |
| Alignment Tasks | IFEval strict prompt | 86.5 | 86.1 | 84.1 | 86.7 | 83.2 |
| Arena-Hard | 85.3 | 85.5 | 81.2 | 82.7 | 96.1 | |
| AlignBench v1.1 | 8.42 | 8.64 | 7.89 | 7.97 | 8.91 | |
| Creative Writing v3 | 81.1 | 74.0 | 61.8 | 61.3 | 80.4 | |
| WritingBench | 7.11 | 6.49 | 7.06 | 5.46 | 7.70 | |
| Math & Text Reasoning | MATH-500 | 77.2 | 90.2 | 83.6 | 90.6 | 91.2 |
| AIME'24 | 11.1 | 39.2 | 18.9 | 38.5 | 40.1 | |
| AIME'25 | 7.6 | 28.8 | 15.0 | 15.9 | 24.7 | |
| ZebraLogic | 27.4 | 42.1 | 26.6 | 40.0 | 37.7 | |
| AutoLogi | 65.9 | 76.1 | 66.1 | 75.2 | 83.3 | |
| Agent & Coding | BFCL v3 | 72.5 | 57.6 | 63.4 | 52.9 | 68.0 |
| LiveCodeBench v5 | 32.7 | 33.1 | 30.7 | 37.2 | 35.3 | |
| CodeForces (Rating / Percentile) | 864 / 35.4% | 1134 / 54.1% | 859 / 35.0% | 712 / 24.3% | 1387 / 75.7% | |
| Multilingual Tasks | Multi-IF | 65.6 | 55.6 | 65.3 | 75.5 | 70.2 |
| INCLUDE | 78.8 | 76.7 | 69.6 | 80.9 | 75.6 | |
| MMMLU 14 languages | 80.3 | 81.1 | 76.9 | 82.5 | 79.8 | |
| MT-AIME2024 | 9.2 | 20.9 | 12.7 | 27.0 | 32.4 | |
| PolyMath | 13.7 | 20.4 | 16.9 | 26.1 | 27.0 | |
| MLogiQA | 57.4 | 58.9 | 59.3 | 59.9 | 67.6 | |
Table 12 比较了 Qwen3-235B-A22B(非思维模式)与其他非推理基线。Qwen3-235B-A22B 表现超越了 DeepSeek-V3、LLaMA-4-Maverick 以及 Qwen2.5-72B-Instruct 等领先的开源模型。它还在 18/23 的基准上超越了闭源的 GPT-4o-2024-11-20,表明其即使在不刻意进行思维过程时也具备固有的强大能力。
以下是原文 Table 13 的结果:
| DeepSeek-R1 -Distili-Llama-70B | QwQ-32B | OpenAI-03-mini (medium) | Qwen3-32B | ||
| Architecture # Activated Params | Dense | Dense | - | Dense | |
| # Total Params | 70B 70B | 32B 32B | - | 32B 32B | |
| General Tasks | MMLU-Redux | 89.3 | 90.0 | 90.0 | 90.9 |
| GPQA-Diamond | 65.2 | 65.6 | 76.8 | 68.4 | |
| C-Eval LiveBench 2024-11-25 | 71.8 54.5 | 88.4 72.0 | 75.1 70.0 | 87.3 74.9 | |
| Alignment Tasks | IFEval strict prompt | 79.3 | 83.9 | 91.5 | 85.0 |
| Arena-Hard | 60.6 | 89.5 | 89.0 | 93.8 | |
| AlignBench v1.1 | 6.74 | 8.70 | 8.38 | 8.72 | |
| Creative Writing v3 WritingBench | 62.1 6.08 | 82.4 7.86 | 74.8 | 81.0 | |
| Math & Text Reasoning | MATH-500 | 94.5 | 98.0 | 7.52 98.0 | 7.90 97.2 |
| AIME'24 | 70.0 | 79.5 | 79.6 | 81.4 | |
| AIME'25 ZebraLogic | 56.3 | 69.5 | 74.8 | 72.9 | |
| AutoLogi | 71.3 | 76.8 | 88.9 | 88.8 | |
| Agent & Coding | BFCL v3 | 83.5 | 88.1 | 86.3 | 87.3 |
| LiveCodeBench v5 | 49.3 | 66.4 | 64.6 | 70.3 | |
| CodeForces (Rating / Percentile) | 54.5 1633 / 91.4% | 62.7 | 66.3 | 65.7 | |
| Multilingual Tasks | Multi-IF | 1982 / 97.7% | 2036 / 98.1% | 1977 / 97.7% | |
| 57.6 | 68.3 | 48.4 | 73.0 | ||
| INCLUDE | 62.1 | 69.7 | 73.1 | 73.7 | |
| MMMLU 14 languages | 69.6 | 80.9 | 79.3 | 80.6 | |
| MT-AIME2024 | 29.3 | 68.0 | 73.9 | 75.0 | |
| PolyMath MLogiQA | 29.4 60.3 | 45.9 75.5 | 38.6 71.1 | 47.4 76.3 | |
Table 13 展示了 Qwen3-32B(思维模式)与其他推理基线的比较。Qwen3-32B 在 17/23 的基准上超越了 QwQ-32B,成为 32B 规模下最先进的推理模型。它还与闭源的 OpenAI-o3-mini (medium) 竞争,在对齐和多语言性能方面表现更优。
以下是原文 Table 14 的结果:
| GPT-4o-mini -2024-07-18 | LLaMA-4 -Scout | Qwen2.5-72B -Instruct | Qwen3-32B | ||
| Architecture | MoE | Dense | Dense | ||
| # Activated Params | 17B | 72B | 32B | ||
| # Total Params | - | 109B | 72B | 32B | |
| General Tasks | MMLU-Redux | 81.5 | 86.3 | 86.8 | 85.7 |
| GPQA-Diamond | 40.2 | 57.2 | 49.0 | 54.6 | |
| C-Eval | 66.3 | 78.2 | 84.7 | 83.3 | |
| LiveBench 2024-11-25 | 41.3 | 47.6 | 51.4 | 59.8 | |
| Alignment Tasks | IFEval strict prompt | 80.4 | 84.7 | 84.1 | 83.2 |
| Arena-Hard | 74.9 | 70.5 | 81.2 | 92.8 | |
| AlignBench v1.1 | 7.81 | 7.49 | 7.89 | 8.58 | |
| Creative Writing v3 | 70.3 | 55.0 | 61.8 | 78.3 | |
| WritingBench | 5.98 | 5.49 | 7.06 | 7.54 | |
| Math & Text Reasoning | MATH-500 | 78.2 | 82.6 | 83.6 | 88.6 |
| AIME'24 | 8.1 | 28.6 | 18.9 | 31.0 | |
| AIME'25 | 8.8 | 10.0 | 15.0 | 20.2 | |
| ZebraLogic | 20.1 | 24.2 | 26.6 | 29.2 | |
| AutoLogi | 52.6 | 56.8 | 66.1 | 78.5 | |
| Agent & Coding | BFCL v3 LiveCodeBench v5 | 64.0 27.9 | 45.4 | 63.4 | 63.0 |
| CodeForces (Rating / Percentile) | 1113 / 52.6% | 29.8 981 / 43.7% | 30.7 | 31.3 | |
| Multilingual Tasks | 859 / 35.0% | 1353 / 71.0% | |||
| Multi-IF | 62.4 | 64.2 | 65.3 | 70.7 | |
| INCLUDE | 66.0 | 74.1 | 69.6 | 70.9 | |
| MMMLU 14 languages | 72.1 | 77.5 | 76.9 | 76.5 | |
| MT-AIME2024 | 6.0 | 19.1 | 12.7 | 24.1 | |
| PolyMath MLogiQA | 12.0 42.6 | 20.9 53.9 | 16.9 59.3 | 22.5 62.9 | |
Table 14 展示了 Qwen3-32B(非思维模式)与其他非推理基线的比较。Qwen3-32B 在几乎所有基准上都表现出优越性能。特别是,它在通用任务上与 Qwen2.5-72B-Instruct 相当,但在对齐、多语言和推理相关任务上具有显著优势,再次证明了 Qwen3 相较于 Qwen2.5 系列的根本性改进。
以下是原文 Table 15 的结果:
| DeepSeek-R1 -Distili-Qwen-32B | QwQ-32B | Qwen3-14B | Qwen3-30B-A3B | ||
| Architecture | Dense | Dense | Dense | MoE | |
| # Activated Params | 32B | 32B | 14B | 3B | |
| # Total Params | 32B | 32B | 14B | 30B | |
| General Tasks | MMLU-Redux | 88.2 | 90.0 | 88.6 | 89.5 |
| GPQA-Diamond | 62.1 | 65.6 | 64.0 | 65.8 | |
| C-Eval | 82.2 | 88.4 | 86.2 | 86.6 | |
| LiveBench 2024-11-25 | 45.6 | 72.0 | 71.3 | 74.3 | |
| Alignment Tasks | IFEval strict prompt Arena-Hard | 72.5 60.8 | 83.9 89.5 | 85.4 91.7 | 86.5 |
| AlignBench v1.1 | 7.25 | 8.70 | 91.0 | ||
| Creative Writing v3 | 55.0 | 82.4 | 8.56 80.3 | 8.70 | |
| WritingBench | 6.13 | 7.86 | 7.80 | 79.1 7.70 | |
| Math & Text Reasoning | MATH-500 | 94.3 | 98.0 | 96.8 | 98.0 |
| AIME'24 | 72.6 | 79.5 | 79.3 | 80.4 | |
| AIME'25 | 49.6 | 69.5 | 70.4 | 70.9 | |
| ZebraLogic | 69.6 | 76.8 | 88.5 | 89.5 | |
| AutoLogi | 74.6 | 88.1 | 89.2 | 88.7 | |
| Agent & Coding | BFCL v3 | 53.5 | 66.4 | 70.4 | 69.1 |
| LiveCodeBench v5 | 54.5 | 62.7 | 63.5 | 62.6 | |
| CodeForces (Rating / Percentile) | 1691 / 93.4% | 1982 / 97.7% | 1766 / 95.3% | 1974 / 97.7% | |
| Multilingual Tasks | Multi-IF | 31.3 | 68.3 | ||
| INCLUDE | 68.0 | 74.8 | 72.2 | ||
| MMMLU 14 languages | 78.6 | 69.7 80.9 | 71.7 77.9 | 71.9 | |
| MT-AIME2024 | 44.6 | 68.0 | 73.3 | 78.4 | |
| PolyMath | 35.1 | 45.9 | 45.8 | 73.9 46.1 | |
| MLogiQA | 63.3 | 75.5 | 71.1 | 70.1 | |
Table 15 展示了 Qwen3-30B-A3B 和 Qwen3-14B(思维模式)与其他推理基线的比较。Qwen3-30B-A3B 和 Qwen3-14B 都与 QwQ-32B 极具竞争力,特别是在推理相关基准上。Qwen3-30B-A3B 在更小的模型尺寸和仅 的激活参数下,达到了与 QwQ-32B 可比的性能,证明了 强到弱蒸馏 在赋予轻量级模型深度推理能力方面的有效性。
以下是原文 Table 16 的结果:
| Phi-4 | Gemma-3 -27B-IT | Qwen2.5-32B -Instruct | Qwen3-14B | Qwen3-30B-A3B | ||
| Architecture | ||||||
| # Activated Params | Dense 14B | Dense 27B | Dense 32B | Dense 14B | MoE 3B | |
| # Total Params | 14B | 27B | 32B | 14B | 30B | |
| MMLU-Redux | 85.3 | 82.6 | 83.9 | 82.0 | 84.1 | |
| General Tasks | GPQA-Diamond C-Eval | 56.1 66.9 | 42.4 66.6 | 49.5 80.6 | 54.8 81.0 | 54.8 82.9 |
| LiveBench 2024-11-25 | 41.6 | 49.2 | 50.0 | 59.6 | 59.4 | |
| IFEval strict prompt | 62.1 | 80.6 | 79.5 | 84.8 | 83.7 | |
| Alignment Tasks | Arena-Hard | 75.4 | 86.8 | 74.5 | 86.3 | 88.0 |
| AlignBench v1.1 | 7.61 | 7.80 | 7.71 | 8.52 | 8.55 | |
| Creative Writing v3 | 51.2 | 82.0 | 54.6 | 73.1 | 68.1 | |
| WritingBench | 5.73 | 7.22 | 5.90 | 7.24 | 7.22 | |
| Math & Text Reasoning | MATH-500 | 80.8 | 90.0 | 84.6 | 90.0 | 89.8 |
| AIME'24 | 22.9 | 32.6 | 18.8 | 31.7 | 32.8 | |
| AIME'25 | 17.3 | 24.0 | 12.8 | 23.3 | 21.6 | |
| ZebraLogic AutoLogi | 32.3 66.2 | 24.6 64.2 | 26.1 65.5 | 33.0 | 33.2 | |
| Agent & Coding | BFCL v3 | 47.0 | 59.1 | 62.8 | 82.0 | 81.5 |
| LiveCodeBench v5 | 25.2 | 26.9 | 26.4 | 61.5 29.0 | 58.6 29.8 | |
| Multilingual Tasks | CodeForces (Rating / Percentile) | 1280 / 65.3% | 1063 / 49.3% | 903 / 38.2% | 1200 / 58.6% | 1267 / 64.1% |
| Multi-IF | 49.5 | 69.8 | 63.2 | 72.9 | 70.8 | |
| INCLUDE | 65.3 | 71.4 | 67.5 | 67.8 | 67.8 | |
| MMMLU 14 languages | 74.7 | 76.1 | 74.2 | 72.6 | 73.8 | |
| MT-AIME2024 | 13.1 | 23.0 | 15.3 | 23.2 | 24.6 | |
| PolyMath MLogiQA | 17.4 53.1 | 20.3 58.5 | 18.3 58.0 | 22.0 58.9 | 23.3 53.3 | |
Table 16 展示了 Qwen3-30B-A3B 和 Qwen3-14B(非思维模式)与其他非推理基线的比较。它们在大多数基准上超越了非推理基线,并且在激活参数和总参数都显著更少的情况下,超越了 Qwen2.5-32B-Instruct,从而实现了更高效和经济的性能。
以下是原文 Table 17 的结果:
| DeepSeek-R1 -Distill-Qwen-14B | DeepSeek-R1 -Distili-Qwen-32B | Qwen3-4B | Qwen3-8B | ||
| Architecture | Dense | Dense | Dense | Dense | |
| # Activated Params | 14B | 32B | 4B | 8B | |
| # Total Params | 14B | 32B | 4B | 8B | |
| General Tasks | MMLU-Redux | 84.1 | 88.2 | 83.7 | 87.5 |
| GPQA-Diamond C-Eval | 59.1 | 62.1 | 55.9 | 62.0 | |
| LiveBench 2024-11-25 | 78.1 52.3 | 82.2 45.6 | 77.5 63.6 | 83.4 67.1 | |
| Alignment Tasks | IFEval strict prompt | 72.6 | 72.5 | 81.9 | 85.0 |
| Arena-Hard | 48.0 | 60.8 | 76.6 | 85.8 | |
| AlignBench v1.1 | 7.43 | 7.25 | 8.30 | 8.46 | |
| Creative Writing v3 WritingBench | 54.2 6.03 | 55.0 6.13 | 61.1 | 75.0 | |
| Math & Text Reasoning | MATH-500 | 93.9 | 94.3 | 7.35 97.0 | 7.59 97.4 |
| AIME'24 | 69.7 | 72.6 | 73.8 | 76.0 | |
| AIME'25 | 44.5 | 49.6 | 65.6 | 67.3 | |
| ZebraLogic | 59.1 | 69.6 | 81.0 | 84.8 | |
| Agent & Coding | AutoLogi | 78.6 | 74.6 | 87.9 | 89.1 |
| BFCL v3 | 49.5 | 53.5 | 65.9 | 68.1 | |
| LiveCodeBench v5 | 45.5 | 54.5 | 54.2 | 57.5 | |
| Multilingual Tasks | CodeForces (Rating / Percentile) | 1574 / 89.1% | 1691 / 93.4% | 1671 / 92.8% | 1785 / 95.6% |
| Multi-IF | 29.8 | 31.3 | 66.3 | 71.2 | |
| INCLUDE | 59.7 | 68.0 | 61.8 | 67.8 | |
| MMMLU 14 languages | 73.8 | 78.6 | 69.8 | 74.4 | |
| MT-AIME2024 | 33.7 | 44.6 | 60.7 | 65.4 | |
| PolyMath MLogiQA | 28.6 53.6 | 35.1 63.3 | 40.0 65.9 | 42.7 69.0 | |
Table 17 展示了 Qwen3-8B 和 Qwen3-4B(思维模式)。这些边缘侧(edge-side)模型表现出令人印象深刻的性能,即使在参数量更多的基线上也优于它们,包括之前的 Qwen2.5 模型。
以下是原文 Table 18 的结果:
| LLaMA-3.1-8B -Instruct | Gemma-3 -12B-IT | Qwen2.5-7B -Instruct | Qwen2.5-14B -Instruct | Qwen3-4B | Qwen3-8B | ||
| Architecture | Dense | Dense | Dense | Dense | Dense | Dense | |
| # Activated Params | 8B | 12B | 7B | 14B | 4B | 8B | |
| # Total Params | 8B | 12B | 7B | 14B | 4B | 8B | |
| General Tasks | MMLU-Redux | 61.7 | 77.8 | 75.4 | 80.0 | 77.3 | 79.5 |
| GPQA-Diamond C-Eval | 32.8 | 40.9 | 36.4 | 45.5 | 41.7 | 39.3 | |
| LiveBench 2024-11-25 | 52.0 26.0 | 61.1 43.7 | 76.2 34.9 | 78.0 42.2 | 72.2 48.4 | 77.9 53.5 | |
| Alignment Tasks | IFEval strict prompt | 75.0 | 80.2 | 71.2 | 81.0 | 81.2 | 83.0 |
| Arena-Hard | 30.1 | 82.6 | 52.0 | 68.3 | 66.2 | 79.6 | |
| AlignBench v1.1 | 6.01 | 7.77 | 7.27 | 7.67 | 8.10 | 8.38 | |
| Creative Writing v3 WritingBench | 52.8 4.57 | 79.9 | 49.8 | 55.8 | 53.6 | 64.5 | |
| Math & Text Reasoning | MATH-500 | 54.8 | 7.05 85.6 | 5.82 | 5.93 | 6.85 | 7.15 |
| AIME'24 | 6.3 | 77.6 | 83.4 | 84.8 | 87.4 | ||
| AIME'25 | 22.4 | 9.1 | 15.2 | 25.0 | 29.1 | ||
| ZebraLogic | 2.7 | 18.8 17.8 | 12.1 | 13.6 | 19.1 | 20.9 | |
| AutoLogi | 12.8 30.9 | 58.9 | 12.0 42.9 | 19.7 57.4 | 35.2 76.3 | 26.7 76.5 | |
| Agent & Coding | BFCL v3 | 49.6 | 50.6 | 55.8 | 58.7 | 57.6 | 60.2 |
| LiveCodeBench v5 | 10.8 | 25.7 | 14.4 | 21.9 | 21.3 | 22.8 | |
| Multilingual Tasks | CodeForces (Rating / Percentile) | 473 / 14.9% | 462 / 14.7% | 191 / 0.0% | 904 / 38.3% | 842 / 33.7% 1110 / 52.4% | |
| Multi-IF | 52.1 | 65.6 | 47.7 | 55.5 | 61.3 | 69.2 | |
| INCLUDE | 34.0 | 65.3 | 53.6 | 63.5 | 53.8 | 62.5 | |
| MMMLU 14 languages | 44.4 | 70.0 | 61.4 | 70.3 | 61.7 | 66.9 | |
| MT-AIME2024 | 0.4 | 16.7 | 5.5 | 8.5 | 13.9 | 16.6 | |
| PolyMath MLogiQA | 5.8 41.9 | 17.6 54.5 | 11.9 49.5 | 15.0 51.3 | 16.6 49.9 | 18.8 51.4 | |
Table 18 展示了 Qwen3-8B 和 Qwen3-4B(非思维模式)。这些模型在 非思维模式 下也展示了出色的性能,在参数量更多的基线上也优于它们,包括之前的 Qwen2.5 模型。
以下是原文 Table 19 的结果:
| DeepSeek-R1 -Distili-Qwen-1.5B | DeepSeek-R1 -Distill-Llama-8B | Qwen3-0.6B | Qwen3-1.7B | ||
| Architecture # Activated Params | Dense | Dense | Dense | Dense | |
| # Total Params | 1.5B 1.5B | 8B 8B | 0.6B 0.6B | 1.7B 1.7B | |
| General Tasks | MMLU-Redux | 45.4 | 66.4 | 55.6 | 73.9 |
| GPQA-Diamond | 33.8 | 49.0 | 27.9 | 40.1 | |
| C-Eval | 27.1 | 50.4 | 50.4 | 68.1 | |
| LiveBench 2024-11-25 | 24.9 | 40.6 | 30.3 | 51.1 | |
| Alignment Tasks | IFEval strict prompt | 39.9 | 59.0 | 59.2 | 72.5 |
| Arena-Hard | 4.5 | 17.6 | 8.5 | 43.1 | |
| AlignBench v1.1 | 5.00 | 6.24 | 6.10 | 7.60 | |
| Creative Writing v3 WritingBench | 16.4 4.03 | 51.1 5.42 | 30.6 5.61 | 48.0 | |
| Math & Text Reasoning | MATH-500 | 83.9 | 89.1 | 77.6 | 7.02 93.4 |
| AIME'24 | 28.9 | 50.4 | 10.7 | 48.3 | |
| AIME'25 | 22.8 | 27.8 | 15.1 | 36.8 | |
| ZebraLogic | 4.9 | 37.1 | 30.3 | 63.2 | |
| AutoLogi | 19.1 | 63.4 | 61.6 | 83.2 | |
| Agent & Coding | BFCL v3 LiveCodeBench v5 | 14.0 13.2 | 21.5 42.5 | 46.4 | 56.6 |
| Multilingual Tasks | Multi-IF | 12.3 | 33.2 | ||
| 13.3 | 27.0 | 36.1 | 51.2 | ||
| INCLUDE | 21.9 | 34.5 | 35.9 | 51.8 | |
| MMMLU 14 languages | 27.3 | 40.1 | 43.1 | 59.1 | |
| MT-AIME2024 | 12.4 | 13.2 | 7.8 | 36.1 | |
| PolyMath MLogiQA | 14.5 29.0 | 10.8 32.8 | 11.4 40.9 | 25.2 56.0 | |
Table 19 展示了 Qwen3-1.7B 和 Qwen3-0.6B(思维模式)。这些模型在思维模式下,在多个基准上超越了参数量更多的基线。
以下是原文 Table 20 的结果:
| Gemma-3 -1B-IT | Phi-4-mini | Qwen2.5-1.5B -Instruct | Qwen2.5-3B -Instruct | Qwen3-0.6B | Qwen3-1.7B | ||
| Architecture # Activated Params | Dense | Dense | Dense | Dense | Dense | Dense | |
| 1.0B | 3.8B | 1.5B | 3.1B | 0.6B | 1.7B | ||
| # Total Params | 1.0B | 3.8B | 1.5B | 3.1B | 0.6B | 1.7B | |
| MMLU-Redux | 33.3 | 67.9 | 50.7 | 64.4 | 44.6 | 64.4 | |
| GPQA-Diamond | 19.2 | 25.2 | 29.8 | 30.3 | 22.9 | 28.6 | |
| Tasks | C-Eval | 28.5 | 40.0 | 53.3 | 68.2 | 42.6 | 61.0 |
| LiveBench 2024-11-25 | 14.4 | 25.3 | 18.0 | 23.8 | 21.8 | 35.6 | |
| IFEval strict prompt | 54.5 | 68.6 | 42.5 | 58.2 | 54.5 | 68.2 | |
| Arena-Hard | 17.8 | 32.8 | 9.0 | 23.7 | 6.5 | 36.9 | |
| Alignment Tasks | AlignBench v1.1 | 5.3 | 6.00 | 5.60 | 6.49 | 5.60 | 7.20 |
| Creative Writing v3 | 52.8 | 10.3 | 31.5 | 42.8 | 28.4 | 43.6 | |
| WritingBench | 5.18 | 4.05 | 4.67 | 5.55 | 5.13 | 6.54 | |
| MATH-500 | 46.4 | 67.6 | 55.0 | 67.2 | 55.2 | 73.0 | |
| AIME'24 | 0.9 | 8.1 | 0.9 | 6.7 | 3.4 | 13.4 | |
| Math & Text Reasoning | AIME'25 | 0.8 | 5.3 | 0.4 | 4.2 | 2.6 | 9.8 |
| ZebraLogic | 1.9 | 2.7 | 3.4 | 4.8 | 4.2 | 12.8 | |
| AutoLogi | 16.4 | 28.8 | 22.5 | 29.9 | 37.4 | 59.8 | |
| BFCL v3 | 16.3 | 31.3 | 47.8 | 50.4 | 44.1 | 52.2 | |
| Coding | LiveCodeBench v5 | 1.8 | 10.4 | 5.3 | 9.2 | 3.6 | 11.6 |
| Multi-IF | |||||||
| INCLUDE | 32.8 | 40.5 | 20.2 | 32.3 | 33.3 | 44.7 | |
| 32.7 | 43.8 | 33.1 | 43.8 | 34.4 | 42.6 | ||
| MMMLU 14 languages | 32.5 | 51.4 | 40.4 | 51.8 | 37.1 | 48.3 | |
| MT-AIME2024 | 0.2 | 0.9 6.7 | 0.7 | 1.6 | 1.5 | 4.9 | |
| PolyMath | 3.5 | 5.0 | 7.3 | 4.6 | 10.3 | ||
| MLogiQA | 31.8 | 39.5 | 40.9 | 39.5 | 37.3 | 41.1 |
Table 20 展示了 Qwen3-1.7B 和 Qwen3-0.6B(非思维模式)。这些边缘侧模型同样表现出色,在 非思维模式 下也超越了参数量更多的基线,包括之前的 Qwen2.5 模型。
6.2.3. 长文本能力评估
以下是原文 Table 23 的结果:
| Model | RULER | |||||||
| Avg. | 4K | 8K | 16K | 32K | 64K | 128K | ||
| Qwen2.5-7B-Instruct | 85.4 | 96.7 | 95.1 | 93.7 | 89.4 | 82.3 | 55.1 | |
| Qwen2.5-14B-Instruct | 91.4 | 97.7 | 96.8 | 95.9 | 93.4 | 86.7 | 78.1 | |
| Qwen2.5-32B-Instruct | 92.9 | 96.9 | 97.1 | 95.5 | 95.5 | 90.3 | 82.0 | |
| Qwen2.5-72B-Instruct | 95.1 | 97.7 | 97.2 | 97.7 | 96.5 | 93.0 | 88.4 | |
| Qwen3-4B | 85.2 | 95.1 | 93.6 | 91.0 | 87.8 | 77.8 | 66.0 | |
| Non-thinking Mode | Qwen3-8B | 89.1 | 96.3 | 96.0 | 91.8 | 91.2 | 82.1 | 77.4 |
| Qwen3-14B | 94.6 | 98.0 | 97.8 | 96.4 | 96.1 | 94.0 | 85.1 | |
| Qwen3-32B | 93.7 | 98.4 | 96.0 | 96.2 | 94.4 | 91.8 | 85.6 | |
| Qwen3-30B-A3B | 91.6 | 96.5 | 97.0 | 95.3 | 92.4 | 89.1 | 79.2 | |
| Qwen3-235B-A22B | 95.0 | 97.7 | 97.2 | 96.4 | 95.1 | 93.3 | 90.6 | |
| Thinking Mode | Qwen3-4B | 83.5 | 92.7 | 88.7 | 86.5 | 83.2 | 83.0 | 67.2 |
| Qwen3-8B | 84.4 | 94.7 | 94.4 | 86.1 | 80.8 | 78.3 | 72.0 | |
| Qwen3-14B | 90.1 | 95.4 | 93.6 | 89.8 | 91.9 | 90.6 | 79.0 | |
| Qwen3-32B | 91.0 | 94.7 | 93.7 | 91.6 | 92.5 | 90.0 | 83.5 | |
| Qwen3-30B-A3B | 86.6 | 94.1 | 92.7 | 89.0 | 86.6 | 82.1 | 75.0 | |
| Qwen3-235B-A22B | 92.2 | 95.1 | 94.8 | 93.0 | 92.3 | 92.0 | 86.0 | |
Table 23 显示了 Qwen3 模型在 RULER 基准上的长文本能力。
- 非思维模式:
Qwen3在非思维模式下,在长文本处理任务中表现优于类似规模的Qwen2.5模型。 - 思维模式:在
思维模式下,模型的性能略有下降。研究者推测这是因为这些检索任务不依赖推理,思维内容可能反而干扰了检索过程。
6.2.4. 多语言能力评估 (Belebele 基准)
以下是原文 Table 36 的结果:
| Language family # Langs Language code (ISO 639-3 ISO 15924) | ||
| Indo-European | 40 | por_Latn, deu_Latn, tgk_Cyrl, ces_Latn, nob_Latn, dan_Latn, snd_Arab, spa_Latn, isl_Latn, slv_Latn, eng_Latn, ory_Orya, hrv_Latn, ell_Grek, ukr_Cyrl, pan_Guru, srp_Cyrl, npi_Deva, mkd_Cyrl, guj_Gujr, nld_Latn, swe_Latn, hin_Deva, rus_Cyrl, asm_Beng, cat_Latn, als_Latn, sin_Sinh, urd_Arab, mar_Deva, lit_Latn, slk_Latn, |
| ita_Latn, pol_Latn, bul_Cyrl, afr_Latn, ron_Latn, fra_Latn, ben_Beng, hye_Armn | ||
| Sino-Tibetan Afro-Asiatic | 3 8 | zho_Hans, mya_Mymr, zho_Hant heb_Hebr, apc_Arab, acm_Arab, ary_Arab, ars_Arab, arb_Arab, mlt_Latn, erz_Arab |
| Austronesian | 7 | ilo_Latn, ceb_Latn, tgl_Latn, sun_Latn, jav_Latn, war_Latn, ind_Latn |
| Dravidian | 4 | mal_Mlym, kan_Knda, tel_Telu, tam_Taml |
| Turkic | 4 | kaz_Cyrl, azj_Latn, tur_Latn, uzn_Latn |
| Tai-Kadai | 2 | tha_Thai, lao_Laoo |
| Uralic | 3 | fin_Latn, hun_Latn, est_Latn |
| Austroasiatic | 2 | vie_Latn, khm _Khmr |
| Other | eus_Latn, kor_Hang, hat_Latn, swh_Latn, kea_Latn, jpn_Jpan, kat_Geor |
Table 36 列出了 Qwen3 在 Belebele 基准测试中支持的语言家族和语言代码。
以下是原文 Table 37 的结果:
| Model | Indo- European Tibetan Asiatic | Sino- | Afro- | Austronesian Dravidian Turkic | Tai- Kadai | Uralic Austroasiatic Other | ||||
| Gemma-3-27B-IT | 89.2 | 86.3 | 85.9 | 84.1 | 83.5 | 86.8 | 81.0 | 91.0 | 86.5 | 87.0 |
| Qwen2.5-32B-Instruct | 85.5 | 82.3 | 80.4 | 70.6 | 67.8 | 80.8 | 74.5 | 87.0 | 79.0 | 72.6 |
| QwQ-32B | 86.1 | 83.7 | 81.9 | 71.3 | 69.3 | 80.3 | 77.0 | 88.0 | 83.0 | 74.0 |
| Qwen3-32B (Thinking) | 90.7 | 89.7 | 84.8 | 86.7 | 84.5 | 89.3 | 83.5 | 91.3 | 88.0 | 83.1 |
| Qwen3-32B (Non-thinking) | 89.1 | 88.0 | 82.3 | 83.7 | 84.0 | 85.0 | 85.0 | 88.7 | 88.0 | 81.3 |
| Gemma-3-12B-IT | 85.8 | 83.3 | 83.4 | 79.3 | 79.0 | 82.8 | 77.5 | 89.0 | 83.0 | 81.6 |
| Qwen2.5-14B-Instruct | 82.7 | 78.9 | 80.4 | 69.1 | 66.2 | 74.2 | 72.2 | 883.9 | 77.9 | 70.4 |
| Qwen3-14B (Thinking) | 88.6 | 87.3 | 82.4 | 82.4 | 81.0 | 83.8 | 83.5 | 91.0 | 82.5 | 81.7 |
| Qwen3-14B (Non-thinking) | 87.4 | 82.7 | 80.1 | 80.7 | 78.0 | 81.8 | 80.5 | 87.7 | 81.5 | 77.0 |
| Gemma-3-4B-IT | 71.8 | 72.0 | 63.5 | 61.7 | 64.8 | 64.0 | 61.5 | 70.7 | 71.0 | 62.6 |
| Qwen2.5-3B-Instruct | 58.0 | 62.3 | 57.2 | 47.9 | 36.9 | 45.1 | 49.8 | 50.6 | 56.8 | 48.4 |
| Qwen3-4B (Thinking) | 82.2 | 77.7 | 74.1 | 73.0 | 74.3 | 76.3 | 68.5 | 83.0 | 74.5 | 67.9 |
| Qwen3-4B (Non-thinking) | 76.0 | 77.0 | 65.6 | 65.6 | 65.5 | 64.0 | 60.5 | 74.0 | 74.0 | 61.0 |
| Gemma-3-1B-IT | 36.5 | 36.0 | 30.0 | 29.1 | 28.8 | 27.3 | 28.0 | 32.7 | 33.0 | 30.9 |
| Qwen2.5-1.5B-Instruct | 41.5 | 43.0 | 39.6 | 34.8 | 28.6 | 29.7 | 39.4 | 33.8 | 42.0 | 36.0 |
| Qwen3-1.7B (Thinking) | 69.7 | 66.0 | 59.4 | 58.6 | 52.8 | 57.8 | 53.5 | 70.3 | 63.5 | 53.4 |
| Qwen3-1.7B (Non-thinking) | 58.8 | 62.7 | 50.8 | 53.0 | 43.3 | 48.0 | 46.0 | 54.3 | 54.0 | 43.9 |
Table 37 比较了 Qwen3 和其他基线模型在 Belebele 基准上的性能。结果显示,Qwen3 达到了与类似规模的 Gemma 模型可比的性能,同时显著优于 Qwen2.5 模型。这表明 Qwen3 在多语言理解方面取得了显著进步。
6.2.5. 在策略蒸馏 (On-Policy Distillation) 效率评估
以下是原文 Table 21 的结果:
| Method | AIME'24 | AIME'25 | MATH500 | LiveCodeBench v5 | MMLU -Redux | GPQA -Diamond | GPU Hours |
| Off-policy Distillation | 55.0 (90.0) | 42.8 (83.3) | 92.4 | 42.0 | 86.4 | 55.6 | - |
| + Reinforcement Learning | 67.6 (90.0) | 55.5 (83.3) | 94.8 | 52.9 | 86.9 | 61.3 | 17,920 |
| + On-policy Distillation | 74.4 (93.3) | 65.5 (86.7) | 97.0 | 60.3 | 88.3 | 63.3 | 1,800 |
Table 21 比较了 Qwen3-8B 上的 强化学习 (RL) 和 在策略蒸馏。结果显示,蒸馏 实现了比 强化学习 显著更好的性能,同时仅需约 的 GPU 小时。此外,蒸馏 使得学生模型能够扩展其探索空间并增强推理潜力,表现为 AIME'24 和 AIME'25 基准上的 Pass@64 分数提高,而 强化学习 未能带来 Pass@64 分数的改善。这凸显了利用更强教师模型指导学生模型学习的优势。
6.2.6. 思维模式融合 (Thinking Mode Fusion) 和 通用 RL (General RL) 效果评估
以下是原文 Table 22 的结果:
| Stage 2 Reasoning RL | Stage 3 Thinking Mode Fusion | Stage 4 General RL | ||||
| Benchmark | Thinking | Thinking | Non-Thinking | Thinking | Non-Thinking | |
| General Tasks | LiveBench 2024-11-25 | 68.6 | 70.9+2.3 | 57.1 | 74.9+4.0 | 59.8+2.8 |
| Arena-Hard | 86.8 | 89.4+2.6 | 88.5 | 93.8+4.4 | 92.8+4.3 | |
| CounterFactQA* | 50.4 | 61.3+10.9 | 64.3 | 68.1+6.8 | 66.4+2.1 | |
| Instruction & Format Following | IFEval strict prompt | 73.0 | 78.4+5.4 | 78.4 | 85.0+6.6 | 83.2+4.8 |
| Multi-IF | 61.4 | 64.6+3.2 | 65.2 | 73.0+8.4 | 70.7+5.5 | |
| LengthCtrl* | 62.6 | 70.6+8.0 | 84.9 | 73.5+2.9 | 87.3+2.4 | |
| ThinkFollow* | - | 88.7 | 98.9+10.2 | |||
| Agent | BFCL v3 | 69.0 | 68.4-0.6 | 61.5 | 70.3+1.9 | 63.0+1.5 |
| ToolUse* | 63.3 | 70.4+7.1 | 73.2 | 85.5+15.1 | 86.5+13.3 | |
| Knowledge & STEM | MMLU-Redux | 91.4 | 91.0-0.4 | 86.7 | 90.9-0.1 | 85.7-1.0 |
| GPQA-Diamond | 68.8 | 69.0+0.2 | 50.4 | 68.4-0.6 | 54.6+4.3 | |
| Math & | AIME'24 | 83.8 | 81.9-1.9 | 28.5 | 81.4-0.5 | 31.0+2.5 |
| TCCoding | LiveCodeBench v5 | 68.4 | 67.2-1.2 | 31.1 | 65.7-1.5 | 31.3+0.2 |
Table 22 展示了 Qwen3-32B 在 推理 RL(阶段 2)、思维模式融合(阶段 3)和 通用 RL(阶段 4)后的性能。
- 阶段 3 (
思维模式融合):成功将非思维模式集成到模型中。ThinkFollow基准测试分数达到 88.7,表明模型已初步具备模式切换能力。此阶段还提升了思维模式下的通用能力和指令遵循能力,CounterFactQA和LengthCtrl分数分别提升 10.9 和 8.0 点。 - 阶段 4 (
通用 RL):进一步增强了思维和非思维模式下的通用能力、指令遵循和Agent能力。ThinkFollow分数提高到 98.9,确保了模式切换的准确性。 - 性能权衡:对于知识、
STEM、数学和编码任务,思维模式融合和通用 RL并未带来显著提升。相反,在AIME'24和LiveCodeBench等挑战性任务中,思维模式性能在这些训练阶段后有所下降。这可能是由于模型在更广泛的通用任务上进行训练,牺牲了其在复杂问题处理中的专业能力。研究团队选择接受这种性能权衡,以增强模型的整体通用性。
6.3. 消融实验/参数分析
6.3.1. 思维预算 (Thinking Budget) 的有效性
如 Figure 2 所示,Qwen3-235B-A22B 在 数学、编码 和 STEM 领域的四个基准测试中,随着 思维预算 的增加,性能呈现出可扩展且平滑的改进。这有力地证明了 思维预算 机制的有效性,用户可以根据任务需求和资源限制,通过调整 思维预算 来直接影响模型的推理深度和性能。例如,AIME'24 分数从约 70 提升至 85 以上,AIME'25 从 75 提升至 80 以上,LiveCodeBench (v5) 从 65 提升至 70 以上,GPQA Diamond 从 65 提升至 70 以上。这表明在需要复杂推理的任务中,给予模型更多的思考空间(即更大的 思维预算)能显著提升其表现。
6.3.2. 在策略蒸馏 (On-Policy Distillation) 的有效性和效率
Table 21 对比了 Qwen3-8B 模型上 强化学习 和 在策略蒸馏 的效果。
- 性能提升:从
离策略蒸馏阶段开始,强化学习在AIME'24和AIME'25上的分数分别从 55.0/42.8 提升到 67.6/55.5,而在策略蒸馏则进一步提升到 74.4/65.5。这表明在策略蒸馏能够带来更高的性能增益。 Pass@64的提升:在策略蒸馏将AIME'24和AIME'25的Pass@64分数从 90.0/83.3 提升到 93.3/86.7,而强化学习保持不变。这说明蒸馏能够拓宽学生模型的探索空间和推理潜力。- 计算效率:
强化学习需要 17,920GPU小时,而在策略蒸馏仅需 1,800GPU小时,效率提高了近 10 倍。这突出显示了利用强大教师模型指导学生模型学习的巨大优势。
6.3.3. 思维模式融合 (Thinking Mode Fusion) 和 通用 RL (General RL) 的效果
Table 22 详细展示了 Qwen3-32B 模型在不同后训练阶段(推理 RL、思维模式融合、通用 RL)的性能变化。
- 模式切换能力的引入:在
思维模式融合阶段(阶段 3),ThinkFollow基准得分达到 88.7,表明模型已初步具备根据用户指令切换思维和非思维模式的能力。在通用 RL阶段(阶段 4),ThinkFollow分数进一步提升到 98.9,确保了模式切换的准确性。 - 通用和指令遵循能力的提升:
思维模式融合(阶段 3)显著提升了思维模式下的通用和指令遵循能力,例如CounterFactQA提高了 10.9 点,LengthCtrl提高了 8.0 点。通用 RL(阶段 4)进一步增强了思维和非思维模式下的这些能力。 - 专业能力与通用性之间的权衡:对于知识、
STEM、数学和编码等专业任务,思维模式融合和通用 RL并未带来显著提升。相反,在AIME'24和LiveCodeBench等挑战性任务中,思维模式的性能在这些阶段后略有下降。这表明在追求模型整体通用性的过程中,可能会对某些高度专业化的任务性能造成一定程度的牺牲,但研究团队选择接受这种权衡。
7. 总结与思考
7.1. 结论总结
这篇技术报告详细介绍了 Qwen3,Qwen 系列的最新版本。Qwen3 成功集成了 思维模式 和 非思维模式,允许用户动态控制复杂思维任务所需的词元数量,实现了性能和效率的灵活平衡。模型在包含 36 万亿词元的庞大数据集上进行预训练,支持 119 种语言和方言,极大地扩展了其多语言能力。
通过全面的评估,Qwen3 在预训练和后训练模型中,在代码生成、数学、推理和 Agent 等一系列标准基准上均展现出强大的性能,达到了 state-of-the-art 水平。特别是,旗舰模型 Qwen3-235B-A22B 在开源模型中表现卓越,并与闭源领先模型具有高度竞争力。同时,通过 强到弱蒸馏 方法,轻量级模型也取得了优异性能,显著降低了开发成本。所有模型均在 Apache 2.0 许可下开源,促进了社区贡献和研究。
7.2. 局限性与未来工作
7.2.1. 局限性
论文中指出了一些 Qwen3 当前的局限性:
- 思维模式在某些任务上的性能退化: 在
思维模式下处理长文本的检索任务时,模型的性能略有下降。这可能是因为思维内容对于不依赖推理的检索任务没有显著益处,反而可能干扰检索过程。 - 通用性与专业性之间的权衡: 在
思维模式融合和通用强化学习阶段,为了提升模型的整体通用能力,在AIME'24和LiveCodeBench等某些挑战性、专业性强的任务上,思维模式的性能实际上有所下降。这意味着在追求广泛能力的同时,可能牺牲了特定领域的最优性能。
7.2.2. 未来工作
Qwen 团队计划在未来工作中关注以下几个关键领域:
- 扩大预训练规模和数据质量: 继续扩大预训练数据的规模,并提高数据的质量和多样性。
- 改进模型架构和训练方法: 持续优化模型架构和训练方法,以实现更有效的模型压缩、以及扩展到超长上下文(
extremely long contexts)等目标。 - 增加
强化学习 (RL)资源: 投入更多计算资源用于RL,特别是专注于基于智能体的强化学习 (agent-based RL)系统,使其能够从环境反馈中学习。这将有助于构建能够处理需要推理时扩展的复杂任务的智能体 (agent)。
7.3. 个人启发与批判
7.3.1. 个人启发
Qwen3 的发布带来了多方面的启发:
- 统一模型范式的潜力: 将
思维模式和非思维模式整合到一个模型中,并允许动态切换,是LLM发展的一个重要方向。这解决了用户在不同任务模式间切换的痛点,显著提升了模型的通用性和易用性。这种设计理念有望成为未来LLM的标准配置,即模型能够根据上下文和用户需求智能地调整其计算策略。 - 计算资源精细化管理的价值:
思维预算机制的引入,标志着LLM推理过程从“黑箱”到“可控”的转变。用户可以根据对延迟和性能的权衡,灵活分配计算资源。这对于实际部署,尤其是在资源受限的边缘设备或对实时性要求高的应用场景中,具有巨大的实用价值。 - 知识蒸馏在生态系统中的关键作用:
强到弱蒸馏策略的成功,证明了大型旗舰模型不仅本身具有价值,还能作为“教师”赋能小型模型。这对于构建一个包含多种规模模型的LLM生态系统至关重要,使得高性能模型不再是少数“大玩家”的专属,降低了中小开发者使用先进LLM的门槛。 - 多阶段训练的精细化趋势:
Qwen3复杂的预训练和后训练流程,包括CoT 冷启动、推理 RL、思维模式融合和通用 RL,反映了LLM训练已进入一个高度精细化和多目标优化的阶段。每一个阶段都针对模型特定能力的提升,这种策略是未来构建更强大、更鲁棒LLM的必然路径。 - 多语言能力的战略意义: 将语言支持扩展到 119 种语言和方言,体现了
LLM走向全球化的决心。这不仅拓展了模型的应用市场,也为跨文化交流和低资源语言研究提供了强大的工具。
7.3.2. 批判
尽管 Qwen3 取得了显著进展,但仍存在一些值得批判性思考的方面和潜在问题:
-
思维模式下的性能权衡: 论文中明确指出,在
思维模式融合和通用 RL阶段,为增强模型整体通用性,某些专业性强的任务(如AIME'24和LiveCodeBench)的性能有所下降。这种权衡是必要的吗?是否存在更优化的多目标训练策略,能够在提升通用性的同时,不牺牲甚至增强专业任务的性能?未来的研究可以探索更高级别的多任务强化学习 (Multi-task Reinforcement Learning)或动态任务路由 (dynamic task routing)机制,以避免这种性能损失。 -
长文本能力在思维模式下的退化: 论文提到
思维模式在某些长文本检索任务中性能略有下降。这暗示思维过程可能增加了不必要的冗余或干扰,导致模型难以聚焦于检索任务本身。如何设计思维模式,使其在长文本环境中更具鲁棒性,甚至能主动过滤无关信息,是需要解决的问题。这可能需要对思维模式的内部机制进行更深层次的改造,例如引入稀疏注意力 (sparse attention)或检索增强生成 (RAG)中对检索结果的思维过滤。 -
多语言模型中的偏见和公平性问题: 尽管
Qwen3极大地扩展了多语言支持,但仅仅增加语言数量并不意味着所有语言都能获得同等质量的服务。低资源语言的数据量和质量通常远低于英语等高资源语言,这可能导致模型在不同语言间存在性能差距和潜在的文化偏见。论文并未深入探讨这些多语言模型在公平性、偏见和文化适应性方面的表现,这在实际应用中是至关重要的问题。 -
“思维”的本质与可解释性: 尽管引入了
思维模式和思维预算,但模型的“思维”仍然是一个黑箱过程。模型内部如何选择生成推理步骤,这些步骤是否真正反映了人类的逻辑推理,以及如何进一步提高其可解释性,都是LLM领域面临的长期挑战。 -
评估基准的局限性: 尽管使用了大量基准,但
LLM的复杂性意味着任何有限的基准集都难以完全捕捉其真实能力。例如,Agent能力的评估仍处于早期阶段,实际环境中Agent的长期规划、错误恢复、与人类的自然交互等能力难以通过现有基准充分衡量。未来需要更多开放式、交互式和动态的评估方法。 -
计算成本的可持续性: 即使通过
MoE和知识蒸馏提高了效率,训练 36 万亿词元和多阶段RL仍然需要巨大的计算资源。如何进一步降低训练和部署的能耗及成本,是LLM领域持续面临的挑战。总而言之,
Qwen3在LLM的通用性、效率和多语言支持方面迈出了重要一步,其创新设计为未来LLM的发展指明了方向。然而,LLM技术的成熟仍需在性能权衡、鲁棒性、公平性、可解释性及可持续性等方面进行深入探索。
相似论文推荐
基于向量语义检索推荐的相关论文。