论文状态：已完成

Qwen3 Technical Report

发表：2025/05/14

大语言模型系列 (1)Mixture-of-Expert架构 (1)动态模型切换 (1)思维预算机制 (1)多语言支持扩展 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

Qwen3是最新的Qwen语言模型系列，结合了稠密和专家混合架构，参数范围从0.6亿到2350亿。其核心创新在于统一框架下的思维模式与非思维模式整合，支持动态切换。引入思维预算机制使用户能根据任务复杂性自适应分配计算资源，优化性能。同时，Qwen3多语言支持由29种扩展至119种，显著提高了全球可访问性。

摘要

In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.

思维导图

论文精读

中文精读约 48 分钟读完 · 40,441 字

1. 论文基本信息

1.1. 标题

Qwen3 Technical Report (Qwen3 技术报告)

1.2. 作者

Qwen Team

1.3. 发表期刊/会议

该论文作为预印本（preprint）发布在 arXiv 上。

1.4. 发表年份

2025 年 5 月 14 日

1.5. 摘要

这篇工作介绍了 Qwen 模型家族的最新版本 Qwen3。Qwen3 系列包含一系列旨在提升性能、效率和多语言能力的大型语言模型（LLMs）。Qwen3 系列模型包括稠密（dense）和专家混合（Mixture-of-Expert, MoE）两种架构，参数规模从 0.6 亿到 2350 亿不等。Qwen3 的一个关键创新是将思维模式（thinking mode，用于复杂的多步推理）和非思维模式（non-thinking mode，用于快速的、上下文驱动的响应）整合到一个统一的框架中。这消除了在不同模型（如针对聊天优化的 GPT-4o 和专用推理模型 QwQ-32B）之间切换的需求，并能根据用户查询或聊天模板动态切换模式。同时，Qwen3 引入了思维预算机制，允许用户在推理过程中自适应地分配计算资源，从而根据任务复杂性平衡延迟和性能。此外，通过利用旗舰模型的知识，显著降低了构建小规模模型所需的计算资源，同时确保了其极具竞争力的性能。经验评估表明，Qwen3 在代码生成、数学推理、Agent 任务等各种基准测试中达到了最先进的（state-of-the-art）结果，与更大的 MoE 模型和专有模型相比也具有竞争力。与前身 Qwen2.5 相比，Qwen3 的多语言支持从 29 种扩展到 119 种语言和方言，通过改进的跨语言理解和生成能力增强了全球可访问性。为了促进可复现性（reproducibility）和社区驱动的研究与开发，所有 Qwen3 模型均在 Apache 2.0 许可下公开。

1.6. 原文链接

https://arxiv.org/abs/2505.09388

1.7. PDF 链接

https://arxiv.org/pdf/2505.09388v1.pdf

2. 整体概括

2.1. 研究背景与动机

当前人工智能领域正积极追求通用人工智能（AGI）甚至超人工智能（ASI）。近期 GPT-4o、Claude 3.7、Gemini 2.5 等大型基础模型的进展显著推动了这一目标。这些模型通过在海量数据集上训练，有效地将人类知识和能力提炼到其参数中。特别是在推理能力方面，通过强化学习优化的模型如 03、DeepSeek-R1 展现了巨大潜力。

然而，现有研究面临几个挑战：

模式切换不便： 传统的 LLMs 通常针对特定任务（如聊天优化或专门推理）进行优化，导致用户在需要不同模式能力时必须切换不同的模型，效率低下。例如，用户在需要快速响应和复杂推理之间切换时，可能需要在 Qwen2.5 和 QwQ 模型之间来回切换。
资源分配不灵活： 模型的计算资源在推理时通常是固定的，无法根据任务的复杂性动态调整，导致在简单任务上浪费资源，而在复杂任务上可能性能不足。
小模型构建成本高： 训练高性能的小规模模型通常需要大量的计算资源和开发精力。

Qwen3 的研究动机正是为了解决这些挑战，通过以下创新点切入：
统一框架： 将推理（thinking mode）和快速响应（non-thinking mode）整合到一个模型中，允许动态切换。
思维预算机制： 赋予用户对模型推理过程的细粒度控制，优化计算资源和性能。
知识蒸馏： 利用旗舰模型的知识来高效地提升小规模模型的性能，降低其开发成本。
多语言扩展： 显著增加语言支持，提升全球可访问性。

2.2. 核心贡献/主要发现

这篇论文的核心贡献和主要发现可以总结如下：

发布 Qwen3 系列模型： 推出了一系列开放权重（open-weight）的大型语言模型，包括稠密和专家混合（MoE）架构，参数规模从 0.6 亿到 2350 亿，满足了不同下游应用的性能和效率需求。旗舰模型 Qwen3-235B-A22B 拥有 2350 亿总参数和 220 亿激活参数。
创新性模式集成与控制： 首次在单个模型中集成了思维模式和非思维模式。这一设计允许用户动态地在两种模式之间切换，避免了在不同模型之间来回切换的需要。同时引入了思维预算（thinking budget）机制，使用户能够对模型在推理过程中的计算资源分配进行精细控制，以平衡延迟和性能。
显著提升多语言能力： 将模型的多语言支持从 Qwen2.5 的 29 种语言和方言扩展到 119 种，极大地增强了全球可访问性和跨语言理解与生成能力。
高效的小模型构建策略： 通过 强到弱蒸馏 (Strong-to-Weak Distillation) 方法，利用旗舰模型的知识，显著降低了构建高性能小规模模型所需的计算资源和开发工作，确保了其在同等或更大参数规模模型中保持竞争力。
卓越的 state-of-the-art 性能： 经验评估表明，Qwen3 系列模型在广泛的基准测试中（包括代码生成、数学推理、Agent 任务等）取得了 state-of-the-art 的结果，不仅超越了其前身 Qwen2.5，还与更大的 MoE 模型和一些专有模型（如 OpenAI-o1、Gemini2.5-Pro、GPT-4o）展现出强劲的竞争力。
开源开放： 所有 Qwen3 模型均在 Apache 2.0 许可下公开，促进了社区驱动的研究和创新。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 Qwen3 的技术报告，我们首先需要了解一些关键的基础概念。

大型语言模型 (Large Language Models, LLMs)：LLMs 是一类使用深度学习技术（特别是 Transformer 架构）在海量文本数据上训练的模型。它们能够理解、生成人类语言，并执行各种自然语言处理任务，如问答、翻译、摘要、代码生成等。
Transformer 架构 (Transformer Architecture)：Transformer 是一种深度学习模型架构，由 Attention 机制（特别是 自注意力机制 (Self-Attention Mechanism)）构成，广泛应用于 LLMs。它能有效地处理序列数据，捕捉长距离依赖关系。
注意力机制 (Attention Mechanism)：Attention 机制允许模型在处理序列的每个元素时，动态地关注输入序列中的不同部分，从而更好地理解上下文。其核心思想是为输入序列中的每个元素分配一个权重，表示其对当前输出的重要性。
- 自注意力机制 (Self-Attention Mechanism)：Self-Attention 是 Attention 机制的一种特殊形式，它允许模型在处理序列中的一个词元（token）时，同时考虑序列中所有其他词元与它的关系。
- 组查询注意力 (Grouped Query Attention, GQA)：GQA 是一种 Attention 机制的变体，旨在提高推理效率。它介于 多头注意力 (Multi-Head Attention, MHA) 和 多查询注意力 (Multi-Query Attention, MQA) 之间。在 GQA 中，多个查询头（query heads）共享一组键（key）和值（value）头，而不是每个查询头都有独立的键和值头（MHA），也不是所有查询头共享同一个键和值头（MQA）。这在保持 MHA 性能的同时，有效降低了 MQA 可能带来的性能下降，从而在效率和性能之间取得平衡。
稠密模型 (Dense Models)：这是传统的 Transformer 模型架构，其中所有的参数在每次前向传播时都会被激活和使用。模型越大，计算成本越高。
专家混合模型 (Mixture-of-Experts, MoE)：MoE 是一种神经网络架构，旨在通过条件计算提高模型容量和效率。在 MoE 模型中，网络的某些层由多个“专家”（expert）子网络组成，一个“门控网络”（gating network）或“路由网络”（router network）根据输入动态地选择或组合少数几个专家来处理当前输入。这意味着在每次前向传播时，只有一部分专家会被激活，从而在拥有巨大总参数量的同时，保持相对较低的计算成本。
- 总参数 (Total Parameters)：MoE 模型中所有专家网络和门控网络的参数总和。
- 激活参数 (Activated Parameters)：在 MoE 模型中，每次处理一个输入时，实际被激活和参与计算的专家参数量。这通常远小于总参数量，是衡量 MoE 模型推理效率的关键指标。
旋转位置嵌入 (Rotary Positional Embeddings, RoPE)：RoPE 是一种用于 Transformer 模型的位置编码方法。它通过在 Attention 计算中将位置信息以旋转矩阵的形式融入到查询（query）和键（key）向量中，使得模型能够感知序列中词元的位置关系，并能更好地外推到比训练时更长的序列。
根均方归一化 (Root Mean Square Normalization, RMSNorm)：RMSNorm 是一种简化版的层归一化（Layer Normalization），它只对激活值的平方和进行归一化，而省略了均值减去的过程。这通常能略微提高训练效率和性能。
SwiGLU：SwiGLU 是一种激活函数，结合了 Swish 激活函数和 门控线性单元 (Gated Linear Unit, GLU) 的思想。它通过一个门控机制来控制信息流，能够提高模型的表达能力和性能。
QK-Norm：QK-Norm 是一种用于稳定 Transformer 训练的技术，特别是在 Attention 机制中。它通过对 query 和 key 向量进行归一化，可以帮助缓解 Attention 分数过大或过小的问题，从而避免训练不稳定或梯度消失/爆炸。
词元器 (Tokenizer)：Tokenizer 是将原始文本（如句子）分割成更小的单元（称为词元）的过程。这些词元可以是单词、子词或字符，然后被映射到数值表示（token ID）作为模型的输入。Byte-level Byte-Pair Encoding (BBPE) 是一种常见的 Tokenizer 算法，它首先将文本编码为字节序列，然后通过迭代合并频繁出现的字节对来构建词汇表，从而能够处理任意文本（包括未知字符）并有效控制词汇表大小。
思维模式 (Thinking Mode) 和非思维模式 (Non-Thinking Mode)：这是 Qwen3 引入的创新概念。
- 思维模式 (Thinking Mode)：当模型需要进行复杂、多步骤的推理时激活。在此模式下，模型可能会生成中间推理步骤（如 Chain-of-Thought），然后再给出最终答案。
- 非思维模式 (Non-Thinking Mode)：当模型需要快速、直接地响应，或者任务不需要复杂推理时激活。在此模式下，模型会直接给出答案，减少推理时间。
思维预算机制 (Thinking Budget Mechanism)：允许用户控制在 思维模式 下模型可以生成多少词元（token）用于推理。这使得用户可以根据任务的复杂度和对延迟的要求，灵活分配计算资源。
强化学习 (Reinforcement Learning, RL)：RL 是一种机器学习范式，其中 智能体 (agent) 通过与环境交互来学习如何做出决策以最大化累积奖励。在 LLM 训练中，RL 通常用于 后训练 (post-training) 阶段，以使模型行为更符合人类偏好或特定任务要求。
监督微调 (Supervised Fine-Tuning, SFT)：SFT 是指在预训练模型的基础上，使用带有标签的特定任务数据对模型进行进一步训练。这有助于模型适应特定任务的风格和要求。
知识蒸馏 (Knowledge Distillation)：这是一种模型压缩技术，其中一个大型、高性能的“教师”（teacher）模型将其学习到的知识传递给一个小型、低容量的“学生”（student）模型。学生模型通过模仿教师模型的输出（如 logits 或注意力分布）来学习，从而在保持相对较小规模的同时，达到接近教师模型的性能。
Chain-of-Thought (CoT)：CoT 是一种提示（prompting）技术，通过引导 LLM 逐步思考问题，展示其推理过程，从而提高模型在复杂推理任务上的性能。

3.2. 前人工作

Qwen3 的开发建立在 LLM 领域众多前人工作的基础之上，并在此基础上进行创新。

大型基础模型 (Large Foundation Models)：
- GPT-4o (OpenAI, 2024)、Claude 3.7 (Anthropic, 2025)、Gemini 2.5 (DeepMind, 2025)、DeepSeek-V3 (Liu et al., 2024a)、Llama-4 (Meta-AI, 2025) 以及 Qwen2.5 (Yang et al., 2024b) 等模型代表了 LLM 领域的最新进展。这些模型通过在海量数据集上的训练，展现了强大的通用能力。
推理优化模型 (Reasoning-Optimized Models)：
- 03 (OpenAI, 2025) 和 DeepSeek-R1 (Guo et al., 2025) 等模型通过强化学习等技术专门优化了推理能力，展示了 LLM 在复杂逻辑和多步问题解决方面的潜力。
Qwen 系列前作 (Previous Qwen Series)：
- Qwen2.5 (Yang ett al., 2024b) 是 Qwen3 的直接前身，提供了 Qwen3 稠密模型架构的基础。
- Qwen2.5-MoE (Yang et al., 2024b) 为 Qwen3 的 MoE 架构设计提供了起点，并在专家分割方面进行了继承。
- QwQ (Qwen Team, 2024, 2025) 是 Qwen 团队专门为推理任务优化的模型，其在 Qwen3 的 思维模式 设计中被视为一种参考和超越的目标。
数据扩展与合成 (Data Expansion and Synthesis)：
- Qwen2.5-VL (Bai et al., 2025) 被用于从 PDF 文档中提取文本，以扩大训练数据。
- Qwen2.5-Math (Yang et al., 2024c) 和 Qwen2.5-Coder (Hui et al., 2024) 用于生成领域特定的合成数据，以增强模型在数学和编码方面的能力。
长文本处理技术 (Long-Context Processing Techniques)：
- ABF (Xiong et al., 2023) 技术用于 RoPE 的频率扩展，以处理更长的上下文。
- YARN (Peng et al., 2023) 和 Dual Chunk Attention (DCA) (An et al., 2024) 用于在推理时进一步扩展序列长度容量。
架构组件 (Architectural Components)：
- GQA (Ainslie et al., 2023)、SwiGLU (Dauphin et al., 2017)、RoPE (Su et al., 2024)、RMSNorm (Jiang et al., 2023) 等先进组件在 Qwen3 中得到沿用或改进。
- QK-Norm (Dehghani et al., 2023) 被引入以确保训练稳定性。
- 全局批次负载均衡损失 (global-batch load balancing loss) (Qiu et al., 2025) 用于优化 MoE 模型的专家利用。

3.3. 技术演进

Qwen3 代表了 LLM 领域的几个重要技术演进方向：

从单一模型到多功能统一： 早期 LLM 往往专注于特定任务，如通用聊天或专门推理。Qwen3 通过整合 思维模式 和 非思维模式，实现了在一个统一框架内动态切换不同功能的能力，提高了模型的通用性和用户便利性。
从固定资源到动态分配： 思维预算机制 的引入，标志着从固定计算资源分配向根据任务需求动态分配资源的转变，这对于优化推理效率和成本至关重要。
从语言受限到全球覆盖： 将多语言支持从 29 种扩展到 119 种语言和方言，反映了 LLM 越来越重视全球化应用和跨文化交流的能力。
从独立训练到知识共享： 强到弱蒸馏 策略的成功应用，使得小规模模型能够受益于旗舰模型的强大能力，显著提高了开发效率和成本效益，促进了高性能模型的普及。
MoE 架构的持续优化： Qwen3 在 MoE 架构上的改进（如取消共享专家、引入 全局批次负载均衡损失）体现了对 MoE 模型效率和性能极限的不断探索。
预训练和后训练的精细化： 三阶段预训练策略和多阶段后训练流程（包括 长 CoT 冷启动、推理 RL、思维模式融合、通用 RL）表明 LLM 的训练过程正变得越来越精细和有针对性。

3.4. 差异化分析

Qwen3 与其相关工作（特别是与 Qwen2.5 和其他 state-of-the-art 模型）相比，具有以下核心区别和创新点：

统一的思维/非思维模式框架：
- Qwen3 创新： 最显著的特点。它在一个模型中同时支持 思维模式（用于复杂推理）和 非思维模式（用于快速响应），并允许用户动态切换。
- 与现有模型差异： 许多现有模型（包括 Qwen2.5）通常是单一模式的，或者需要用户在不同模型版本（如 chat 优化版和 reasoning 优化版）之间手动切换。例如，GPT-4o 侧重聊天，QwQ-32B 侧重推理，Qwen3 将这两种能力统一。
思维预算机制：
- Qwen3 创新： 引入了 思维预算，用户可以根据任务复杂性自适应地分配计算资源，平衡延迟和性能。
- 与现有模型差异： 多数 LLM 在推理时计算资源是固定的，或者仅通过改变采样参数（如温度）来间接影响输出冗余度，而非直接控制推理步骤的深度。
高效的小模型构建：
- Qwen3 创新： 采用 强到弱蒸馏 策略，从旗舰模型（如 Qwen3-235B-A22B）的知识中学习，显著降低了开发高性能小模型（如 Qwen3-0.6B 到 Qwen3-14B）的计算成本和时间。
- 与现有模型差异： 其他模型通常需要对每个模型规模进行独立的、昂贵的强化学习或微调过程。Qwen3 的蒸馏方法在性能和训练效率上都优于直接的强化学习。
扩展的多语言支持：
- Qwen3 创新： 将多语言覆盖范围从 Qwen2.5 的 29 种大幅扩展到 119 种语言和方言。
- 与现有模型差异： 虽然许多 LLM 宣称支持多语言，但 Qwen3 在覆盖范围和实际性能上都达到了一个新的高度，特别是在低资源语言方面。
MoE 架构优化：
- Qwen3 创新： Qwen3 MoE 模型（如 Qwen3-235B-A22B）取消了共享专家，并采用了 全局批次负载均衡损失 来鼓励专家特化，从而在更少的激活参数下实现卓越性能。
- 与 Qwen2.5-MoE 差异： Qwen2.5-MoE 包含共享专家，Qwen3 MoE 通过这些改进，在更少的激活参数和总参数下超越了 Qwen2.5 MoE。
- 与 DeepSeek-V3 等 MoE 差异： Qwen3-235B-A22B 在多数基准上超越了 DeepSeek-V3 Base，且总参数量仅为其约三分之一，激活参数量为其约三分之二，显示出更高的成本效益。
整体性能提升：
- Qwen3 创新： 在预训练和后训练模型上都达到了 state-of-the-art 性能，尤其在编码、数学和 Agent 任务中表现突出，即使与闭源模型相比也极具竞争力。
- 与 Qwen2.5 差异： 在相同或更小的参数规模下，Qwen3 模型（特别是小型稠密模型和 MoE 模型）在 STEM、编码和推理基准上显著超越了 Qwen2.5 模型。

4. 方法论

4.1. 方法原理

Qwen3 的核心方法原理在于构建一个统一、高效且多功能的 LLM 系列。这通过将先进的 Transformer 架构（包括稠密和 MoE 变体）、大规模多语言预训练数据、精细化的多阶段训练流程以及创新的模式控制机制（思维模式 和 非思维模式 及 思维预算）相结合来实现。其背后直觉是，通过在模型设计之初就考虑多种使用场景（快速响应和复杂推理），并辅以精密的训练策略和知识蒸馏，可以创建一个既能提供顶级性能，又能在不同规模下保持高效的通用 LLM。

4.2. 核心方法详解

4.2.1. 模型架构 (Architecture)

Qwen3 系列包含了六个稠密模型和两个 MoE 模型，参数规模多样化，以适应不同应用的需求。

稠密模型 (Dense Models)：Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B。
MoE 模型 (MoE Models)：Qwen3-30B-A3B 和旗舰模型 Qwen3-235B-A22B。其中，Qwen3-235B-A22B 的总参数为 2350 亿，每个词元激活参数为 220 亿。

Qwen3 稠密模型的架构与 Qwen2.5 相似，主要特征包括：
组查询注意力 (Grouped Query Attention, GQA)：用于提高推理效率。
SwiGLU：作为激活函数增强模型表达能力。
旋转位置嵌入 (Rotary Positional Embeddings, RoPE)：处理位置信息。
RMSNorm：带有 预归一化 (pre-normalization) 的 RMSNorm 用于稳定训练。

此外，Qwen3 稠密模型做出了一些改进：
移除 QKV-bias：与 Qwen2 不同，Qwen3 移除了 QKV-bias。
引入 QK-Norm：在 Attention 机制中引入 QK-Norm，以确保 Qwen3 训练的稳定性。

以下是 Qwen3 稠密模型的关键架构信息：

以下是原文 Table 1 的结果：

Models	Layers	Heads (Q / KV)	Tie Embedding	Context Length
Qwen3-0.6B	28	16 / 8	Yes	32K
Qwen3-1.7B	28	16 / 8	Yes	32K
Qwen3-4B	36	32 / 8	Yes	128K
Qwen3-8B	36	32 / 8	No	128K
Qwen3-14B	40	40 / 8	No	128K
Qwen3-32B	64	64 / 8	No	128K

Qwen3 MoE 模型与稠密模型共享相同的基本架构。

专家分割 (Expert Segmentation)：沿用 Qwen2.5-MoE 的精细专家分割方案。
专家数量：Qwen3 MoE 模型共有 128 个专家，每个词元激活 8 个专家。
无共享专家：与 Qwen2.5-MoE 不同，Qwen3 MoE 设计排除了共享专家。
负载均衡损失 (Load Balancing Loss)：采用 全局批次负载均衡损失 (global-batch load balancing loss) 来鼓励专家特化，从而提高模型性能。

以下是 Qwen3 MoE 模型的关键架构信息：

以下是原文 Table 2 的结果：

Models	Layers	Heads (Q / KV)	# Experts (Total / Activated)	Context Length
Qwen3-30B-A3B	48	32 / 4	128 / 8	128K
Qwen3-235B-A22B	94	64 / 4	128 / 8	128K

词元器 (Tokenizer)：Qwen3 模型使用 Qwen 的 词元器，该 词元器 实现了 字节级字节对编码 (byte-level byte-pair encoding, BBPE)，词汇表大小为 151,669。

4.2.2. 预训练 (Pre-training)

Qwen3 的预训练旨在构建一个基础扎实、能力多样的模型。

4.2.2.1. 预训练数据 (Pre-training Data)

Qwen3 使用了一个规模和多样性都显著扩展的训练数据集。

规模与语言：总计 36 万亿词元，涵盖 119 种语言和方言（相比 Qwen2.5 增加了三倍的语言种类）。
内容多样性：包括编码、STEM（科学、技术、工程和数学）、推理任务、书籍、多语言文本和合成数据等高质量内容。
数据扩展方法：
- 文本识别：利用 Qwen2.5-VL 模型对大量 PDF 文档进行文本识别，然后通过 Qwen2.5 模型进行精炼以提高文本质量，获得了数万亿额外的文本词元。
- 合成数据：使用 Qwen2.5、Qwen2.5-Math 和 Qwen2.5-Coder 模型合成数万亿词元，涵盖教科书、问答、指令和代码片段等多种格式和数十个领域。
- 多语言数据：引入了额外的多语言数据，显著增加了支持的语言种类。
数据标注与优化：开发了一个多语言数据标注系统，对超过 30 万亿词元进行多维度标注（教育价值、领域、安全性等），以支持更有效的数据过滤和组合。通过在小型代理模型上进行大规模消融实验，利用细粒度数据标签优化数据混合比例。

4.2.2.2. 预训练阶段 (Pre-training Stage)

Qwen3 模型采用三阶段预训练过程：

通用阶段 (General Stage, S1)：
- 所有 Qwen3 模型在此阶段使用 4,096 词元序列长度，在超过 30 万亿词元上进行训练。
- 目标是建立强大的语言能力和通用世界知识基础，涵盖 119 种语言和方言。
推理阶段 (Reasoning Stage, S2)：
- 为进一步提升推理能力，此阶段的预训练语料库增加了 STEM、编码、推理和合成数据的比例。
- 模型在约 5 万亿更高质量的词元上进行进一步预训练，序列长度未明确给出，但暗示是为推理优化。
长文本阶段 (Long Context Stage)：
- 在最终的预训练阶段，收集高质量的长文本语料，以扩展 Qwen3 模型的上下文长度。
- 所有模型在数千亿词元上进行预训练，序列长度为 32,768 词元。
- 长文本语料包含 75% 长度在 16,384 到 32,768 词元之间的文本，以及 25% 长度在 4,096 到 16,384 词元之间的文本。
- 技术应用：
  - RoPE：遵循 Qwen2.5，使用 ABF 技术将 RoPE 的基频从 10,000 增加到 1,000,000。
  - YARN 和 Dual Chunk Attention (DCA)：引入这些技术，以在推理时实现四倍的序列长度容量增长。

缩放法则 (Scaling Laws)：借鉴 Qwen2.5，Qwen 团队为上述三个预训练阶段开发了用于最佳超参数（学习率调度器、批次大小）预测的 缩放法则。通过大量实验，系统研究了模型架构、训练数据、训练阶段和最佳训练超参数之间的关系，为每个稠密或 MoE 模型设定了预测的学习率和批次大小策略。

4.2.3. 后训练 (Post-training)

Qwen3 的后训练流程旨在将预训练模型的通用能力转化为更符合人类偏好和下游应用需求的能力，特别是整合了 思维模式 和 非思维模式。

下图（原文 Figure 1）展示了 Qwen3 系列模型的后期训练流程：

Figure 1: Post-training pipeline of the Qwen3 series models. 该图像是Qwen3系列模型的后期训练流程示意图。图中展示了从基础模型到旗舰模型和轻量级模型的不同训练阶段，包括长期CoT冷启动、推理强化学习、思维模式融合和一般强化学习等关键步骤。

VLM 描述: 该图像是Qwen3系列模型的后期训练流程示意图。图中展示了从基础模型到旗舰模型和轻量级模型的不同训练阶段，包括长期CoT冷启动、推理强化学习、思维模式融合和一般强化学习等关键步骤。

Qwen3 的后训练管线有两个核心目标：

思维控制 (Thinking Control)：集成 非思维 和 思维 两种模式，允许用户灵活选择模型是否进行推理，并通过 思维预算 控制推理深度。
强到弱蒸馏 (Strong-to-Weak Distillation)：优化轻量级模型的后训练过程，通过从大型模型中转移知识，降低计算成本和开发工作。

旗舰模型采用复杂的四阶段后训练过程，前两个阶段侧重于开发“思维”能力，后两个阶段旨在整合强大的“非思维”功能。对于小型模型，直接将教师模型的 输出 logits (output logits) 蒸馏到学生模型中，以提高性能并保持对推理过程的精细控制，这种方法比独立进行四阶段训练效率高得多（仅需约 1/10 的 GPU 小时）。

4.2.3.1. 长 CoT 冷启动 (Long-CoT Cold Start)

数据集构建：构建了一个涵盖数学、代码、逻辑推理和通用 STEM 问题的大型数据集，每个问题都配有经过验证的参考答案或基于代码的测试用例。
两阶段过滤过程：
1. 查询过滤 (Query Filtering)：使用 Qwen2.5-72B-Instruct 识别并移除难以验证的查询（如包含多个子问题或要求通用文本生成），以及无需 CoT 就能正确回答的查询。同时，使用 Qwen2.5-72B-Instruct 注释每个查询的领域，以保持数据集的领域平衡。
2. 响应过滤 (Response Filtering)：对于保留的查询，使用 QwQ-32B 生成 $N$ 个候选响应。当 QwQ-32B 无法生成正确解决方案时，由人工标注者评估响应的准确性。对于 Pass@N 为正的查询，进一步应用严格的过滤标准，移除不正确的最终答案、大量重复、明显猜测、思维与总结内容不一致、不当语言混合或风格转换、以及可能过于接近验证项目（validation item）的响应。
目标：在此阶段，目标是向模型灌输基础的推理模式，而不过度强调即时推理性能，为后续的 强化学习 (Reinforcement Learning, RL) 阶段提供更大的灵活性和改进空间。因此，在此准备阶段，训练样本数量和训练步骤都尽可能最小化。

4.2.3.2. 推理强化学习 (Reasoning RL)

数据选择：用于 推理 RL 阶段的查询-验证器对必须满足四个标准：(1) 未在冷启动阶段使用；(2) 对冷启动模型可学习；(3) 尽可能具有挑战性；(4) 涵盖广泛的子领域。最终收集了 3,995 对查询-验证器对。
算法与优化：采用 GRPO (Shao et al., 2024) 更新模型参数。实验发现，使用大批次、每个查询高次数的 推演 (rollout) 以及 离策略训练 (off-policy training) 以提高样本效率对训练过程有益。
探索与利用的平衡：通过控制模型的熵（entropy）使其稳定或逐渐增加，以平衡探索（exploration）和利用（exploitation），这对维持训练稳定至关重要。
效果：例如，Qwen3-235B-A22B 模型在 170 步 RL 训练后，AIME'24 分数从 70.1 提高到 85.1。

4.2.3.3. 思维模式融合 (Thinking Mode Fusion)

目标：将 非思维 能力整合到先前开发的 思维 模型中，允许开发者管理和控制推理行为，同时降低部署独立模型（用于思维和非思维任务）的成本和复杂性。
方法：在 推理 RL 模型上进行连续的 监督微调 (Supervised Fine-Tuning, SFT)，并设计 聊天模板 (chat template) 融合两种模式。
SFT 数据构建：SFT 数据集结合了 思维 和 非思维 数据。
- 思维 数据：通过对第一阶段查询使用第二阶段模型进行 拒绝采样 (rejection sampling) 生成，以确保不影响第二阶段模型的性能。
- 非思维 数据：精心策划，涵盖聊天、知识和角色扮演等多样化任务。使用自动生成的检查清单评估 非思维 数据的响应质量。为了增强低资源语言任务的性能，特别增加了翻译任务的比例。

聊天模板设计 (Chat Template Design)：设计了用于 Qwen3 的聊天模板，以便更好地集成两种模式并允许用户动态切换模型的思维过程。

标记：在用户查询或系统消息中引入 /think 和 /no_think 标记。
格式一致性：对于 非思维模式 样本，在助手的响应中保留一个空的 思维块 (thinking block)。这确保了模型内部格式的一致性，并允许开发者通过在聊天模板中连接一个空的思维块来阻止模型进行思维行为。
默认行为：模型默认以 思维模式 运行，因此在训练数据中也包含了一些用户查询不带 /think 标记的 思维模式 训练样本。

多轮对话：对于更复杂的多轮对话，随机在用户查询中插入多个 /think 和 /no_think 标记，模型响应遵循遇到的最后一个标记。

以下是原文 Table 9 的结果：

Thinking Mode	Non-Thinking Mode
<\|im_start/>user {query}/think<\|im_end\|>	<\|im_start\|>user {query}/no_think<\|im_end\|>
<\|im_start/>assistant <think>	<\|im_start/>assistant <think>
{thinking_content} </think>	</think>

{response}<\|im_end\|>	{response}<\|im_end\|>

思维预算 (Thinking Budget)：思维模式融合 的一个额外优势是，一旦模型学会了在 非思维 和 思维 模式下响应，它自然会发展出处理中间情况的能力——即基于不完整的思维生成响应。这为实现模型思维过程的预算控制奠定了基础。具体来说，当模型的思维长度达到用户定义的阈值时，会手动停止思维过程，并插入停止思维指令：“ $Considering the limited time by the user, I have to give the solution based on the thinking directly now. \n</think>.\n\n$ ”。在此指令插入后，模型会根据其截至该点积累的推理生成最终响应。值得注意的是，这种能力并非明确训练，而是 思维模式融合 的自然结果。

4.2.3.4. 通用强化学习 (General RL)

目标：在多样化场景中，全面增强模型的各种能力和稳定性。
奖励系统 (Reward System)：建立了包含 20 多个任务的复杂奖励系统，每个任务都有定制的评分标准，以提升以下核心能力：
- 指令遵循 (Instruction Following)：确保模型准确理解并遵循用户指令（内容、格式、长度、结构化输出要求），生成符合用户期望的响应。
- 格式遵循 (Format Following)：除了显式指令，模型还应遵守特定格式约定。例如，根据 /think 和 /no_think 标记切换模式，并一致使用 $<think>$ 和 $</think>$ 等标记分隔思维和响应部分。
- 偏好对齐 (Preference Alignment)：对于开放式查询，侧重于提高模型的有用性、参与度和风格，以提供更自然、更令人满意的用户体验。
- Agent 能力 (Agent Ability)：训练模型通过指定接口正确调用工具。在 RL 推演 (RL rollout) 过程中，模型被允许执行完整的、多轮的与真实环境执行反馈的交互循环，从而提高其在长序列决策任务中的性能和稳定性。
- 专门场景能力 (Abilities for Specialized Scenarios)：在更专业的场景中，设计了针对特定上下文的任务。例如，在 检索增强生成 (Retrieval-Augmented Generation, RAG) 任务中，引入奖励信号，引导模型生成准确和上下文相关的响应，从而最大程度地减少 幻觉 (hallucination) 风险。
奖励类型 (Reward Types)：为了提供上述任务的反馈，使用了三种不同的奖励类型：
1. 基于规则的奖励 (Rule-based Reward)：广泛用于 推理 RL 阶段，也适用于 指令遵循 和 格式遵循 等通用任务。精心设计的 基于规则的奖励 可以高精度评估模型输出的正确性，防止 奖励欺骗 (reward hacking) 等问题。
2. 基于模型的奖励 (Model-based Reward with Reference Answer)：为每个查询提供参考答案，并提示 Qwen2.5-72B-Instruct 根据此参考对模型的响应进行评分。这种方法可以更灵活地处理多样化任务，无需严格格式化，避免了纯 基于规则的奖励 可能出现的假阴性（false negatives）。
3. 不带参考答案的基于模型的奖励 (Model-based Reward without Reference Answer)：利用人类偏好数据训练一个 奖励模型 (reward model)，为模型响应分配标量分数。这种方法不依赖参考答案，可以处理更广泛的查询，同时有效增强模型的参与度和有用性。

4.2.3.5. 强到弱蒸馏 (Strong-to-Weak Distillation)

强到弱蒸馏 管线专门设计用于优化轻量级模型，包括 5 个稠密模型（Qwen3-0.6B、1.7B、4B、8B 和 14B）和一个 MoE 模型（Qwen3-30B-A3B）。这种方法在提升模型性能的同时，有效地赋予了强大的模式切换能力。蒸馏过程分为两个主要阶段：

离策略蒸馏 (Off-policy Distillation)：
- 在此初始阶段，结合教师模型（通常是旗舰模型，如 Qwen3-235B-A22B）在 /think 和 /no_think 两种模式下生成的输出进行响应蒸馏。
- 这有助于轻量级学生模型发展基本的推理技能和在不同思维模式之间切换的能力，为后续的 在策略训练 (on-policy training) 阶段奠定坚实基础。
在策略蒸馏 (On-policy Distillation)：
- 在此阶段，学生模型生成 在策略序列 (on-policy sequences) 用于微调。
- 具体来说，采样提示（prompts），学生模型以 /think 或 /no_think 模式生成响应。
- 然后，通过将其 logits 与教师模型（Qwen3-32B 或 Qwen3-235B-A22B）的 logits 对齐，最小化 KL 散度 (KL divergence) 来对学生模型进行微调。

4.2.4. 思维预算有效性 (Effectiveness of Thinking Budget)

为了验证 Qwen3 能够通过增加 思维预算 来提升其智能水平，研究人员在数学、编码和 STEM 领域的四个基准测试中调整了分配的 思维预算。结果表明，Qwen3 展现出与分配的 思维预算 相关的可扩展且平滑的性能改进。此外，如果将输出长度进一步扩展到 32K 以外，模型的性能预计会进一步提高。

下图（原文 Figure 2）展示了 Qwen3-235B-A22B 在不同思维预算下的性能：

Figure 2: Performance of Qwen3-235B-A22B with respect to the thinking budget. 该图像是一个图表，显示了 Qwen3-235B-A22B 在不同思维预算下的性能表现，包括 AIME'24、AIME'25、LiveCodeBench (v5) 和 GPQA Diamond 四个任务。图中分别展示了思维模式和非思维模式的效果，随着思维预算的增加，性能显著提升。

VLM 描述: 该图像是一个图表，显示了 Qwen3-235B-A22B 在不同思维预算下的性能表现，包括 AIME'24、AIME'25、LiveCodeBench (v5) 和 GPQA Diamond 四个任务。图中分别展示了思维模式和非思维模式的效果，随着思维预算的增加，性能显著提升。

从图中可以看出，随着 思维预算 的增加（横轴），Qwen3-235B-A22B 在 AIME'24、AIME'25、LiveCodeBench (v5) 和 GPQA Diamond 这四个任务上的性能（纵轴）均呈现出明显的上升趋势，证实了 思维预算 机制的有效性。

5. 实验设置

5.1. 数据集

Qwen3 的评估使用了大量的基准数据集，涵盖了通用知识、推理、数学、科学知识、编码和多语言能力等多个方面。

5.1.1. 预训练模型评估数据集 (Pre-training Evaluation Datasets)

预训练基础模型的评估主要关注其在通用知识、推理、数学、科学知识、编码和多语言能力方面的表现。使用的评估数据集包括 15 个基准：

通用任务 (General Tasks)：
- MMLU (Hendrycks et al., 2021a)：包含 57 个学科的通用知识和问题解决能力测试（5-shot）。
- MMLU-Pro (Wang et al., 2024)：MMLU 的专业扩展版，专注于更深层次的理解和推理（5-shot, CoT）。
- MMLU-redux (Gema et al., 2024)：MMLU 的另一个变体（5-shot）。
- BBH (Suzgun et al., 2023)：Big-Bench Hard 的缩写，包含具有挑战性的推理任务（3-shot, CoT）。
- SuperGPQA (Du et al., 2025)：一个跨 285 个研究生学科的 LLM 评估基准（5-shot, CoT）。
数学与 STEM 任务 (Math & STEM Tasks)：
- GPQA (Rein et al., 2023)：研究生水平的 Google-proof Q&A 基准，衡量深入的科学理解和推理（5-shot, CoT）。
- GSM8K (Cobbe et al., 2021)：包含小学数学单词问题（4-shot, CoT）。
- MATH (Hendrycks et al., 2021b)：高中数学竞赛问题，需要复杂的符号推理（4-shot, CoT）。
编码任务 (Coding Tasks)：
- EvalPlus (Liu et al., 2023a)：代码生成基准的集合，平均了 HumanEval (Chen et al., 2021)、MBPP (Austin et al., 2021)、 $HumanEval+$ 和 $MBPP+$ (Liu et al., 2023a) 的结果（0-shot）。
- MultiPL-E (Cassano et al., 2023)：多语言代码生成基准，包括 Python, C++, JAVA, PHP, TypeScript, C#, Bash, JavaScript（0-shot）。
- MBPP-3shot (Austin et al., 2021)：MBPP 的 3-shot 版本。
- CRUX-O of CRUXEval (Gu et al., 2024)：代码推理、理解和执行基准（1-shot）。
多语言任务 (Multilingual Tasks)：
- MGSM (Shi et al., 2023)：多语言 GSM8K，测试多语言数学推理能力（8-shot, CoT）。
- MMMLU (OpenAI, 2024)：多语言 MMLU，测试多语言通用知识（5-shot）。
- INCLUDE (Romanou et al., 2024)：评估多语言理解与区域知识（5-shot）。

5.1.2. 后训练模型评估数据集 (Post-training Evaluation Datasets)

为全面评估 指令微调模型 (instruction-tuned models) 的质量，采用了以下分类的自动基准测试：

通用任务 (General Tasks)：
- MMLU-Redux (Gema et al., 2024)。
- GPQA-Diamond (Rein et al., 2023)：采样 10 次，报告平均准确率。
- C-Eval (Huang et al., 2023)。
- LiveBench (2024-11-25) (White et al., 2024)。
对齐任务 (Alignment Tasks)：
- IFEval (Zhou et al., 2023)：报告 strict-prompt 准确率，评估指令遵循性能。
- Arena-Hard (Li et al., 2024)：评估模型对人类偏好的通用主题对齐。
- AlignBench v1.1 (Liu et al., 2023b)：对齐性能基准。
- Creative Writing V3 (Paech, 2024) 和 WritingBench (Wu et al., 2025)：评估模型在写作任务中的熟练度和创造力。
数学与文本推理 (Math & Text Reasoning)：
- MATH-500 (Lightman et al., 2023)。
- AIME'24 和 AIME'25 (AIME, 2025)：高级数学基准。
- ZebraLogic (Lin et al., 2025) 和 AutoLogi (Zu et al., 2025)：文本推理任务。
- 对于 AutoLogi，每个问题采样 64 次，取平均准确率作为最终分数。
Agent 与编码 (Agent & Coding)：
- BFCL v3 (Yan et al., 2024)：Berkeley Function Calling Leaderboard，所有 Qwen3 模型使用 FC 格式评估，YARN 部署到 64k 上下文长度进行多轮评估。
- LiveCodeBench (v5, 2024.10-2025.02) (Jain et al., 2024)：编码基准。
  - 非思维模式 使用官方推荐 prompt。
  - 思维模式 调整 prompt 模板，允许更自由的思考（移除 You will not return anything except for the program 限制）。
- Codeforces Ratings (Quan et al., 2025)：通过 CodeElo 计算 Elo 等级，评估模型与竞技编程专家的性能差距。每个问题生成多达八个独立的推理尝试。
多语言任务 (Multilingual Tasks)：评估四种能力：指令遵循、知识、数学和逻辑推理。
- 指令遵循：Multi-IF (He et al., 2024)，关注 8 种关键语言。
- 知识评估：
  - INCLUDE (Romanou et al., 2024)：区域知识，涵盖 44 种语言。
  - MMMLU (OpenAI, 2024)：通用知识，涵盖 14 种语言（排除未优化的 Yoruba 语）。
  - 为了提高评估效率，这两个基准只采样 10% 的原始数据。
- 数学任务：
  - MT-AIME2024 (Son et al., 2025)：涵盖 55 种语言。
  - PolyMath (Wang et al., 2025)：包括 18 种语言。
- 逻辑推理：MLogiQA (Zhang et al., 2024)，涵盖 10 种语言。

5.1.3. 长文本能力评估 (Long-Context Ability Evaluation)

RULER 基准 (RULER Benchmark) (Hsieh et al., 2024)：用于评估长文本处理能力。在 思维模式 下，思维预算 设置为 8192 词元，以避免在极长输入上过度冗长的推理。

5.1.4. `Belebele` 多语言评估 (Belebele Multilingual Evaluation)

Belebele 基准 (Bandarkar et al., 2023)：一个用于自然语言理解的基准，包含 122 种语言变体。Qwen3 在 80 种支持的语言上进行了评估，排除了 42 种未优化的语言。

5.2. 评估指标

论文中使用了多种评估指标来衡量模型的性能。以下是这些指标的详细说明：

准确率 (Accuracy)：
- 概念定义：在分类任务中，准确率是指模型正确预测的样本数量占总样本数量的比例。它衡量了模型在给定任务中做出正确决策的能力。
- 数学公式： $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
- 符号解释：
  - Number of Correct Predictions：模型正确分类的样本数量。
  - Total Number of Predictions：总共进行分类的样本数量。
Pass@k (通过率@k)：
- 概念定义：主要用于代码生成任务。Pass@k 表示从模型生成的 $k$ 个候选代码中，至少有一个通过了所有测试用例的比例。它衡量了模型生成可用代码的概率，即使它不是唯一的正确解决方案。
- 数学公式：根据 HumanEval 和 MBPP 等代码生成基准的惯例，Pass@k 的计算通常涉及到组合和概率。假设模型为每个问题生成 $N$ 个候选解决方案，其中 $c$ 个通过了测试用例。那么对于 $k$ 个采样，至少有一个通过测试的概率可以表示为 $1 - \frac{\binom{N-c}{k}}{\binom{N}{k}}$ 。然而，在实际评估中，通常会直接生成 $k$ 个代码，然后检查是否有通过的。 $\text{Pass@k} = \frac{\text{Number of Problems with at least one correct solution among k samples}}{\text{Total Number of Problems}}$ 更精确的计算，如果 $k > 1$ ，通常通过无放回抽样的方式计算： $P(\text{pass@k}) = \mathbb{E}\left[1 - \prod_{i=0}^{k-1} \frac{N - c - i}{N - i}\right]$ 其中， $\mathbb{E}[\cdot]$ 表示对所有问题取期望， $N$ 是模型为每个问题生成的总尝试次数， $c$ 是其中通过测试的尝试次数。
- 符号解释：
  - Number of Problems with at least one correct solution among k samples：在 $k$ 次生成中，至少有一个正确解决方案的问题数量。
  - Total Number of Problems：代码生成任务中的问题总数。
  - $N$ : 模型为每个问题生成的总尝试次数。
  - $c$ : 在 $N$ 次尝试中通过测试的尝试次数。
  - $k$ : 每次评估采样的候选解决方案数量。
Elo Ratings (Elo 等级)：
- 概念定义：Elo 等级系统最初用于衡量国际象棋选手的相对技能水平。在 LLM 评估中，它被用于通过模拟模型之间的“比赛”来量化其在特定任务（如竞技编程）上的相对性能。得分越高，表示模型能力越强。
- 数学公式：Elo 等级更新公式基于两个玩家（或模型）的预期胜率和实际比赛结果。对于两个玩家 $A$ 和 $B$ ，其 Elo 等级分别为 $R_A$ 和 $R_B$ ，预期胜率 $E_A$ 和 $E_B$ 计算如下： $E_A = \frac{1}{1 + 10^{(R_B - R_A)/400}}$ $E_B = \frac{1}{1 + 10^{(R_A - R_B)/400}}$ 比赛结束后，玩家 $A$ 的新等级 $R_A'$ 计算如下： $R_A' = R_A + K(S_A - E_A)$
- 符号解释：
  - $R_A, R_B$ ：玩家 $A$ 和 $B$ 当前的 Elo 等级。
  - $E_A, E_B$ ：玩家 $A$ 和 $B$ 的预期胜率。
  - $K$ ： $K$ 值，一个常数，用于调整每次比赛对等级的影响大小。
  - $S_A$ ：玩家 $A$ 的实际比赛结果（1 表示胜，0.5 表示平局，0 表示负）。
  - 400：Elo 评分系统中的一个常数，用于定义等级差与胜率之间的关系。
RULER Score (RULER 分数)：
- 概念定义：RULER 是一个用于评估 LLM 长文本上下文处理能力的基准。它通常涉及在长文档中检索特定信息，或根据长上下文执行任务。RULER score 衡量模型在不同长度上下文下对指令或事实的遵循能力。具体分数可能根据基准中的子任务类型（如多项选择、抽取式问答）而有所不同，但核心是模型正确处理长文本的能力。
- 数学公式：RULER 基准通常涉及在不同的文档长度和查询类型下进行评估。虽然没有一个统一的 RULER 公式，但它通常是基于任务的准确率或 F1 分数的平均值。例如，对于包含多个子任务的基准，最终分数可能是： $\text{RULER Score} = \text{Average Accuracy or F1 across various context lengths and tasks}$ 在具体的任务中，如果是在长文本中进行信息检索，可能是判断模型是否能正确找到目标信息。
- 符号解释：
  - Average Accuracy or F1 across various context lengths and tasks：在不同上下文长度和任务中的平均准确率或 F1 分数。
IFEval strict prompt accuracy (IFEval 严格提示准确率)：
- 概念定义：IFEval 是一个指令遵循评估基准。strict prompt accuracy 特指模型在面对明确、严格的指令时，能够精确地按照指令要求生成响应的比例。这衡量了模型对用户意图的理解和执行的精确度。
- 数学公式： $\text{IFEval Accuracy} = \frac{\text{Number of Responses Strictly Following Instructions}}{\text{Total Number of Instructions}}$
- 符号解释：
  - Number of Responses Strictly Following Instructions：模型严格遵循指令并生成正确响应的数量。
  - Total Number of Instructions：总指令数量。
AlignBench v1.1 Score (AlignBench v1.1 分数)：
- 概念定义：AlignBench 是一个评估 LLM 对齐（alignment）性能的基准，特别是其与人类偏好的符合程度。AlignBench v1.1 score 旨在量化模型在通用主题上生成有用、无害且符合人类价值观的响应能力。分数通常通过人工评估或 奖励模型 (reward model) 评估，并汇总成一个综合指标。
- 数学公式：AlignBench 的具体评分机制复杂，涉及多个维度和子任务。通常，它不是一个简单的公式，而是基于评估者对模型响应的评分，然后进行加权平均或统计分析。如果分数是介于 1-10 之间的平均分，则可以表示为： $\text{AlignBench Score} = \frac{\sum_{i=1}^{N} \text{Rating}_i}{N}$
- 符号解释：
  - $\text{Rating}_i$ ：第 $i$ 个模型响应的评分。
  - $N$ ：总评分数量。
BFCL v3 Score (BFCL v3 分数)：
- 概念定义：Berkeley Function Calling Leaderboard (BFCL) 是一个用于评估 LLM 函数调用 (function calling) 能力的基准。BFCL v3 score 衡量模型在给定用户意图和可用工具描述的情况下，正确生成 函数调用 请求的能力。这包括正确识别意图、选择正确的工具、并以正确的格式填充所有必要的参数。
- 数学公式：BFCL 评分通常基于模型生成的 函数调用 请求与标准答案之间的匹配程度，可能包括： $\text{BFCL Score} = \text{Accuracy in Intent Recognition} \times \text{Accuracy in Format} \times \text{Accuracy in Parameter Filling}$ 或更简单的，直接的 Pass Rate。
- 符号解释：
  - Accuracy in Intent Recognition：模型正确识别用户意图的准确率。
  - Accuracy in Format：模型生成 函数调用 请求格式的准确率。
  - Accuracy in Parameter Filling：模型正确填充 函数调用 参数的准确率。
ThinkFollow Score (ThinkFollow 分数)：
- 概念定义：这是一个内部基准，用于评估模型在多轮对话中根据用户在 prompt 中插入的 /think 和 /no_think 标记，正确切换 思维模式 和 非思维模式 的能力。分数越高，表示模式切换的准确性越好。
- 数学公式： $\text{ThinkFollow Score} = \frac{\text{Number of Correct Mode Switches}}{\text{Total Number of Mode Switch Instructions}}$
- 符号解释：
  - Number of Correct Mode Switches：模型正确执行模式切换指令的数量。
  - Total Number of Mode Switch Instructions：总模式切换指令数量。
CounterFactQA (反事实问答)：
- 概念定义：这是一个内部基准，包含反事实问题，模型需要识别问题不符合事实，并避免生成 幻觉 (hallucinatory) 回答。分数衡量模型识别反事实并给出适当响应（如“我不知道”或纠正事实）的能力。
- 数学公式：通常为正确识别反事实并避免 幻觉 的问题比例。 $\text{CounterFactQA Score} = \frac{\text{Number of Correctly Handled Counterfactual Questions}}{\text{Total Number of Counterfactual Questions}}$
- 符号解释：
  - Number of Correctly Handled Counterfactual Questions：模型正确处理的反事实问题数量。
  - Total Number of Counterfactual Questions：反事实问题总数。
LengthCtrl (长度控制)：
- 概念定义：这是一个内部基准，包含有长度要求的创意写作任务。分数基于生成内容长度与目标长度之间的差异。分数越低，表示长度控制能力越好。
- 数学公式：分数可能基于平均绝对误差或某种惩罚函数。 $\text{LengthCtrl Score} = \text{Average Absolute Difference between Generated Length and Target Length}$
- 符号解释：
  - Average Absolute Difference between Generated Length and Target Length：生成长度与目标长度之间平均绝对差异。
ToolUse (工具使用)：
- 概念定义：这是一个内部基准，评估模型识别意图、格式准确性以及在工具调用过程中参数准确性的综合能力。分数越高，表示模型在利用外部工具解决问题方面的能力越强。
- 数学公式：该分数是多方面的，可能结合了意图识别准确率、格式准确率和参数填充准确率。 $\text{ToolUse Score} = \text{Weighted Average of Intent Accuracy, Format Accuracy, and Parameter Accuracy}$
- 符号解释：
  - Weighted Average of Intent Accuracy, Format Accuracy, and Parameter Accuracy：意图准确性、格式准确性和参数准确性的加权平均。

5.3. 对比基线

在预训练和后训练评估中，Qwen3 模型与一系列领先的开放源码（open-source）和专有（proprietary）模型进行了比较，以全面衡量其性能。

5.3.1. 预训练模型基线 (Pre-trained Model Baselines)

Qwen 系列前作：Qwen2.5 基础模型（如 Qwen2.5-72B-Base、Qwen2.5-Plus-Base、Qwen2.5-32B-Base、Qwen2.5-14B-Base、Qwen2.5-7B-Base、Qwen2.5-3B-Base、Qwen2.5-1.5B-Base、Qwen2.5-0.5B-Base）。
其他开放源码模型：
- DeepSeek-V3 Base (Liu et al., 2024a)：参数规模较大的 MoE 模型。
- Llama-4 系列 (Llama-4-Maverick、Llama-4-Scout) (Meta-AI, 2025)。
- Llama-3 系列 (Llama-3-8B Base) (Dubey et al., 2024)。
- Gemma-3 系列 (Gemma-3-27B、Gemma-3-12B、Gemma-3-4B、Gemma-3-1B) (Team et al., 2025)。
MoE 模型对比：特别针对 MoE 模型，比较了 Qwen3-235B-A22B-Base 与 Qwen2.5-Plus-Base、DeepSeek-V3 Base 等。

5.3.2. 后训练模型基线 (Post-trained Model Baselines)

5.3.2.1. `思维模式 (Thinking Mode)` 基线

专有推理模型：OpenAI-o1 (OpenAI, 2024)、Grok-3-Beta (Think) (xAI, 2025)、Gemini2.5-Pro (DeepMind, 2025)。
开放源码推理模型：DeepSeek-R1 (Guo et al., 2025)、QwQ-32B (Qwen Team, 2025)（Qwen 团队之前的推理旗舰模型）。
蒸馏模型：DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Llama-8B。
小尺寸专有模型：OpenAI-o3-mini (medium)。

5.3.2.2. `非思维模式 (Non-thinking Mode)` 基线

专有聊天/通用模型：GPT-4o-2024-11-20 (OpenAI, 2024)、GPT-4o-mini-2024-07-18。
开放源码通用模型：DeepSeek-V3 (Liu et al., 2024a)、LLaMA-4-Maverick (Meta-AI, 2025)、LLaMA-4-Scout、LLaMA-3.1-8B-Instruct (Dubey et al., 2024)。
Qwen 系列前作：Qwen2.5-72B-Instruct、Qwen2.5-32B-Instruct、Qwen2.5-14B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-1.5B-Instruct。
其他小型开放源码模型：Gemma-3-27B-IT、Gemma-3-12B-IT、Gemma-3-4B-IT、Gemma-3-1B-IT (Team et al., 2025)、Phi-4 (Abdin et al., 2024)、Phi-4-mini。

5.4. 采样超参数 (Sampling Hyperparameters)

思维模式 (Thinking Mode)：
- 采样温度 (sampling temperature)：0.6
- top-p：0.95
- top-k：20
- 存在惩罚 (presence penalty)：1.5（仅用于 Creative Writing v3 和 WritingBench，鼓励生成更多样化的内容）
非思维模式 (Non-thinking Mode)：
- 采样温度 (sampling temperature)：0.7
- top-p：0.8
- top-k：20
- 存在惩罚 (presence penalty)：1.5
最大输出长度 (Max Output Length)：
- 除 AIME'24 和 AIME'25 外，所有 Qwen3 模型（思维和非思维模式）的最大输出长度设置为 32,768 词元。
- AIME'24 和 AIME'25 的最大输出长度扩展到 38,912 词元，以提供足够的思考空间。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 预训练模型评估总结

基于整体评估结果，Qwen3 基础模型呈现出以下关键结论：

旗舰模型 Qwen3-235B-A22B-Base 表现卓越： 相较于之前开源的 SOTA 稠密和 MoE 基础模型（如 DeepSeek-V3 Base、Llama-4-Maverick Base 和 Qwen2.5-72B-Base），Qwen3-235B-A22B-Base 在多数任务中表现更优，且总参数或激活参数显著更少。
Qwen3 MoE 基础模型的高效性：
- 在使用相同预训练数据的情况下，Qwen3 MoE 基础模型仅用 $1/5$ 的激活参数即可达到与 Qwen3 稠密基础模型相似的性能。
- 得益于 Qwen3 MoE 架构的改进、训练词元规模的扩大以及更先进的训练策略，Qwen3 MoE 基础模型在激活参数和总参数都更少的情况下，超越了 Qwen2.5 MoE 基础模型。
- 即使激活参数仅为 Qwen2.5 稠密基础模型的 $1/10$ ，Qwen3 MoE 基础模型也能达到可比性能，这在推理和训练成本上带来了显著优势。
Qwen3 稠密基础模型的竞争力： 在更高参数规模下，Qwen3 稠密基础模型的整体性能与 Qwen2.5 基础模型相当。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 达到了与 Qwen2.5-3B/7B/14B/32B/72B-Base 可比的性能。尤其在 STEM、编码和推理基准上，Qwen3 稠密基础模型甚至超越了参数规模更大的 Qwen2.5 基础模型。

6.1.2. 后训练模型评估总结

对最终 Qwen3 模型的评估结果总结如下：

旗舰模型 Qwen3-235B-A22B 达成 state-of-the-art： 在 思维模式 和 非思维模式 下，Qwen3-235B-A22B 在开源模型中展现出 state-of-the-art 的整体性能，超越了 DeepSeek-R1 和 DeepSeek-V3 等强大基线。它与 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o 等闭源领先模型也极具竞争力，显示出其深刻的推理能力和全面的通用能力。
旗舰稠密模型 Qwen3-32B 表现强劲： Qwen3-32B 在大多数基准测试中超越了之前最强的推理模型 QwQ-32B，并与闭源的 OpenAI-o3-mini 表现相当，显示出其强大的推理能力。在 非思维模式 下，Qwen3-32B 表现卓越，超越了之前旗舰级的非推理稠密模型 Qwen2.5-72B-Instruct。
轻量级模型性能优异： 包括 Qwen3-30B-A3B、Qwen3-14B 和其他较小的稠密模型，其性能持续优于参数量相近或更大的开源模型，证明了 强到弱蒸馏 方法的成功。

6.2. 数据呈现 (表格)

6.2.1. 预训练模型评估结果

以下是原文 Table 3 的结果：

	Qwen2.5-72B Base	Qwen2.5-Plus Base	Base	Base	sLlama-4-Maverick DeepSeek-V3 Qwen3-235B-A22B Base
Architecture	Dense	MoE	MoE	MoE	MoE
# Total Params	72B	271B	402B	671B	235B
# Activated Params	72B	37B	17B	37B	22B
General Tasks
MMLU	86.06	85.02	85.16	87.19	87.81
MMLU-Redux	83.91	82.69	84.05	86.14	87.40
MMLU-Pro	58.07	63.52	63.91	59.84	68.18
SuperGPQA	36.20	37.18	40.85	41.53	44.06
BBH	86.30	85.60	83.62	86.22	88.87
Math & STEM Tasks
GPQA	45.88	41.92	43.94	41.92	47.47
GSM8K	91.50	91.89	87.72	87.57	94.39
MATH	62.12	62.78	63.32	62.62	71.84
Coding Tasks
EvalPlus	65.93	61.43	68.38	63.75	77.60
MultiPL-E	58.70	62.16	57.28	62.26	65.94
MBPP	76.00	74.60	75.40	74.20	81.40
CRUX-O	66.20	68.50	77.00	76.60	79.00
Multilingual Tasks
MGSM	82.40	82.21	79.69	82.68	83.53
MMMLU	84.40	83.49	83.09	85.88	86.70
INCLUDE	69.05	66.97	73.47	75.17	73.46

从 Table 3 中可以看出，Qwen3-235B-A22B-Base 在大多数基准测试中表现出色，尤其在 MATH、EvalPlus 等任务上显著领先。它在总参数和激活参数远少于 DeepSeek-V3 Base 和 Llama-4-Maverick 的情况下，取得了更好的性能，体现了其强大的性能和成本效益。

以下是原文 Table 4 的结果：

	Qwen2.5-32B Base	Qwen2.5-72B Base	Gemma-3-27B Base	Llama-4-Scout Base	Qwen3-32B Base
Architecture	Dense	Dense	Dense	MoE	Dense
# Total Params	32B	72B	27B	109B	32B
# Activated Params	32B	72B	27B	17B	32B
General Tasks
MMLU	83.32	86.06	78.69	78.27	83.61
MMLU-Redux	81.97	83.91	76.53	71.09	83.41
MMLU-Pro	55.10	58.07	52.88	56.13	65.54
SuperGPQA	33.55	36.20	29.87	26.51	39.78
BBH	84.48	86.30	79.95	82.40	87.38
Math & STEM Tasks
GPQA	47.97	45.88	26.26	40.40	49.49
GSM8K	92.87	91.50	81.20	85.37	93.40
MATH	57.70	62.12	51.78	51.66	61.62
Coding Tasks
EvalPlus	66.25	65.93	55.78	59.90	72.05
MultiPL-E	58.30	58.70	45.03	47.38	67.06
MBPP	73.60	76.00	68.40	68.60	78.20
CRUX-O	67.80	66.20	60.00	61.90	72.50
Multilingual Tasks
MGSM	78.12	82.40	73.74	79.93	83.06
MMMLU	82.40	84.40	77.62	74.83	83.83
INCLUDE	64.35	69.05	68.94	68.09	67.87

Table 4 比较了 Qwen3-32B-Base 与同等规模及更大规模模型。Qwen3-32B-Base 在大多数基准上优于 Qwen2.5-32B-Base 和 Gemma-3-27B Base。令人惊讶的是，它在 15 个基准中的 10 个上甚至超越了参数量是其两倍多的 Qwen2.5-72B-Base，特别是在编码、数学和推理任务上优势显著。

以下是原文 Table 5 的结果：

Gemma-3-12B Qwen2.5-14B Qwen2.5-32B Qwen2.5-Turbo Qwen3-14B
	Base	Base	Base	Base	Base	Base
Architecture	Dense	Dense	Dense	MoE	Dense	MoE
# Total Params	12B	14B	32B	42B	14B	30B
# Activated Params	12B	14B	32B	6B	14B	3B
General Tasks
MMLU	73.87	79.66	83.32	79.50	81.05	81.38
MMLU-Redux	70.70	76.64	81.97	77.11	79.88	81.17
MMLU-Pro	44.91	51.16	55.10	55.60	61.03	61.49
SuperGPQA	24.61	30.68	33.55	31.19	34.27	35.72
BBH	74.28	78.18	84.48	76.10	81.07	81.54
Math & STEM Tasks
GPQA	31.31	32.83	47.97	41.41	39.90	43.94
GSM8K	78.01	90.22	92.87	88.32	92.49	91.81
MATH	44.43	55.64	57.70	55.60	62.02	59.04
Coding Tasks
EvalPlus	52.65	60.70	66.25	61.23	72.23	71.45
MultiPL-E	43.03	54.79	58.30	53.24	61.69	66.53
MBPP	60.60	69.00	73.60	67.60	73.40	74.40
CRUX-O	52.00	61.10	67.80	60.20	68.60	67.20
Multilingual Tasks
MGSM	64.35	74.68	78.12	70.45	79.20	79.11
MMMLU	72.50	78.34	82.40	79.76	79.69	81.46
INCLUDE	63.34	60.26	64.35	59.25	64.55	67.00

Table 5 比较了 Qwen3-14B-Base 和 Qwen3-30B-A3B-Base。Qwen3-14B-Base 在所有基准上都显著优于 Qwen2.5-14B-Base 和 Gemma-3-12B-Base。Qwen3-30B-A3B 仅用 $1/5$ 的激活参数就显著超越了 Qwen2.5-14B-Base，并与 Qwen3-14B-Base 和 Qwen2.5-32B-Base 达到可比性能，这在推理和训练成本上具有显著优势。

以下是原文 Table 6 的结果：

	Llama-3-8B Base	Qwen2.5-7B Base	Qwen2.5-14B Base	Qwen3-8B Base
Architecture	Dense	Dense	Dense	Dense
# Total Params	8B	7B	14B	8B
# Activated Params	8B	7B	14B	8B
General Tasks
MMLU	66.60	74.16	79.66	76.89
MMLU-Redux	61.59	71.06	76.64	76.17
MMLU-Pro	35.36	45.00	51.16	56.73
SuperGPQA	20.54	26.34	30.68	31.64
BBH	57.70	70.40	78.18	78.40
Math & STEM Tasks
GPQA	25.80	36.36	32.83	44.44
GSM8K	55.30	85.36	90.22	89.84
MATH	20.50	49.80	55.64	60.80
Coding Tasks
EvalPlus	44.13	62.18	60.70	67.65
MultiPL-E	31.45	50.73	54.79	58.75
MBPP	48.40	63.40	69.00	69.80
CRUX-O	36.80	48.50	61.10	62.00
Multilingual Tasks
MGSM	38.92	63.60	74.68	76.02
MMMLU	59.65	71.34	78.34	75.72
IINCLUDE	44.94	53.98	60.26	59.40

Table 6 比较了 Qwen3-8B-Base。Qwen3-8B-Base 在 MMLU-Pro、SuperGPQA、GPQA 和所有编码任务上超越了 Qwen2.5-14B-Base（一个参数量更大的模型），显示出其显著的改进。

以下是原文 Table 7 的结果：

	Gemma-3-4B Base	Qwen2.5-3B Base	Qwen2.5-7B Base	Qwen3-4B Base
Architecture	Dense	Dense	Dense	Dense
# Total Params	4B	3B	7B	4B
# Activated Params	4B	3B	7B	4B
General Tasks
MMLU	59.51	65.62	74.16	72.99
MMLU-Redux	56.91	63.68	71.06	72.79
MMLU-Pro	29.23	34.61	45.00	50.58
SuperGPQA	17.68	20.31	26.34	28.43
BBH	51.70	56.30	70.40	72.59
Math & STEM Tasks
GPQA	24.24	26.26	36.36	36.87
GSM8K	43.97	79.08	85.36	87.79
MATH	26.10	42.64	49.80	54.10
Coding Tasks
EvalPlus	43.23	46.28	62.18	63.53
MultiPL-E	28.06	39.65	50.73	53.13
MBPP	46.40	54.60	63.40	67.00
CRUX-O	34.00	36.50	48.50	55.00
Multilingual Tasks
MGSM	33.11	47.53	63.60	67.74
MMMLU	59.62	65.55	71.34	71.42
INCLUDE	49.06	45.90	53.98	56.29

Table 7 展示了 Qwen3-4B-Base。Qwen3-4B-Base 在大部分基准上优于 Gemma-3-4B Base 和 Qwen2.5-3B Base。它甚至在 MMLU-Pro、SuperGPQA、GSM8K、MATH 和所有编码任务上超越了参数量更大的 Qwen2.5-7B Base。

以下是原文 Table 8 的结果：

	Qwen2.5-0.5B Base	Qwen3-0.6B Base	Gemma-3-1B Base	Qwen2.5-1.5B Base	Qwen3-1.7B Base
Architecture	Dense	Dense	Dense	Dense	Dense
# Total Params	0.5B	0.6B	1B	1.5B	1.7B
# Activated Params	0.5B	0.6B	1B	1.5B	1.7B
General Tasks
MMLU	47.50	52.81	26.26	60.90	62.63
MMLU-Redux	45.10	51.26	25.99	58.46	61.66
MMLU-Pro	15.69	24.74	9.72	28.53	36.76
SuperGPQA BBH	11.30	15.03	7.19	17.64	20.92
	20.30	41.47	28.13	45.10	54.47
Math & STEM Tasks
GPQA	24.75	26.77	24.75	24.24	28.28
GSM8K	41.62	59.59	2.20	68.54	75.44
MATH	19.48	32.44	3.66	35.00	43.50
Coding Tasks
EvalPlus	31.85	36.23	8.98	44.80	52.70
MultiPL-E	18.70	24.58	5.15	33.10	42.71
MBPP	29.80	36.60	9.20	43.60	55.40
CRUX-O	12.10	27.00	3.80	29.60	36.40
Multilingual Tasks
MGSM	12.07	30.99	1.74	32.82	50.71
MMMLU	31.53	50.16	26.57	60.27	63.27
INCLUDE	24.74	34.26	25.62	39.55	45.57

Table 8 包含了 Qwen3-1.7B-Base 和 Qwen3-0.6B-Base。这些小型模型也展示了强大的性能，在多个基准上超越了参数量更大的 Qwen2.5 模型。

6.2.2. 后训练模型评估结果

以下是原文 Table 11 的结果：

		OpenAI-o1	DeepSeek-R1	Grok-3-Beta (Think)	Gemini2.5-Pro	Qwen3-235B-A22B
		OpenAI-o1	DeepSeek-R1	Grok-3-Beta (Think)	Gemini2.5-Pro	Qwen3-235B-A22B
	Architecture		MoE			MoE
	# Activated Params		37B	-		22B
	# Total Params	-	671B		-	235B
	MMLU-Redux	92.8	92.9		93.7	92.7
General Tasks	GPQA-Diamond C-Eval	78.0	71.5	80.2	84.0	71.1
	LiveBench 2024-11-25	85.5	91.8		82.9	89.6
		75.7	71.6	-	82.4	77.1
	IFEval strict prompt	92.6	83.3	-	89.5	83.4
Alignment Tasks	Arena-Hard	92.1	92.3		96.4	95.6
	AlignBench v1.1	8.86	8.76		9.03	8.94
	Creative Writing v3	81.7	85.5		86.0	84.6
	WritingBench	7.69	7.71		8.09	8.03
	MATH-500	96.4	97.3		98.8	98.0
Math & Text Reasoning Agent &	AIME'24	74.3	79.8	83.9	92.0	85.7
	AIME'25	79.2	70.0	77.3	86.7	81.5
	ZebraLogic	81.0	78.7	-	87.4	80.3
	AutoLogi	79.8	86.1	-	85.4	89.0
	BFCL v3	67.8	56.9	-	62.9	70.8
Coding	LiveCodeBench v5	63.9 1891 / 96.7%	64.3	70.6	70.4	70.7
	CodeForces (Rating / Percentile)		2029 / 98.1%	-	2001 / 97.9%	2056 / 98.2%
	Multi-IF	48.8	67.7		77.8	71.9
	INCLUDE	84.6	82.7		85.1	78.7
Multilingual Tasks	MMMLU 14 languages	88.4	86.4		86.9	84.3
	MT-AIME2024	67.4	73.5		76.9	80.8
	PolyMath	38.9	47.1		52.2	54.7
	MLogiQA	75.5	73.8		75.6	77.1

Table 11 展示了 Qwen3-235B-A22B（思维模式）与其他推理基线的比较。Qwen3-235B-A22B 在 17/23 的基准上超越了 DeepSeek-R1，特别是在数学、Agent 和编码等需要推理的任务上，展现了开源模型中最先进的推理能力。它与闭源的 OpenAI-o1、Grok-3-Beta (Think) 和 Gemini2.5-Pro 相比也极具竞争力，显著缩小了开源和闭源模型在推理能力上的差距。

以下是原文 Table 12 的结果：

		GPT-40 -2024-11-20	DeepSeek-V3	Qwen2.5-72B -Instruct	LLaMA-4 -Maverick	Qwen3-235B-A22B
	Architecture		MoE	Dense	MoE	MoE
	# Activated Params		37B	72B	17B	22B
	# Total Params	-	671B	72B	402B	235B
General Tasks	MMLU-Redux	87.0	89.1	86.8	91.8	89.2
	GPQA-Diamond	46.0	59.1	49.0	69.8	62.9
	C-Eval	75.5	86.5	84.7	83.5	86.1
	LiveBench 2024-11-25	52.2	60.5	51.4	59.5	62.5
Alignment Tasks	IFEval strict prompt	86.5	86.1	84.1	86.7	83.2
	Arena-Hard	85.3	85.5	81.2	82.7	96.1
	AlignBench v1.1	8.42	8.64	7.89	7.97	8.91
	Creative Writing v3	81.1	74.0	61.8	61.3	80.4
	WritingBench	7.11	6.49	7.06	5.46	7.70
Math & Text Reasoning	MATH-500	77.2	90.2	83.6	90.6	91.2
	AIME'24	11.1	39.2	18.9	38.5	40.1
	AIME'25	7.6	28.8	15.0	15.9	24.7
	ZebraLogic	27.4	42.1	26.6	40.0	37.7
	AutoLogi	65.9	76.1	66.1	75.2	83.3
Agent & Coding	BFCL v3	72.5	57.6	63.4	52.9	68.0
	LiveCodeBench v5	32.7	33.1	30.7	37.2	35.3
	CodeForces (Rating / Percentile)	864 / 35.4%	1134 / 54.1%	859 / 35.0%	712 / 24.3%	1387 / 75.7%
Multilingual Tasks	Multi-IF	65.6	55.6	65.3	75.5	70.2
	INCLUDE	78.8	76.7	69.6	80.9	75.6
	MMMLU 14 languages	80.3	81.1	76.9	82.5	79.8
	MT-AIME2024	9.2	20.9	12.7	27.0	32.4
	PolyMath	13.7	20.4	16.9	26.1	27.0
MLogiQA		57.4	58.9	59.3	59.9	67.6

Table 12 比较了 Qwen3-235B-A22B（非思维模式）与其他非推理基线。Qwen3-235B-A22B 表现超越了 DeepSeek-V3、LLaMA-4-Maverick 以及 Qwen2.5-72B-Instruct 等领先的开源模型。它还在 18/23 的基准上超越了闭源的 GPT-4o-2024-11-20，表明其即使在不刻意进行思维过程时也具备固有的强大能力。

以下是原文 Table 13 的结果：

		DeepSeek-R1 -Distili-Llama-70B	QwQ-32B	OpenAI-03-mini (medium)	Qwen3-32B
	Architecture # Activated Params	Dense	Dense	-	Dense
	# Total Params	70B 70B	32B 32B	-	32B 32B
General Tasks	MMLU-Redux	89.3	90.0	90.0	90.9
	GPQA-Diamond	65.2	65.6	76.8	68.4
	C-Eval LiveBench 2024-11-25	71.8 54.5	88.4 72.0	75.1 70.0	87.3 74.9
Alignment Tasks	IFEval strict prompt	79.3	83.9	91.5	85.0
	Arena-Hard	60.6	89.5	89.0	93.8
	AlignBench v1.1	6.74	8.70	8.38	8.72
	Creative Writing v3 WritingBench	62.1 6.08	82.4 7.86	74.8	81.0
Math & Text Reasoning	MATH-500	94.5	98.0	7.52 98.0	7.90 97.2
	AIME'24	70.0	79.5	79.6	81.4
	AIME'25 ZebraLogic	56.3	69.5	74.8	72.9
	AutoLogi	71.3	76.8	88.9	88.8
Agent & Coding	BFCL v3	83.5	88.1	86.3	87.3
	LiveCodeBench v5	49.3	66.4	64.6	70.3
	CodeForces (Rating / Percentile)	54.5 1633 / 91.4%	62.7	66.3	65.7
Multilingual Tasks	Multi-IF		1982 / 97.7%	2036 / 98.1%	1977 / 97.7%
		57.6	68.3	48.4	73.0
	INCLUDE	62.1	69.7	73.1	73.7
	MMMLU 14 languages	69.6	80.9	79.3	80.6
	MT-AIME2024	29.3	68.0	73.9	75.0
	PolyMath MLogiQA	29.4 60.3	45.9 75.5	38.6 71.1	47.4 76.3

Table 13 展示了 Qwen3-32B（思维模式）与其他推理基线的比较。Qwen3-32B 在 17/23 的基准上超越了 QwQ-32B，成为 32B 规模下最先进的推理模型。它还与闭源的 OpenAI-o3-mini (medium) 竞争，在对齐和多语言性能方面表现更优。

以下是原文 Table 14 的结果：

		GPT-4o-mini -2024-07-18	LLaMA-4 -Scout	Qwen2.5-72B -Instruct	Qwen3-32B
	Architecture		MoE	Dense	Dense
	# Activated Params		17B	72B	32B
	# Total Params	-	109B	72B	32B
General Tasks	MMLU-Redux	81.5	86.3	86.8	85.7
	GPQA-Diamond	40.2	57.2	49.0	54.6
	C-Eval	66.3	78.2	84.7	83.3
	LiveBench 2024-11-25	41.3	47.6	51.4	59.8
Alignment Tasks	IFEval strict prompt	80.4	84.7	84.1	83.2
	Arena-Hard	74.9	70.5	81.2	92.8
	AlignBench v1.1	7.81	7.49	7.89	8.58
	Creative Writing v3	70.3	55.0	61.8	78.3
	WritingBench	5.98	5.49	7.06	7.54
Math & Text Reasoning	MATH-500	78.2	82.6	83.6	88.6
	AIME'24	8.1	28.6	18.9	31.0
	AIME'25	8.8	10.0	15.0	20.2
	ZebraLogic	20.1	24.2	26.6	29.2
	AutoLogi	52.6	56.8	66.1	78.5
Agent & Coding	BFCL v3 LiveCodeBench v5	64.0 27.9	45.4	63.4	63.0
Agent & Coding	CodeForces (Rating / Percentile)	1113 / 52.6%	29.8 981 / 43.7%	30.7	31.3
Multilingual Tasks				859 / 35.0%	1353 / 71.0%
	Multi-IF	62.4	64.2	65.3	70.7
	INCLUDE	66.0	74.1	69.6	70.9
	MMMLU 14 languages	72.1	77.5	76.9	76.5
	MT-AIME2024	6.0	19.1	12.7	24.1
	PolyMath MLogiQA	12.0 42.6	20.9 53.9	16.9 59.3	22.5 62.9

Table 14 展示了 Qwen3-32B（非思维模式）与其他非推理基线的比较。Qwen3-32B 在几乎所有基准上都表现出优越性能。特别是，它在通用任务上与 Qwen2.5-72B-Instruct 相当，但在对齐、多语言和推理相关任务上具有显著优势，再次证明了 Qwen3 相较于 Qwen2.5 系列的根本性改进。

以下是原文 Table 15 的结果：

		DeepSeek-R1 -Distili-Qwen-32B	QwQ-32B	Qwen3-14B	Qwen3-30B-A3B
	Architecture	Dense	Dense	Dense	MoE
	# Activated Params	32B	32B	14B	3B
	# Total Params	32B	32B	14B	30B
General Tasks	MMLU-Redux	88.2	90.0	88.6	89.5
	GPQA-Diamond	62.1	65.6	64.0	65.8
	C-Eval	82.2	88.4	86.2	86.6
	LiveBench 2024-11-25	45.6	72.0	71.3	74.3
Alignment Tasks	IFEval strict prompt Arena-Hard	72.5 60.8	83.9 89.5	85.4 91.7	86.5
	AlignBench v1.1	7.25	8.70		91.0
	Creative Writing v3	55.0	82.4	8.56 80.3	8.70
	WritingBench	6.13	7.86	7.80	79.1 7.70
Math & Text Reasoning	MATH-500	94.3	98.0	96.8	98.0
	AIME'24	72.6	79.5	79.3	80.4
	AIME'25	49.6	69.5	70.4	70.9
	ZebraLogic	69.6	76.8	88.5	89.5
	AutoLogi	74.6	88.1	89.2	88.7
Agent & Coding	BFCL v3	53.5	66.4	70.4	69.1
	LiveCodeBench v5	54.5	62.7	63.5	62.6
	CodeForces (Rating / Percentile)	1691 / 93.4%	1982 / 97.7%	1766 / 95.3%	1974 / 97.7%
Multilingual Tasks	Multi-IF	31.3	68.3
	INCLUDE	68.0		74.8	72.2
	MMMLU 14 languages	78.6	69.7 80.9	71.7 77.9	71.9
	MT-AIME2024	44.6	68.0	73.3	78.4
	PolyMath	35.1	45.9	45.8	73.9 46.1
	MLogiQA	63.3	75.5	71.1	70.1

Table 15 展示了 Qwen3-30B-A3B 和 Qwen3-14B（思维模式）与其他推理基线的比较。Qwen3-30B-A3B 和 Qwen3-14B 都与 QwQ-32B 极具竞争力，特别是在推理相关基准上。Qwen3-30B-A3B 在更小的模型尺寸和仅 $1/10$ 的激活参数下，达到了与 QwQ-32B 可比的性能，证明了 强到弱蒸馏 在赋予轻量级模型深度推理能力方面的有效性。

以下是原文 Table 16 的结果：

		Phi-4	Gemma-3 -27B-IT	Qwen2.5-32B -Instruct	Qwen3-14B	Qwen3-30B-A3B
Architecture		Phi-4	Gemma-3 -27B-IT	Qwen2.5-32B -Instruct	Qwen3-14B	Qwen3-30B-A3B
	# Activated Params	Dense 14B	Dense 27B	Dense 32B	Dense 14B	MoE 3B
	# Total Params	14B	27B	32B	14B	30B

	MMLU-Redux	85.3	82.6	83.9	82.0	84.1
General Tasks	GPQA-Diamond C-Eval	56.1 66.9	42.4 66.6	49.5 80.6	54.8 81.0	54.8 82.9
	LiveBench 2024-11-25	41.6	49.2	50.0	59.6	59.4
	IFEval strict prompt	62.1	80.6	79.5	84.8	83.7
Alignment Tasks	Arena-Hard	75.4	86.8	74.5	86.3	88.0
	AlignBench v1.1	7.61	7.80	7.71	8.52	8.55
	Creative Writing v3	51.2	82.0	54.6	73.1	68.1
	WritingBench	5.73	7.22	5.90	7.24	7.22
Math & Text Reasoning	MATH-500	80.8	90.0	84.6	90.0	89.8
	AIME'24	22.9	32.6	18.8	31.7	32.8
	AIME'25	17.3	24.0	12.8	23.3	21.6
	ZebraLogic AutoLogi	32.3 66.2	24.6 64.2	26.1 65.5	33.0	33.2
Agent & Coding	BFCL v3	47.0	59.1	62.8	82.0	81.5
Agent & Coding	LiveCodeBench v5	25.2	26.9	26.4	61.5 29.0	58.6 29.8
Multilingual Tasks	CodeForces (Rating / Percentile)	1280 / 65.3%	1063 / 49.3%	903 / 38.2%	1200 / 58.6%	1267 / 64.1%
	Multi-IF	49.5	69.8	63.2	72.9	70.8
	INCLUDE	65.3	71.4	67.5	67.8	67.8
	MMMLU 14 languages	74.7	76.1	74.2	72.6	73.8
	MT-AIME2024	13.1	23.0	15.3	23.2	24.6
	PolyMath MLogiQA	17.4 53.1	20.3 58.5	18.3 58.0	22.0 58.9	23.3 53.3

Table 16 展示了 Qwen3-30B-A3B 和 Qwen3-14B（非思维模式）与其他非推理基线的比较。它们在大多数基准上超越了非推理基线，并且在激活参数和总参数都显著更少的情况下，超越了 Qwen2.5-32B-Instruct，从而实现了更高效和经济的性能。

以下是原文 Table 17 的结果：

		DeepSeek-R1 -Distill-Qwen-14B	DeepSeek-R1 -Distili-Qwen-32B	Qwen3-4B	Qwen3-8B
	Architecture	Dense	Dense	Dense	Dense
	# Activated Params	14B	32B	4B	8B
	# Total Params	14B	32B	4B	8B
General Tasks	MMLU-Redux	84.1	88.2	83.7	87.5
	GPQA-Diamond C-Eval	59.1	62.1	55.9	62.0
	LiveBench 2024-11-25	78.1 52.3	82.2 45.6	77.5 63.6	83.4 67.1
Alignment Tasks	IFEval strict prompt	72.6	72.5	81.9	85.0
	Arena-Hard	48.0	60.8	76.6	85.8
	AlignBench v1.1	7.43	7.25	8.30	8.46
	Creative Writing v3 WritingBench	54.2 6.03	55.0 6.13	61.1	75.0
Math & Text Reasoning	MATH-500	93.9	94.3	7.35 97.0	7.59 97.4
	AIME'24	69.7	72.6	73.8	76.0
	AIME'25	44.5	49.6	65.6	67.3
	ZebraLogic	59.1	69.6	81.0	84.8
Agent & Coding	AutoLogi	78.6	74.6	87.9	89.1
	BFCL v3	49.5	53.5	65.9	68.1
	LiveCodeBench v5	45.5	54.5	54.2	57.5
Multilingual Tasks	CodeForces (Rating / Percentile)	1574 / 89.1%	1691 / 93.4%	1671 / 92.8%	1785 / 95.6%
	Multi-IF	29.8	31.3	66.3	71.2
	INCLUDE	59.7	68.0	61.8	67.8
	MMMLU 14 languages	73.8	78.6	69.8	74.4
	MT-AIME2024	33.7	44.6	60.7	65.4
	PolyMath MLogiQA	28.6 53.6	35.1 63.3	40.0 65.9	42.7 69.0

Table 17 展示了 Qwen3-8B 和 Qwen3-4B（思维模式）。这些边缘侧（edge-side）模型表现出令人印象深刻的性能，即使在参数量更多的基线上也优于它们，包括之前的 Qwen2.5 模型。

以下是原文 Table 18 的结果：

		LLaMA-3.1-8B -Instruct	Gemma-3 -12B-IT	Qwen2.5-7B -Instruct	Qwen2.5-14B -Instruct	Qwen3-4B	Qwen3-8B
	Architecture	Dense	Dense	Dense	Dense	Dense	Dense
	# Activated Params	8B	12B	7B	14B	4B	8B
	# Total Params	8B	12B	7B	14B	4B	8B
General Tasks	MMLU-Redux	61.7	77.8	75.4	80.0	77.3	79.5
	GPQA-Diamond C-Eval	32.8	40.9	36.4	45.5	41.7	39.3
	LiveBench 2024-11-25	52.0 26.0	61.1 43.7	76.2 34.9	78.0 42.2	72.2 48.4	77.9 53.5
Alignment Tasks	IFEval strict prompt	75.0	80.2	71.2	81.0	81.2	83.0
	Arena-Hard	30.1	82.6	52.0	68.3	66.2	79.6
	AlignBench v1.1	6.01	7.77	7.27	7.67	8.10	8.38
	Creative Writing v3 WritingBench	52.8 4.57	79.9	49.8	55.8	53.6	64.5
Math & Text Reasoning	MATH-500	54.8	7.05 85.6	5.82	5.93	6.85	7.15
	AIME'24	6.3		77.6	83.4	84.8	87.4
	AIME'25		22.4	9.1	15.2	25.0	29.1
	ZebraLogic	2.7	18.8 17.8	12.1	13.6	19.1	20.9
	AutoLogi	12.8 30.9	58.9	12.0 42.9	19.7 57.4	35.2 76.3	26.7 76.5
Agent & Coding	BFCL v3	49.6	50.6	55.8	58.7	57.6	60.2
Agent & Coding	LiveCodeBench v5	10.8	25.7	14.4	21.9	21.3	22.8
Multilingual Tasks	CodeForces (Rating / Percentile)	473 / 14.9%	462 / 14.7%	191 / 0.0%	904 / 38.3%	842 / 33.7% 1110 / 52.4%
	Multi-IF	52.1	65.6	47.7	55.5	61.3	69.2
	INCLUDE	34.0	65.3	53.6	63.5	53.8	62.5
	MMMLU 14 languages	44.4	70.0	61.4	70.3	61.7	66.9
	MT-AIME2024	0.4	16.7	5.5	8.5	13.9	16.6
	PolyMath MLogiQA	5.8 41.9	17.6 54.5	11.9 49.5	15.0 51.3	16.6 49.9	18.8 51.4

Table 18 展示了 Qwen3-8B 和 Qwen3-4B（非思维模式）。这些模型在 非思维模式 下也展示了出色的性能，在参数量更多的基线上也优于它们，包括之前的 Qwen2.5 模型。

以下是原文 Table 19 的结果：

		DeepSeek-R1 -Distili-Qwen-1.5B	DeepSeek-R1 -Distill-Llama-8B	Qwen3-0.6B	Qwen3-1.7B
	Architecture # Activated Params	Dense	Dense	Dense	Dense
	# Total Params	1.5B 1.5B	8B 8B	0.6B 0.6B	1.7B 1.7B
General Tasks	MMLU-Redux	45.4	66.4	55.6	73.9
	GPQA-Diamond	33.8	49.0	27.9	40.1
	C-Eval	27.1	50.4	50.4	68.1
	LiveBench 2024-11-25	24.9	40.6	30.3	51.1
Alignment Tasks	IFEval strict prompt	39.9	59.0	59.2	72.5
	Arena-Hard	4.5	17.6	8.5	43.1
	AlignBench v1.1	5.00	6.24	6.10	7.60
	Creative Writing v3 WritingBench	16.4 4.03	51.1 5.42	30.6 5.61	48.0
Math & Text Reasoning	MATH-500	83.9	89.1	77.6	7.02 93.4
	AIME'24	28.9	50.4	10.7	48.3
	AIME'25	22.8	27.8	15.1	36.8
	ZebraLogic	4.9	37.1	30.3	63.2
	AutoLogi	19.1	63.4	61.6	83.2
Agent & Coding	BFCL v3 LiveCodeBench v5	14.0 13.2	21.5 42.5	46.4	56.6
Multilingual Tasks	Multi-IF			12.3	33.2
		13.3	27.0	36.1	51.2
	INCLUDE	21.9	34.5	35.9	51.8
	MMMLU 14 languages	27.3	40.1	43.1	59.1
	MT-AIME2024	12.4	13.2	7.8	36.1
	PolyMath MLogiQA	14.5 29.0	10.8 32.8	11.4 40.9	25.2 56.0

Table 19 展示了 Qwen3-1.7B 和 Qwen3-0.6B（思维模式）。这些模型在思维模式下，在多个基准上超越了参数量更多的基线。

以下是原文 Table 20 的结果：

		Gemma-3 -1B-IT	Phi-4-mini	Qwen2.5-1.5B -Instruct	Qwen2.5-3B -Instruct	Qwen3-0.6B	Qwen3-1.7B
	Architecture # Activated Params	Dense	Dense	Dense	Dense	Dense	Dense
		1.0B	3.8B	1.5B	3.1B	0.6B	1.7B
	# Total Params	1.0B	3.8B	1.5B	3.1B	0.6B	1.7B
	MMLU-Redux	33.3	67.9	50.7	64.4	44.6	64.4
	GPQA-Diamond	19.2	25.2	29.8	30.3	22.9	28.6
Tasks	C-Eval	28.5	40.0	53.3	68.2	42.6	61.0
	LiveBench 2024-11-25	14.4	25.3	18.0	23.8	21.8	35.6
	IFEval strict prompt	54.5	68.6	42.5	58.2	54.5	68.2
	Arena-Hard	17.8	32.8	9.0	23.7	6.5	36.9
Alignment Tasks	AlignBench v1.1	5.3	6.00	5.60	6.49	5.60	7.20
	Creative Writing v3	52.8	10.3	31.5	42.8	28.4	43.6
	WritingBench	5.18	4.05	4.67	5.55	5.13	6.54
	MATH-500	46.4	67.6	55.0	67.2	55.2	73.0
	AIME'24	0.9	8.1	0.9	6.7	3.4	13.4
Math & Text Reasoning	AIME'25	0.8	5.3	0.4	4.2	2.6	9.8
	ZebraLogic	1.9	2.7	3.4	4.8	4.2	12.8
	AutoLogi	16.4	28.8	22.5	29.9	37.4	59.8
	BFCL v3	16.3	31.3	47.8	50.4	44.1	52.2
Coding	LiveCodeBench v5	1.8	10.4	5.3	9.2	3.6	11.6
	Multi-IF
	INCLUDE	32.8	40.5	20.2	32.3	33.3	44.7
		32.7	43.8	33.1	43.8	34.4	42.6
	MMMLU 14 languages	32.5	51.4	40.4	51.8	37.1	48.3
	MT-AIME2024	0.2	0.9 6.7	0.7	1.6	1.5	4.9
	PolyMath	3.5		5.0	7.3	4.6	10.3
	MLogiQA	31.8	39.5	40.9	39.5	37.3	41.1

Table 20 展示了 Qwen3-1.7B 和 Qwen3-0.6B（非思维模式）。这些边缘侧模型同样表现出色，在 非思维模式 下也超越了参数量更多的基线，包括之前的 Qwen2.5 模型。

6.2.3. 长文本能力评估

以下是原文 Table 23 的结果：

	Model	RULER
	Model	Avg.	4K	8K	16K	32K	64K	128K
	Qwen2.5-7B-Instruct	85.4	96.7	95.1	93.7	89.4	82.3	55.1
	Qwen2.5-14B-Instruct	91.4	97.7	96.8	95.9	93.4	86.7	78.1
	Qwen2.5-32B-Instruct	92.9	96.9	97.1	95.5	95.5	90.3	82.0
	Qwen2.5-72B-Instruct	95.1	97.7	97.2	97.7	96.5	93.0	88.4
	Qwen3-4B	85.2	95.1	93.6	91.0	87.8	77.8	66.0
Non-thinking Mode	Qwen3-8B	89.1	96.3	96.0	91.8	91.2	82.1	77.4
	Qwen3-14B	94.6	98.0	97.8	96.4	96.1	94.0	85.1
	Qwen3-32B	93.7	98.4	96.0	96.2	94.4	91.8	85.6
	Qwen3-30B-A3B	91.6	96.5	97.0	95.3	92.4	89.1	79.2
	Qwen3-235B-A22B	95.0	97.7	97.2	96.4	95.1	93.3	90.6
Thinking Mode	Qwen3-4B	83.5	92.7	88.7	86.5	83.2	83.0	67.2
	Qwen3-8B	84.4	94.7	94.4	86.1	80.8	78.3	72.0
	Qwen3-14B	90.1	95.4	93.6	89.8	91.9	90.6	79.0
	Qwen3-32B	91.0	94.7	93.7	91.6	92.5	90.0	83.5
	Qwen3-30B-A3B	86.6	94.1	92.7	89.0	86.6	82.1	75.0
	Qwen3-235B-A22B	92.2	95.1	94.8	93.0	92.3	92.0	86.0

Table 23 显示了 Qwen3 模型在 RULER 基准上的长文本能力。

非思维模式：Qwen3 在 非思维模式 下，在长文本处理任务中表现优于类似规模的 Qwen2.5 模型。
思维模式：在 思维模式 下，模型的性能略有下降。研究者推测这是因为这些检索任务不依赖推理，思维内容可能反而干扰了检索过程。

6.2.4. 多语言能力评估 (`Belebele` 基准)

以下是原文 Table 36 的结果：

		Language family # Langs Language code (ISO 639-3 ISO 15924)
Indo-European	40	por_Latn, deu_Latn, tgk_Cyrl, ces_Latn, nob_Latn, dan_Latn, snd_Arab, spa_Latn, isl_Latn, slv_Latn, eng_Latn, ory_Orya, hrv_Latn, ell_Grek, ukr_Cyrl, pan_Guru, srp_Cyrl, npi_Deva, mkd_Cyrl, guj_Gujr, nld_Latn, swe_Latn, hin_Deva, rus_Cyrl, asm_Beng, cat_Latn, als_Latn, sin_Sinh, urd_Arab, mar_Deva, lit_Latn, slk_Latn,
		ita_Latn, pol_Latn, bul_Cyrl, afr_Latn, ron_Latn, fra_Latn, ben_Beng, hye_Armn
Sino-Tibetan Afro-Asiatic	3 8	zho_Hans, mya_Mymr, zho_Hant heb_Hebr, apc_Arab, acm_Arab, ary_Arab, ars_Arab, arb_Arab, mlt_Latn, erz_Arab
Austronesian	7	ilo_Latn, ceb_Latn, tgl_Latn, sun_Latn, jav_Latn, war_Latn, ind_Latn
Dravidian	4	mal_Mlym, kan_Knda, tel_Telu, tam_Taml
Turkic	4	kaz_Cyrl, azj_Latn, tur_Latn, uzn_Latn
Tai-Kadai	2	tha_Thai, lao_Laoo
Uralic	3	fin_Latn, hun_Latn, est_Latn
Austroasiatic	2	vie_Latn, khm _Khmr
Other		eus_Latn, kor_Hang, hat_Latn, swh_Latn, kea_Latn, jpn_Jpan, kat_Geor

Table 36 列出了 Qwen3 在 Belebele 基准测试中支持的语言家族和语言代码。

以下是原文 Table 37 的结果：

Model	Indo- European Tibetan Asiatic	Sino-	Afro-	Austronesian Dravidian Turkic			Tai- Kadai		Uralic Austroasiatic Other
Gemma-3-27B-IT	89.2	86.3	85.9	84.1	83.5	86.8	81.0	91.0	86.5	87.0
Qwen2.5-32B-Instruct	85.5	82.3	80.4	70.6	67.8	80.8	74.5	87.0	79.0	72.6
QwQ-32B	86.1	83.7	81.9	71.3	69.3	80.3	77.0	88.0	83.0	74.0
Qwen3-32B (Thinking)	90.7	89.7	84.8	86.7	84.5	89.3	83.5	91.3	88.0	83.1
Qwen3-32B (Non-thinking)	89.1	88.0	82.3	83.7	84.0	85.0	85.0	88.7	88.0	81.3
Gemma-3-12B-IT	85.8	83.3	83.4	79.3	79.0	82.8	77.5	89.0	83.0	81.6
Qwen2.5-14B-Instruct	82.7	78.9	80.4	69.1	66.2	74.2	72.2	883.9	77.9	70.4
Qwen3-14B (Thinking)	88.6	87.3	82.4	82.4	81.0	83.8	83.5	91.0	82.5	81.7
Qwen3-14B (Non-thinking)	87.4	82.7	80.1	80.7	78.0	81.8	80.5	87.7	81.5	77.0
Gemma-3-4B-IT	71.8	72.0	63.5	61.7	64.8	64.0	61.5	70.7	71.0	62.6
Qwen2.5-3B-Instruct	58.0	62.3	57.2	47.9	36.9	45.1	49.8	50.6	56.8	48.4
Qwen3-4B (Thinking)	82.2	77.7	74.1	73.0	74.3	76.3	68.5	83.0	74.5	67.9
Qwen3-4B (Non-thinking)	76.0	77.0	65.6	65.6	65.5	64.0	60.5	74.0	74.0	61.0
Gemma-3-1B-IT	36.5	36.0	30.0	29.1	28.8	27.3	28.0	32.7	33.0	30.9
Qwen2.5-1.5B-Instruct	41.5	43.0	39.6	34.8	28.6	29.7	39.4	33.8	42.0	36.0
Qwen3-1.7B (Thinking)	69.7	66.0	59.4	58.6	52.8	57.8	53.5	70.3	63.5	53.4
Qwen3-1.7B (Non-thinking)	58.8	62.7	50.8	53.0	43.3	48.0	46.0	54.3	54.0	43.9

Table 37 比较了 Qwen3 和其他基线模型在 Belebele 基准上的性能。结果显示，Qwen3 达到了与类似规模的 Gemma 模型可比的性能，同时显著优于 Qwen2.5 模型。这表明 Qwen3 在多语言理解方面取得了显著进步。

6.2.5. `在策略蒸馏 (On-Policy Distillation)` 效率评估

以下是原文 Table 21 的结果：

Method	AIME'24	AIME'25	MATH500	LiveCodeBench v5	MMLU -Redux	GPQA -Diamond	GPU Hours
Off-policy Distillation	55.0 (90.0)	42.8 (83.3)	92.4	42.0	86.4	55.6	-
+ Reinforcement Learning	67.6 (90.0)	55.5 (83.3)	94.8	52.9	86.9	61.3	17,920
+ On-policy Distillation	74.4 (93.3)	65.5 (86.7)	97.0	60.3	88.3	63.3	1,800

Table 21 比较了 Qwen3-8B 上的 强化学习 (RL) 和 在策略蒸馏。结果显示，蒸馏 实现了比 强化学习 显著更好的性能，同时仅需约 $1/10$ 的 GPU 小时。此外，蒸馏 使得学生模型能够扩展其探索空间并增强推理潜力，表现为 AIME'24 和 AIME'25 基准上的 Pass@64 分数提高，而 强化学习 未能带来 Pass@64 分数的改善。这凸显了利用更强教师模型指导学生模型学习的优势。

6.2.6. `思维模式融合 (Thinking Mode Fusion)` 和 `通用 RL (General RL)` 效果评估

以下是原文 Table 22 的结果：

		Stage 2 Reasoning RL	Stage 3 Thinking Mode Fusion		Stage 4 General RL
	Benchmark	Thinking	Thinking	Non-Thinking	Thinking	Non-Thinking
General Tasks	LiveBench 2024-11-25	68.6	70.9+2.3	57.1	74.9+4.0	59.8+2.8
	Arena-Hard	86.8	89.4+2.6	88.5	93.8+4.4	92.8+4.3
	CounterFactQA*	50.4	61.3+10.9	64.3	68.1+6.8	66.4+2.1
Instruction & Format Following	IFEval strict prompt	73.0	78.4+5.4	78.4	85.0+6.6	83.2+4.8
	Multi-IF	61.4	64.6+3.2	65.2	73.0+8.4	70.7+5.5
	LengthCtrl*	62.6	70.6+8.0	84.9	73.5+2.9	87.3+2.4
	ThinkFollow*	-		88.7	98.9+10.2
Agent	BFCL v3	69.0	68.4-0.6	61.5	70.3+1.9	63.0+1.5
Agent	ToolUse*	63.3	70.4+7.1	73.2	85.5+15.1	86.5+13.3
Knowledge & STEM	MMLU-Redux	91.4	91.0-0.4	86.7	90.9-0.1	85.7-1.0
Knowledge & STEM	GPQA-Diamond	68.8	69.0+0.2	50.4	68.4-0.6	54.6+4.3
Math &	AIME'24	83.8	81.9-1.9	28.5	81.4-0.5	31.0+2.5
TCCoding	LiveCodeBench v5	68.4	67.2-1.2	31.1	65.7-1.5	31.3+0.2

Table 22 展示了 Qwen3-32B 在 推理 RL（阶段 2）、思维模式融合（阶段 3）和 通用 RL（阶段 4）后的性能。

阶段 3 (思维模式融合)：成功将 非思维模式 集成到模型中。ThinkFollow 基准测试分数达到 88.7，表明模型已初步具备模式切换能力。此阶段还提升了 思维模式 下的通用能力和指令遵循能力，CounterFactQA 和 LengthCtrl 分数分别提升 10.9 和 8.0 点。
阶段 4 (通用 RL)：进一步增强了 思维 和 非思维 模式下的通用能力、指令遵循和 Agent 能力。ThinkFollow 分数提高到 98.9，确保了模式切换的准确性。
性能权衡：对于知识、STEM、数学和编码任务，思维模式融合 和 通用 RL 并未带来显著提升。相反，在 AIME'24 和 LiveCodeBench 等挑战性任务中，思维模式 性能在这些训练阶段后有所下降。这可能是由于模型在更广泛的通用任务上进行训练，牺牲了其在复杂问题处理中的专业能力。研究团队选择接受这种性能权衡，以增强模型的整体通用性。

6.3. 消融实验/参数分析

6.3.1. `思维预算 (Thinking Budget)` 的有效性

如 Figure 2 所示，Qwen3-235B-A22B 在 数学、编码 和 STEM 领域的四个基准测试中，随着 思维预算 的增加，性能呈现出可扩展且平滑的改进。这有力地证明了 思维预算 机制的有效性，用户可以根据任务需求和资源限制，通过调整 思维预算 来直接影响模型的推理深度和性能。例如，AIME'24 分数从约 70 提升至 85 以上，AIME'25 从 75 提升至 80 以上，LiveCodeBench (v5) 从 65 提升至 70 以上，GPQA Diamond 从 65 提升至 70 以上。这表明在需要复杂推理的任务中，给予模型更多的思考空间（即更大的 思维预算）能显著提升其表现。

6.3.2. `在策略蒸馏 (On-Policy Distillation)` 的有效性和效率

Table 21 对比了 Qwen3-8B 模型上 强化学习 和 在策略蒸馏 的效果。

性能提升：从 离策略蒸馏 阶段开始，强化学习 在 AIME'24 和 AIME'25 上的分数分别从 55.0/42.8 提升到 67.6/55.5，而 在策略蒸馏 则进一步提升到 74.4/65.5。这表明 在策略蒸馏 能够带来更高的性能增益。
Pass@64 的提升：在策略蒸馏 将 AIME'24 和 AIME'25 的 Pass@64 分数从 90.0/83.3 提升到 93.3/86.7，而 强化学习 保持不变。这说明 蒸馏 能够拓宽学生模型的探索空间和推理潜力。
计算效率：强化学习 需要 17,920 GPU 小时，而 在策略蒸馏 仅需 1,800 GPU 小时，效率提高了近 10 倍。这突出显示了利用强大教师模型指导学生模型学习的巨大优势。

6.3.3. `思维模式融合 (Thinking Mode Fusion)` 和 `通用 RL (General RL)` 的效果

Table 22 详细展示了 Qwen3-32B 模型在不同后训练阶段（推理 RL、思维模式融合、通用 RL）的性能变化。

模式切换能力的引入：在 思维模式融合 阶段（阶段 3），ThinkFollow 基准得分达到 88.7，表明模型已初步具备根据用户指令切换 思维 和 非思维模式 的能力。在 通用 RL 阶段（阶段 4），ThinkFollow 分数进一步提升到 98.9，确保了模式切换的准确性。
通用和指令遵循能力的提升：思维模式融合（阶段 3）显著提升了 思维模式 下的通用和指令遵循能力，例如 CounterFactQA 提高了 10.9 点，LengthCtrl 提高了 8.0 点。通用 RL（阶段 4）进一步增强了 思维 和 非思维 模式下的这些能力。
专业能力与通用性之间的权衡：对于知识、STEM、数学和编码等专业任务，思维模式融合 和 通用 RL 并未带来显著提升。相反，在 AIME'24 和 LiveCodeBench 等挑战性任务中，思维模式 的性能在这些阶段后略有下降。这表明在追求模型整体通用性的过程中，可能会对某些高度专业化的任务性能造成一定程度的牺牲，但研究团队选择接受这种权衡。

7. 总结与思考

7.1. 结论总结

这篇技术报告详细介绍了 Qwen3，Qwen 系列的最新版本。Qwen3 成功集成了 思维模式 和 非思维模式，允许用户动态控制复杂思维任务所需的词元数量，实现了性能和效率的灵活平衡。模型在包含 36 万亿词元的庞大数据集上进行预训练，支持 119 种语言和方言，极大地扩展了其多语言能力。

通过全面的评估，Qwen3 在预训练和后训练模型中，在代码生成、数学、推理和 Agent 等一系列标准基准上均展现出强大的性能，达到了 state-of-the-art 水平。特别是，旗舰模型 Qwen3-235B-A22B 在开源模型中表现卓越，并与闭源领先模型具有高度竞争力。同时，通过 强到弱蒸馏 方法，轻量级模型也取得了优异性能，显著降低了开发成本。所有模型均在 Apache 2.0 许可下开源，促进了社区贡献和研究。

7.2. 局限性与未来工作

7.2.1. 局限性

论文中指出了一些 Qwen3 当前的局限性：

思维模式在某些任务上的性能退化： 在 思维模式 下处理长文本的检索任务时，模型的性能略有下降。这可能是因为思维内容对于不依赖推理的检索任务没有显著益处，反而可能干扰检索过程。
通用性与专业性之间的权衡： 在 思维模式融合 和 通用强化学习 阶段，为了提升模型的整体通用能力，在 AIME'24 和 LiveCodeBench 等某些挑战性、专业性强的任务上，思维模式 的性能实际上有所下降。这意味着在追求广泛能力的同时，可能牺牲了特定领域的最优性能。

7.2.2. 未来工作

Qwen 团队计划在未来工作中关注以下几个关键领域：

扩大预训练规模和数据质量： 继续扩大预训练数据的规模，并提高数据的质量和多样性。
改进模型架构和训练方法： 持续优化模型架构和训练方法，以实现更有效的模型压缩、以及扩展到超长上下文（extremely long contexts）等目标。
增加 强化学习 (RL) 资源： 投入更多计算资源用于 RL，特别是专注于 基于智能体的强化学习 (agent-based RL) 系统，使其能够从环境反馈中学习。这将有助于构建能够处理需要推理时扩展的复杂任务的 智能体 (agent)。

7.3. 个人启发与批判

7.3.1. 个人启发

Qwen3 的发布带来了多方面的启发：

统一模型范式的潜力： 将 思维模式 和 非思维模式 整合到一个模型中，并允许动态切换，是 LLM 发展的一个重要方向。这解决了用户在不同任务模式间切换的痛点，显著提升了模型的通用性和易用性。这种设计理念有望成为未来 LLM 的标准配置，即模型能够根据上下文和用户需求智能地调整其计算策略。
计算资源精细化管理的价值： 思维预算机制 的引入，标志着 LLM 推理过程从“黑箱”到“可控”的转变。用户可以根据对延迟和性能的权衡，灵活分配计算资源。这对于实际部署，尤其是在资源受限的边缘设备或对实时性要求高的应用场景中，具有巨大的实用价值。
知识蒸馏在生态系统中的关键作用： 强到弱蒸馏 策略的成功，证明了大型旗舰模型不仅本身具有价值，还能作为“教师”赋能小型模型。这对于构建一个包含多种规模模型的 LLM 生态系统至关重要，使得高性能模型不再是少数“大玩家”的专属，降低了中小开发者使用先进 LLM 的门槛。
多阶段训练的精细化趋势： Qwen3 复杂的预训练和后训练流程，包括 CoT 冷启动、推理 RL、思维模式融合 和 通用 RL，反映了 LLM 训练已进入一个高度精细化和多目标优化的阶段。每一个阶段都针对模型特定能力的提升，这种策略是未来构建更强大、更鲁棒 LLM 的必然路径。
多语言能力的战略意义： 将语言支持扩展到 119 种语言和方言，体现了 LLM 走向全球化的决心。这不仅拓展了模型的应用市场，也为跨文化交流和低资源语言研究提供了强大的工具。

7.3.2. 批判

尽管 Qwen3 取得了显著进展，但仍存在一些值得批判性思考的方面和潜在问题：

思维模式下的性能权衡： 论文中明确指出，在 思维模式融合 和 通用 RL 阶段，为增强模型整体通用性，某些专业性强的任务（如 AIME'24 和 LiveCodeBench）的性能有所下降。这种权衡是必要的吗？是否存在更优化的多目标训练策略，能够在提升通用性的同时，不牺牲甚至增强专业任务的性能？未来的研究可以探索更高级别的 多任务强化学习 (Multi-task Reinforcement Learning) 或 动态任务路由 (dynamic task routing) 机制，以避免这种性能损失。
长文本能力在思维模式下的退化： 论文提到 思维模式 在某些长文本检索任务中性能略有下降。这暗示 思维过程 可能增加了不必要的冗余或干扰，导致模型难以聚焦于检索任务本身。如何设计 思维模式，使其在长文本环境中更具鲁棒性，甚至能主动过滤无关信息，是需要解决的问题。这可能需要对 思维模式 的内部机制进行更深层次的改造，例如引入 稀疏注意力 (sparse attention) 或 检索增强生成 (RAG) 中对检索结果的思维过滤。
多语言模型中的偏见和公平性问题： 尽管 Qwen3 极大地扩展了多语言支持，但仅仅增加语言数量并不意味着所有语言都能获得同等质量的服务。低资源语言的数据量和质量通常远低于英语等高资源语言，这可能导致模型在不同语言间存在性能差距和潜在的文化偏见。论文并未深入探讨这些多语言模型在公平性、偏见和文化适应性方面的表现，这在实际应用中是至关重要的问题。
“思维”的本质与可解释性：尽管引入了 思维模式 和 思维预算，但模型的“思维”仍然是一个黑箱过程。模型内部如何选择生成推理步骤，这些步骤是否真正反映了人类的逻辑推理，以及如何进一步提高其可解释性，都是 LLM 领域面临的长期挑战。
评估基准的局限性： 尽管使用了大量基准，但 LLM 的复杂性意味着任何有限的基准集都难以完全捕捉其真实能力。例如，Agent 能力的评估仍处于早期阶段，实际环境中 Agent 的长期规划、错误恢复、与人类的自然交互等能力难以通过现有基准充分衡量。未来需要更多开放式、交互式和动态的评估方法。
计算成本的可持续性： 即使通过 MoE 和 知识蒸馏 提高了效率，训练 36 万亿词元和多阶段 RL 仍然需要巨大的计算资源。如何进一步降低训练和部署的能耗及成本，是 LLM 领域持续面临的挑战。

总而言之，Qwen3 在 LLM 的通用性、效率和多语言支持方面迈出了重要一步，其创新设计为未来 LLM 的发展指明了方向。然而，LLM 技术的成熟仍需在性能权衡、鲁棒性、公平性、可解释性及可持续性等方面进行深入探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Thinking Mode	Non-Thinking Mode
<\|im_start/>user {query}/think<\|im_end\|>	<\|im_start\|>user {query}/no_think<\|im_end\|>
<\|im_start/>assistant <think>	<\|im_start/>assistant <think>
{thinking_content} </think>	</think>

{response}<\|im_end\|>	{response}<\|im_end\|>