论文状态：已完成

Qwen2.5 Technical Report

发表：2024/12/20

大语言模型Qwen2.5 (1)多阶段强化学习 (1)监督微调方法 (1)增强人类偏好 (1)大规模预训练数据集 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

Qwen2.5技术报告介绍了新一代大语言模型，预训练数据集扩展至18万亿词元，采用超过100万样本的精细监督微调和多阶段强化学习强化人类偏好。模型在长文本生成、结构化数据分析和指令遵循等任务中表现卓越，并提供多种版本以满足各种应用场景。

摘要

In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. This provides a strong foundation for common sense, expert knowledge, and reasoning capabilities. In terms of post-training, we implement intricate supervised finetuning with over 1 million samples, as well as multistage reinforcement learning. Post-training techniques enhance human preference, and notably improve long text generation, structural data analysis, and instruction following. To handle diverse and varied use cases effectively, we present Qwen2.5 LLM series in rich sizes. Open-weight offerings include base and instruction-tuned models, with quantized versions available. In addition, for hosted solutions, the proprietary models currently include two mixture-of-experts (MoE) variants: Qwen2.5-Turbo and Qwen2.5-Plus, both available from Alibaba Cloud Model Studio. Qwen2.5 has demonstrated top-tier performance on a wide range of benchmarks evaluating language understanding, reasoning, mathematics, coding, human preference alignment, etc. Specifically, the open-weight flagship Qwen2.5-72B-Instruct outperforms a number of open and proprietary models and demonstrates competitive performance to the state-of-the-art open-weight model, Llama-3-405B-Instruct, which is around 5 times larger. Qwen2.5-Turbo and Qwen2.5-Plus offer superior cost-effectiveness while performing competitively against GPT-4o-mini and GPT-4o respectively. Additionally, as the foundation, Qwen2.5 models have been instrumental in training specialized models such as Qwen2.5-Math, Qwen2.5-Coder, QwQ, and multimodal models.

思维导图

论文精读

中文精读约 22 分钟读完 · 13,123 字

1. 论文基本信息

1.1. 标题

Qwen2.5 技术报告 (Qwen2.5 Technical Report)

1.2. 作者

论文作者为 Qwen 团队 (Qwen Team)。这是一个团队署名，代表了阿里巴巴集团旗下研发 Qwen 系列大语言模型的研究人员和工程师。他们在 Hugging Face、ModelScope 和 GitHub 等平台上都设有官方主页，表明其研究成果与开源社区紧密相连。

1.3. 发表期刊/会议

该论文发布于 arXiv，这是一个开放获取的预印本服务器。这意味着该报告是一份技术文档，用于快速向社区公布最新的研究成果，但在提交时尚未经过正式的同行评审 (peer-review)。

1.4. 发表年份

2024年

1.5. 摘要

本报告介绍了 Qwen2.5，一个旨在满足多样化需求的大语言模型 (LLM) 综合系列。与先前版本相比，Qwen2.5 在预训练和后训练阶段都得到了显著改进。在预训练方面，高质量的训练数据集从 7 万亿词元 (token) 扩展到了 18 万亿词元，为模型的常识、专业知识和推理能力奠定了坚实基础。在后训练方面，团队实施了包含超过 100 万样本的精细监督微调 (SFT) 和包括离线 DPO 与在线 GRPO 的多阶段强化学习。这些技术增强了模型对人类偏好的对齐，并显著提升了长文本生成、结构化数据分析和指令遵循的能力。

为了有效处理各种应用场景，Qwen2.5 系列提供了丰富的模型尺寸。开源版本包括从 0.5B 到 72B 的基础模型和指令微调模型，并提供量化版本。此外，专有模型包括两个混合专家 (MoE) 变体：Qwen2.5-Turbo 和 Qwen2.5-Plus，可通过阿里云模型服务平台 (Model Studio) 调用。

在语言理解、推理、数学、编码和人类偏好对齐等一系列基准测试中，Qwen2.5 展现了顶级的性能。特别是，开源旗舰模型 Qwen2.5-72B-Instruct 的性能优于众多开源和专有模型，并与参数量大其约 5 倍的最先进开源模型 Llama-3-405B-Instruct 表现相当。Qwen2.5-Turbo 和 Qwen2.5-Plus 则分别在与 GPT-4o-mini 和 GPT-4o 的竞争中展现了卓越的性价比。此外，Qwen2.5 系列模型也作为基础，被用于训练如 Qwen2.5-Math、Qwen2.5-Coder 等专用模型。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2412.15115
PDF 链接: https://arxiv.org/pdf/2412.15115v2.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

随着大语言模型 (LLMs) 的飞速发展，通用人工智能 (AGI) 的曙光日益显现。以 GPT 系列、Llama 系列为代表的模型通过不断扩大模型和数据规模，结合预训练 (pre-training) 和 后训练 (post-training) 的范式，在语言理解、生成和推理方面取得了巨大成功。与此同时，开源社区的蓬勃发展（如 Llama、Mistral 系列）极大地推动了 AI 技术的普及和创新。

然而，现有研究仍存在挑战与空白：

模型尺寸覆盖不全: 开源社区中，某些中等尺寸（如 3B, 14B, 32B）的模型相对较少，而这些尺寸在资源受限的场景下具有很高的实用价值。
性能与效率的权衡: 最强大的模型通常是闭源且昂贵的，而开源模型在追赶性能的同时，如何保持高效率和低成本是一个持续的挑战。
模型能力的持续提升: 如何在前代模型的基础上，通过改进数据处理、训练方法和对齐技术，实现能力的全面跃升，是所有 LLM 研发团队的核心议题。

本文的切入点正是基于以上背景，旨在推出一个全面、强大且高效的 LLM 系列——Qwen2.5。其核心动机是：通过极致的数据规模扩展（从 7T 提升至 18T tokens）和精细化的多阶段后训练，打造一个在性能上能与业界最顶级模型（包括参数量远大于自身的模型）相媲美，同时提供从小型到大型、从开源到专有的全方位模型选择，以满足不同用户的需求。

2.2. 核心贡献/主要发现

本文的核心贡献在于发布了 Qwen2.5 系列模型，并在其技术报告中详细阐述了实现其卓越性能的关键技术与发现。

前所未有的数据规模与质量: 团队将高质量预训练数据扩展至 18 万亿词元，是前代 Qwen2 的 2.5 倍以上。通过更优的数据过滤、融合特定领域数据（数学、代码）、生成高质量合成数据以及优化数据混合比例，为模型奠定了强大的知识和推理基础。
完善且全面的模型矩阵:
- 开源系列: 提供了 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B 七种尺寸的密集模型 (dense models)，填补了中等尺寸模型的市场空白。
- 专有系列: 推出了基于 混合专家 (MoE) 架构的 Qwen2.5-Turbo 和 Qwen2.5-Plus，在保持极高性能的同时，提供了卓越的成本效益。
精细化的多阶段对齐技术: 报告中详细介绍了一个复杂的后训练流程，包括：
- 大规模监督微调 (SFT): 使用超过 100 万个高质量样本，在长文本生成、代码、数学、结构化数据理解等九个关键领域进行了针对性强化。
- 两阶段强化学习 (RL):
  - 离线 RL: 使用 直接偏好优化 (DPO)，针对数学、代码等具有客观答案但奖励模型难以评估的任务进行优化。
  - 在线 RL: 使用 组相对策略优化 (GRPO)，针对真实性、有用性、简洁性等更细微的人类偏好进行对齐。
卓越的性能与效率: 实验结果表明，Qwen2.5-72B-Instruct 在多个关键基准上达到了与参数量大其 5 倍的 Llama-3-405B-Instruct 相媲美的性能，甚至在某些方面（如数学、代码、人类偏好）超越了后者。这证明了通过优化数据和训练方法，可以在不无限扩大模型参数的情况下实现性能的巨大飞跃。
强大的长上下文处理能力: 通过渐进式上下文长度训练和 YARN + DCA 等推理时优化技术，Qwen2.5-Turbo 实现了高达 100 万词元的上下文窗口，并在长文本任务上表现出色。

下图直观展示了 Qwen 系列模型随着预训练数据规模的扩大，其能力（尤其是在专业领域）的显著提升。

该图像是一个示意图，展示了Qwen系列模型在不同数据规模（3T、7T和18T）下的能力提升。Qwen 2.5利用18万亿个数据进行预训练，显著超越了之前的版本，特别是在数学和推理领域的表现上，体现了数据规模与模型能力的密切关系。

3. 预备知识与相关工作

3.1. 基础概念

大语言模型 (Large Language Models, LLMs): 指的是在一系列巨大的文本数据集上训练出来的深度学习模型。它们的核心是 Transformer 架构，通过学习海量文本中的语言规律，能够理解和生成类似人类的文本，并执行问答、翻译、摘要、代码生成等多种任务。
Transformer 架构: 一种基于自注意力机制 (self-attention mechanism) 的神经网络架构。与传统的循环神经网络 (RNN) 不同，Transformer 可以并行处理输入序列中的所有词元，极大地提升了训练效率，并能更好地捕捉长距离依赖关系。其核心计算单元是注意力 (Attention)。
预训练与后训练 (Pre-training & Post-training): 这是当前训练 LLM 的主流范式。
- 预训练: 在海量的、无标签的文本数据上进行训练，目标是让模型学习通用的语言知识、世界知识和基本推理能力。通常采用“预测下一个词”的任务。
- 后训练 (或称对齐, Alignment): 在预训练好的模型基础上，使用更小但更高质量的、有人类标注的数据集进行微调，使模型的行为更符合人类的指令和偏好。本文的后训练包含以下几个关键阶段：
  - 监督微调 (Supervised Fine-Tuning, SFT): 使用高质量的“指令-回答”数据对，以监督学习的方式微调模型，使其学会遵循指令。
  - 强化学习 (Reinforcement Learning, RL): 通过一个奖励模型 (Reward Model) 来评估模型生成的多个回答的好坏，并使用强化学习算法（如 PPO, DPO）来优化模型，使其倾向于生成能获得更高奖励（即更符合人类偏好）的回答。
混合专家模型 (Mixture-of-Experts, MoE): 一种特殊的模型架构。传统的 LLM（密集模型）在处理每个输入时，会激活模型的所有参数。而 MoE 模型包含多个“专家”子网络（通常是前馈网络 FFN）和一个“路由器 (router)”。对于每个输入词元，路由器会选择性地激活一小部分专家（如 Top-K 个）来进行计算。这使得 MoE 模型可以拥有巨大的总参数量，但在推理时每个词元的计算成本却很低，实现了性能和效率的平衡。
直接偏好优化 (Direct Preference Optimization, DPO): 一种比传统 RLHF 更简洁的对齐方法。它不需要训练一个独立的奖励模型，而是直接利用人类对两个模型回答的偏好数据（哪个更好，哪个更差）来调整 LLM 的策略，使其直接优化以符合这些偏好。

3.2. 前人工作

本文建立在近年来 LLM 领域众多开创性工作的基础之上。

基础模型架构:
- Transformer: 由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出，是所有现代 LLM 的基石。其核心是缩放点积注意力 (Scaled Dot-Product Attention) 机制。
- 补充背景知识：注意力机制公式 即使本文未复述，理解其核心公式对初学者也至关重要。其计算过程如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 符号解释:
  - $Q$ (Query, 查询)、 $K$ (Key, 键)、 $V$ (Value, 值) 是输入序列经过线性变换后得到的三个矩阵。
  - $QK^T$ 计算了每个查询与所有键之间的相似度分数。
  - $\sqrt{d_k}$ 是一个缩放因子，其中 $d_k$ 是键向量的维度，用于防止梯度过小。
  - $\mathrm{softmax}$ 函数将分数归一化为权重，表示每个值向量的重要性。
  - 最后将权重与 $V$ 相乘，得到加权后的输出表示。
业界领先的大语言模型:
- GPT 系列 (OpenAI): 从 GPT-3 到 GPT-4o，OpenAI 在模型规模、多模态能力和推理能力上持续引领行业发展，是 Qwen 系列对标的主要商业模型。
- Llama 系列 (Meta): Llama 的开源极大地推动了 LLM 研究的民主化。Llama 2 和 Llama 3 系列以其强大的性能和开放的权重成为开源社区最重要的基准模型之一，也是 Qwen2.5 在评测中直接比较的对象。
- Mistral 系列 (Mistral AI): 以其高效的架构（如 Grouped-Query Attention）和 MoE 模型（如 Mixtral）而闻名，是 Qwen 在模型效率和架构创新方面的重要参照。

3.3. 技术演进

Qwen2.5 自身也处在一个清晰的技术演进脉络中：

Qwen1 -> Qwen1.5: 早期版本奠定了基础，1.5 版本在模型能力和开放性上有了较大提升。
Qwen2: 预训练数据规模首次大幅提升至 7 万亿词元，并采用了更先进的架构组件。
Qwen2.5 (本文): 是这一系列演进的顶峰，其技术特点体现了当前 LLM 发展的几个关键趋势：
- 数据为王: 将数据规模推向新的高度（18T tokens），并强调数据的质量和多样性。
- 对齐至上: 采用复杂的多阶段后训练流程，结合 SFT、离线 RL (DPO) 和在线 RL (GRPO)，进行精细化的人类偏好对齐。
- 效率与性能并重: 同时发展密集的开源模型和高效的 MoE 专有模型，满足不同场景的需求。

3.4. 差异化分析

与 Llama 3 系列相比: Qwen2.5 的核心差异在于效率和模型覆盖度。Qwen2.5-72B 以远小于 Llama-3-405B 的参数量实现了可比的性能，展示了其在数据和训练方法上的高效性。此外，Qwen2.5 提供了更广泛的模型尺寸选择，特别是 3B、14B、32B 等中量级模型。
与 Mistral 系列相比: 两者都非常注重模型效率和 MoE 架构。Qwen2.5 的差异化体现在其更庞大的预训练数据规模和对多语言能力的持续投入。其后训练流程（特别是 DPO+GRPO 的组合）也构成了其独特的技术路径。
与 GPT-4o 系列相比: Qwen2.5 的专有模型 Qwen2.5-Turbo 和 Qwen2.5-Plus 旨在提供与 GPT-4o-mini 和 GPT-4o 性能相当但成本更优的解决方案，这是其在商业应用中的主要差异化竞争点。

4. 方法论

4.1. 方法原理

Qwen2.5 的核心方法论可以概括为：以超大规模、高质量的数据为基石，通过标准但优化的 Transformer 架构进行预训练，最后采用一个精细、多阶段的后训练流程，将模型的原始能力与复杂的人类指令和偏好进行深度对齐。

4.2. 核心方法详解 (逐层深入)

4.2.1. 模型架构与分词器 (Architecture & Tokenizer)

密集模型 (Dense Models): Qwen2.5 的开源模型沿用了 Qwen2 的高效 Transformer 解码器架构。其关键组件包括：

分组查询注意力 (Grouped Query Attention, GQA): 这是标准多头注意力 (MHA) 和多查询注意力 (MQA) 的折中。在 MHA 中，每个查询头 (Query head) 都有自己的键/值头 (Key/Value head)，而在 MQA 中所有查询头共享一对键/值头。GQA 则是将查询头分组，每组共享一对键/值头。这在保持高质量的同时，显著减少了推理时 KV cache 的内存占用，提升了效率。
SwiGLU 激活函数: 一种替代标准 ReLU 的激活函数，由 Swish 和 Gated Linear Unit (GLU) 结合而成。实验证明它能提升模型性能。
旋转位置编码 (Rotary Positional Embeddings, RoPE): 一种将位置信息融入注意力计算的有效方法。它通过旋转查询和键向量来编码它们的绝对位置，同时巧妙地保留了相对位置信息。

RMSNorm: 一种简化的层归一化 (LayerNorm) 方法，有助于稳定训练过程。

下表（原文 Table 1）总结了开源密集模型的架构细节：

Models	Layers	Heads (Q / KV)	Tie Embedding	Context / Generation Length	License
0.5B	24	14 / 2	Yes	32K / 8K	Apache 2.0
1.5B	28	12 / 2	Yes	32K / 8K	Apache 2.0
3B	36	16 / 2	Yes	32K / 8K	Qwen Research
7B	28	28 / 4	No	128K / 8K	Apache 2.0
14B	48	40 / 8	No	128K / 8K	Apache 2.0
32B	64	40 / 8	No	128K / 8K	Apache 2.0
72B	80	64 / 8	No	128K / 8K	Qwen

混合专家模型 (MoE Models): Qwen2.5-Turbo 和 Qwen2.5-Plus 是基于 MoE 架构的。它们将密集模型中的标准前馈网络 (FFN) 层替换为 MoE 层。每个 MoE 层包含多个 FFN 专家和一个路由器，该路由器根据输入词元动态选择 Top-K 个最合适的专家进行计算。
分词器 (Tokenizer): Qwen2.5 使用与前代相同的分词器，该分词器基于 字节对编码 (Byte-Pair Encoding, BPE)，词汇表大小为 151,643。相比旧版，控制词元的数量从 3 个扩展到了 22 个，以支持更丰富的功能（如工具调用）。

4.2.2. 预训练 (Pre-training)

预训练是奠定模型能力的基础，Qwen2.5 在此阶段进行了大规模投入。

预训练数据 (Pre-training Data): 数据总量从 Qwen2 的 7 万亿词元提升至 18 万亿词元。数据质量的提升来自四个方面：
1. 更优的数据过滤: 使用 Qwen2-Instruct 模型作为过滤器，对数据进行多维度打分和筛选，保留高质量样本。
2. 融合专业数据: 将 Qwen2.5-Math 和 Qwen2.5-Coder 的高质量数学和代码数据融入预训练，直接提升了模型在这两个领域的基础能力。
3. 高质量合成数据: 使用 Qwen2-72B 和 Qwen2-Math-72B 模型生成数学、代码和知识领域的合成数据，并使用奖励模型进行严格过滤。
4. 优化的数据混合: 使用 Qwen2-Instruct 模型对数据进行领域分类，降采样 (down-sampling) 了网络数据中过度出现的领域（如电商、社交媒体），同时升采样 (up-sampling) 了信息密度更高的领域（如科技、科学、学术研究），使训练数据分布更均衡、信息含量更高。
长上下文预训练 (Long-context Pre-training):
- 分阶段训练: 为了提高效率，训练分为两个阶段。第一阶段使用较短的 4,096 词元上下文长度；第二阶段在预训练的最后，将上下文长度扩展到 32,768 词元。
- 渐进式扩展 (for Turbo): Qwen2.5-Turbo 采用了更激进的四阶段渐进式上下文扩展策略：32K -> 65K -> 131K -> 262K，每个阶段都混合了当前最大长度和较短长度的序列进行训练。
- 推理时扩展技术: 为了在推理时能处理比训练时更长的序列，Qwen2.5 采用了两种技术：
  - YARN (Yet another RoPE extensioN method): 一种改进 RoPE 以支持更长上下文的方法。
  - 双块注意力 (Dual Chunk Attention, DCA): 一种注意力优化技术，用于提升长序列处理的效率和效果。
  - 通过这些技术，Qwen2.5-Turbo 的有效上下文长度可达 100 万词元。

4.2.3. 后训练 (Post-training)

后训练的目标是让模型更好地理解和遵循人类指令，Qwen2.5 设计了精细的三步流程。

第一步：监督微调 (Supervised Fine-tuning, SFT):
- 数据: 构建了一个包含超过 100 万高质量样本的数据集，重点覆盖了 9 个领域以弥补前代模型的不足，包括长文本生成、数学、代码、指令遵循、结构化数据理解、逻辑推理、跨语言迁移、系统指令鲁棒性和响应过滤。
- 训练细节: 模型在 32,768 词元的序列长度上微调 2 个周期 (epoch)。
第二步：离线强化学习 (Offline Reinforcement Learning):
- 目标: 针对那些有客观正确答案、但奖励模型难以精确评估的任务（如数学解题的步骤、代码的正确性）。
- 方法: 使用 DPO (Direct Preference Optimization)。团队复用 SFT 阶段的质量验证流程（如代码执行反馈、答案匹配），让 SFT 模型对新查询重新采样回答。通过验证的回答作为正样本 (positive)，未通过的作为负样本 (negative)，构成 DPO 需要的偏好对。
- 数据与训练: 构建了约 15 万个训练对，使用 Online Merging Optimizer 训练 1 个周期。
第三步：在线强化学习 (Online Reinforcement Learning):
- 目标: 针对更主观、更细微的人类偏好进行对齐，如回答的真实性 (Truthfulness)、有用性 (Helpfulness)、简洁性 (Conciseness)、相关性 (Relevance)、无害性 (Harmlessness) 和 去偏见 (Debiasing)。
- 奖励模型 (Reward Model): 首先，基于上述六大原则，通过人工和自动标注，构建了一个偏好数据集来训练奖励模型。
- 方法: 使用 GRPO (Group Relative Policy Optimization) 算法。该方法的一个特点是，在训练过程中会优先处理那些奖励模型对其不同回答打分方差较大的查询，因为这些查询通常是模型“最不确定”如何回答好的，优化它们能带来更大的学习收益。
- 训练细节: 每个查询采样 8 个回答，以形成更丰富的学习信号。

5. 实验设置

5.1. 数据集

为了全面评估模型能力，论文使用了大量的公开基准测试和内部数据集。

通用任务 (General Tasks):
- MMLU / MMLU-Pro / MMLU-redux: 衡量模型在 57 个学科领域（从初级数学到高级法律）的多项选择题上的知识广度和深度。
- BBH (BIG-Bench Hard): 一系列挑战性的、需要多步推理的语言任务。
- ARC-C (AI2 Reasoning Challenge): 评估模型在小学科学问题上的推理能力。
- TruthfulQA: 评估模型回答问题的真实性，避免生成常见的错误信息。
数学与科学任务 (Mathematics & Science Tasks):
- GSM8K: 小学生级别的数学应用题，需要进行多步算术推理。
- MATH: 高中竞赛水平的数学问题，难度非常高。
- GPQA: 研究生级别的、Google-proof（即无法轻易通过搜索引擎找到答案）的问答基准。
- TheoremQA: 需要模型理解和应用数学定理来回答问题。
代码任务 (Coding Tasks):
- HumanEval / $HumanEval+$ : 评估模型根据函数描述生成正确 Python 代码的能力。
- MBPP / $MBPP+$ : 另一个 Python 代码生成基准，包含更详细的问题描述。
- MultiPL-E: 一个多语言代码生成基准，测试模型在 Python, C++, Java 等多种语言上的能力。
- LiveCodeBench: 持续更新的实时代码基准，能有效评估模型的最新编程能力并减少数据污染。
对齐与人类偏好任务 (Alignment Tasks):
- MT-Bench: 使用更强的 LLM (如 GPT-4) 作为裁判，评估模型在多轮对话中的表现。
- Arena-Hard: 一个更具挑战性的人类偏好数据集，专注于需要复杂推理的指令。
- IFEval: 专门评估模型遵循指令中各种复杂约束（如格式、长度、风格）的能力。
长上下文任务 (Long Context Tasks):
- RULER: 评估模型在长达 128K 词元上下文中的信息检索和理解能力。
- LV-Eval: 一个多层次的长上下文基准，长度可达 256K。
- Longbench-Chat: 评估模型在长对话场景下的表现。

5.2. 评估指标

论文中使用的评估指标大多是特定基准的标准得分，其中最常见的是准确率 (Accuracy)。

概念定义 (Conceptual Definition): 准确率衡量的是模型在分类或选择题任务中，做出正确预测的样本占总样本数量的比例。它是评估模型知识掌握程度和基本推理能力最直接的指标。
数学公式 (Mathematical Formula): $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释 (Symbol Explanation):
- Number of Correct Predictions: 模型预测结果与真实标签（或标准答案）一致的样本数量。
- Total Number of Predictions: 测试集中的样本总数量。
  
  对于 HumanEval 等代码生成任务，通常使用 pass@k 指标，即模型生成 $k$ 个代码样本中，至少有一个能通过所有单元测试的概率。对于 MT-Bench 等对话评估，得分是基于裁判 LLM 给出的 1-10 分的平均分。

5.3. 对比基线

论文将 Qwen2.5 系列与当前业界最顶尖的开源和闭源模型进行了广泛比较，选择的基线模型极具代表性：

开源模型:
- Llama-3 和 Llama-3.1 系列 (Meta): 开源社区性能最强的模型之一，是衡量 SOTA 水平的核心基准。
- Mistral-7B 和 Mixtral-8x22B (Mistral AI): 以高效和创新的架构著称。
- Gemma2 系列 (Google): Google 推出的高性能开源模型。
- Yi-1.5 系列 (01.AI): 另一个强大的开源模型系列。
- Qwen 的前代模型 (如 Qwen2, Qwen1.5): 用于展示新版本的巨大进步。
闭源/专有模型:
- GPT-4o 和 GPT-4o-mini (OpenAI): 业界公认的性能标杆。
- Claude 3.5 Sonnet (Anthropic): 另一个顶级的商业 LLM。

6. 实验结果与分析

6.1. 核心结果分析

实验结果全面展示了 Qwen2.5 系列的强大竞争力，特别是在效率和特定能力（数学、代码）上的优势。

6.1.1. 基础模型 (Base Models) 性能

基础模型的能力直接反映了预训练的效果。

70B+ 级别 (原文 Table 2):

Qwen2.5-72B 在绝大多数指标上都显著优于同级别的 Llama-3-70B。
最引人注目的是，Qwen2.5-72B 的性能与参数量是其 5.6 倍的 Llama-3-405B 相当，尤其在数学 (MATH, GSM8K) 和代码 (MBPP, MultiPL-E) 任务上表现更优。这强有力地证明了 Qwen2.5 预训练数据和方法的优越性。

Qwen2.5-Plus (MoE 模型) 以更低的成本实现了与 Qwen2.5-72B 极具竞争力的性能。

以下是原文 Table 2 的结果：

Datasets	Llama-3-70B	Mixtral-8x22B	Llama-3-405B	Qwen2-72B	Qwen2.5-72B	Qwen2.5-Plus
General Tasks
MMLU	79.5	77.8	85.2	84.2	86.1	85.4
MMLU-Pro	52.8	51.6	61.6	55.7	58.1	64.0
MMLU-redux	75.0	72.9	-	80.5	83.9	82.8
BBH	81.0	78.9	85.9	82.4	86.3	85.8
ARC-C	68.8	70.7	-	68.9	72.4	70.9
TruthfulQA	45.6	51.0	-	54.8	60.4	55.3
WindoGrande	85.3	85.0	86.7	85.1	83.9	85.5
HellaSwag	88.0	88.7	-	87.3	87.6	89.2
Mathematics & Science Tasks
GPQA	36.3	34.3	-	37.4	45.9	43.9
TheoremQA	32.3	35.9	-	42.8	42.4	48.5
MATH	42.5	41.7	53.8	50.9	62.1	64.4
MMLU-stem	73.7	71.7		79.6	82.7	81.2
GSM8K	77.6	83.7	89.0	89.0	91.5	93.0
Coding Tasks
HumanEval	48.2	46.3	61.0	64.6	59.1	59.1
HumanEval+	42.1	40.2	-	56.1	51.2	52.4
MBPP	70.4	71.7	73.0	76.9	84.7	79.7
MBPP+	58.4	58.1	-	63.9	69.2	66.9
MultiPL-E	46.3	46.7	-	59.6	60.5	61.0
Multilingual Tasks
Multi-Exam	70.0	63.5	-	76.6	78.7	78.5
Multi-Understanding	79.9	77.7		80.7	89.6	89.2
Multi-Mathematics	67.1	62.9		76.0	76.7	82.4
Multi-Translation	38.0	23.3	-	37.8	39.0	40.4

中小尺寸模型 (原文 Tables 3-5): Qwen2.5 在各个尺寸上都表现出对其前代和竞争对手的明显优势。例如，Qwen2.5-7B 在数学和代码任务上远超 Llama3-8B 和 Mistral-7B。甚至 Qwen2.5-0.5B 这样的小模型，在某些数学和代码任务上的表现也超过了参数量是其 5 倍的 Gemma2-2.6B。

6.1.2. 指令微调模型 (Instruction-tuned Models) 性能

指令微调模型的结果更能反映模型在实际应用中的表现。

70B+ 级别 (原文 Table 6):

Qwen2.5-72B-Instruct 的表现极为亮眼，在多个对齐和能力要求极高的基准上超越了 Llama-3.1-405B-Instruct，包括 MATH (83.1 vs 73.8), LiveCodeBench (55.5 vs 41.6), Arena-Hard (81.2 vs 69.3) 和 MT-Bench (9.35 vs 9.08)。这表明 Qwen2.5 的后训练流程非常成功，尤其是在提升复杂推理和对齐人类偏好方面。

Qwen2.5-Plus 再次展现了其强大的实力，在多个指标上进一步提升。

以下是原文 Table 6 的结果：

Datasets	Llama-3.1-70B	Llama-3.1-405B	Qwen2-72B	Qwen2.5-72B	Qwen2.5-Plus
General Tasks
MMLU-Pro	66.4	73.3	64.4	71.1	72.5
MMLU-redux	83.0	86.2	81.6	86.8	86.3
LiveBench 0831	46.6	53.2	41.5	52.3	54.6
Mathematics & Science Tasks
GPQA	46.7	51.1	42.4	49.0	49.7
MATH	68.0	73.8	69.0	83.1	84.7
GSM8K	95.1	96.8	93.2	95.8	96.0
Coding Tasks
HumanEval	80.5	89.0	86.0	86.6	87.8
MBPP	84.2	84.5	80.2	88.2	85.5
MultiPL-E	68.2	73.5	69.2	75.1	77.0
LiveCodeBench	32.1	41.6	32.2	55.5	51.4
Alignment Tasks
IFEval	83.6	86.0	77.6	84.1	86.3
Arena-Hard	55.7	69.3	48.1	81.2	81.4
MTbench	8.79	9.08	9.12	9.35	9.30

与 GPT-4o-mini 对比 (原文 Table 7): Qwen2.5-14B-Instruct 的性能与 GPT-4o-mini 全面看齐，而成本效益更高的 Qwen2.5-Turbo 在多数指标上甚至超越了 Qwen2.5-14B-Instruct。这表明 Qwen 的专有 MoE 模型在性能和效率上达到了极佳的平衡。

6.1.3. 长上下文能力 (Long Context Capabilities)

Qwen2.5-72B-Instruct 在 RULER 等长上下文基准上表现出最强的性能，显著优于现有的开源长上下文模型和 GPT-4 等专有模型。
Qwen2.5-Turbo 成功通过了 100 万词元的“大海捞针”（Passkey Retrieval）测试，准确率达到 100%，证明了其在超长文本中精准定位信息的能力。

下图（原文 Figure 2）展示了 Qwen2.5-Turbo 在不同上下文长度和文档深度下的“大海捞针”测试结果。

该图像是一个图表，展示了 Qwen2.5-Turbo 在 Passkey Retrieval 任务中，随着上下文长度的变化，其检索准确率在不同深度文档中的表现。整个图表显示了准确率从 0% 到 100% 的范围，纵坐标表示文档深度，横坐标表示上下文长度（以标记数计算）。
通过基于 Minference 的稀疏注意力机制，Qwen2.5-Turbo 在处理 100 万词元序列时，注意力计算量减少了 12.5 倍，首词元生成时间 (Time To First Token, TTFT) 实现了 3.2 到 4.3 倍的加速，极大地改善了用户体验。

下图（原文 Figure 3）展示了 Qwen2.5-Turbo 和 Qwen2.5-7B 在使用全注意力和优化方法后的 TTFT 对比。

该图像是图表，展示了 Qwen2.5-Turbo 和 Qwen2.5-7B 在 H20 和 A100 上的 TTFT（首次令牌时间），包括使用全注意力和我们的方法的比较。在各个上下文长度下，采用我们的方法显著减少了时间，例如，Qwen2.5-Turbo 在 1M 上的 H20 的 TTFT 达到 4.3x 的优化效果。

7. 总结与思考

7.1. 结论总结

Qwen2.5 是大语言模型领域的一项重大进展。通过将预训练数据规模扩展至 18 万亿词元，并实施包含大规模 SFT 和多阶段（离线DPO+在线GRPO）强化学习的复杂后训练流程，Qwen2.5 系列在各项能力上都取得了显著提升。

该系列提供了从 0.5B 到 72B 的丰富开源模型选择，以及高性价比的专有 MoE 模型 Qwen2.5-Turbo 和 Qwen2.5-Plus。实验评估表明，旗舰开源模型 Qwen2.5-72B-Instruct 的性能足以媲美甚至在部分关键任务上超越了参数量大其数倍的 Llama-3-405B-Instruct。这凸显了 Qwen2.5 在训练效率和模型能力上的卓越表现，证明了数据质量和精细化对齐在提升模型性能上的关键作用。Qwen2.5 的发布为学术研究和工业应用提供了强大而灵活的工具，是推动未来 AI 创新的重要力量。

7.2. 局限性与未来工作

论文作者明确指出了未来的三个主要研究方向：

持续优化基础模型: 通过引入更广泛、更多样、更高质量的数据，迭代改进基础和指令微调 LLM。
发展多模态模型: 目标是将文本、视觉、听觉等多种模态集成到一个统一的框架中，实现端到端的信息处理。
增强推理能力: 通过策略性地扩展推理时的计算资源，进一步提升模型的复杂推理能力。

虽然论文未直接阐述 Qwen2.5 的局限性，但从实验数据和技术报告的性质可以推断几点：

数据透明度: 作为商业公司的技术报告，论文没有详细披露 18T 预训练数据的具体来源和构成，这限制了其在学术上的完全可复现性。
评测的局限性: 尽管评测非常全面，但仍然主要依赖自动化的基准测试。这些基准可能无法完全捕捉模型在真实、复杂、开放式场景下的所有细微表现和潜在缺陷。
文化与价值对齐: 尽管在多语言和文化理解上有所进步 (BLEnD benchmark)，但这仍然是一个极具挑战性的领域，需要持续不断的努力来减少偏见和提升文化适应性。

7.3. 个人启发与批判

这篇技术报告给我带来了几点深刻的启发：

数据工程的极致重要性: Qwen2.5 的成功再次印证了“数据是新时代的石油”。其性能的巨大飞跃，很大程度上归功于对 18T 海量数据的精细化处理：从过滤、混合到合成。这表明，在模型架构趋于成熟的今天，数据工程的深度和精细度已成为模型性能的决定性因素。
效率驱动的创新: Qwen2.5-72B 以远小于 Llama-3-405B 的体量达到可比性能，这是一个关于“效率”的强有力声明。它告诉我们，单纯堆砌参数并非唯一路径，通过优化数据质量、训练方法和模型架构，可以实现更高的“性能-参数比”。这对于 AI 普惠化和可持续发展至关重要。
对齐技术的务实主义: 采用“离线DPO + 在线GRPO”的两阶段强化学习策略，体现了一种务实的设计哲学。它将客观任务（数学、代码）和主观任务（人类偏好）分开处理，为不同的对齐目标选择了最合适的工具，这种分而治之的思路值得借鉴。

批判性思考:

技术报告的本质: 需要认识到这是一份技术报告而非经过同行评审的学术论文。其主要目的是展示成果和技术实力，因此在结果呈现上可能存在一定的“报喜不报忧”。对实验结果的解读应保持审慎。
“军备竞赛”的可持续性: 训练一个使用 18 万亿词元数据的模型，其背后是巨大的计算资源消耗和环境成本。虽然 Qwen2.5 在效率上取得了进步，但整个领域向着更大规模数据和模型的“军备竞赛”趋势，其长期可持续性值得深思。
奖励模型评估的难题: 作者坦诚地指出“当前奖励模型评估基准无法准确预测 RL 模型性能”，这是一个非常重要且诚实的观察。这揭示了当前 LLM 对齐领域的一个核心挑战：我们可能还没有找到真正有效的“尺子”来衡量对齐的好坏，这为未来的研究指明了一个关键方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。