论文状态:已完成

Qwen2 Technical Report

发表:2024/07/15
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本技术报告介绍了Qwen2系列模型,涵盖0.5亿至720亿参数的基础语言模型和指令微调模型,超越大多数开源模型及Qwen1.5。旗舰模型Qwen2-72B在多项基准测试中展现出色表现,具有卓越的多语言能力,支持约30种语言,推动了社区创新。

摘要

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face and ModelScope, and the supplementary materials including example code on GitHub. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Qwen2 技术报告 (Qwen2 Technical Report)

1.2. 作者

An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, and Zhihao Fan (Qwen Team, Alibaba Group)

1.3. 发表期刊/会议

该论文以技术报告 (Technical Report) 的形式发布,没有传统意义上的学术期刊或会议。它于 2024 年 7 月 15 日在 arXiv 预印本平台发布,并在学术界和工业界引起了广泛关注,表明其在该领域的最新进展和影响力。

1.4. 发表年份

2024

1.5. 摘要

本报告介绍了 Qwen2 系列模型,这是阿里巴巴集团在大型语言模型 (Large Language Models, LLMs) 和大型多模态模型 (Large Multimodal Models, LMMs) 方面的最新进展。该系列发布了一套全面的基础语言模型 (foundational language models) 和指令微调 (instruction-tuned) 语言模型,参数范围从 0.5 亿到 720 亿,包括密集模型 (dense models) 和混合专家模型 (Mixture-of-Experts, MoE)。Qwen2 在性能上超越了大多数现有的开源模型,包括其前身 Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等多种基准测试中展现出与专有模型 (proprietary models) 相当的竞争力。

旗舰模型 Qwen2-72B 在作为基础语言模型时展现了卓越性能:MMLU (多任务语言理解) 达到 84.2 分,GPQA (通用问题回答) 达到 37.9 分,HumanEval (代码生成) 达到 64.6 分,GSM8K (数学应用题) 达到 89.5 分,BBH (大型基准难题) 达到 82.4 分。其指令微调版本 Qwen2-72B-Instruct 在 MT-Bench (多轮对话) 上获得 9.1 分,Arena-Hard (对话竞技场) 上获得 48.1 分,LiveCodeBench (代码竞赛) 上获得 35.7 分。此外,Qwen2 展现了强大的多语言能力,精通大约 30 种语言,包括英语、汉语、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,凸显了其多功能性和全球覆盖范围。

为了促进社区创新和可访问性,Qwen2 模型权重已在 Hugging Face 和 ModelScope 上开源,补充材料(包括示例代码)已在 GitHub 上发布。这些平台还提供了量化 (quantization)、微调 (fine-tuning) 和部署 (deployment) 资源,以促进广泛的应用和研究工作。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2407.10671v4 PDF 链接: https://arxiv.org/pdf/2407.10671v4.pdf 发布状态: 预印本 (Preprint),发布于 arXiv。

2. 整体概括

2.1. 研究背景与动机

自 ChatGPT (OpenAI, 2022) 出现以来,大型语言模型 (LLMs) 的热潮在全球范围内持续升级。Llama 系列 (Touvron et al., 2023) 的发布进一步激发了开源社区对 GPT 级别本地 LLMs 的兴趣。近期,Claude-3 Opus (Anthropic, 2024) 和 GPT-4o (omni) (OpenAI, 2024) 等专有模型在 Chatbot Arena (Chiang et al., 2024) 等平台上持续刷新性能记录。与此同时,Llama-3 (AI @ Meta, 2024) 作为最先进的开源模型系列,显著缩小了与领先专有模型之间的性能差距,并被广泛认为是 GPT-4 级别的模型。这表明,越来越多的竞争性 LLMs 正在努力实现与 OpenAI GPT 系列相似的进步。包括 Qwen (Bai et al., 2023a)、Mistral (Jiang et al., 2023a)、Gemma (Mesnard et al., 2024) 等在内的许多模型都以开源权重 (open-weight) 的形式发布,极大地推动了研究和应用。

论文试图解决的核心问题:在 LLM 领域快速发展、开源模型日益强大的背景下,Qwen 团队旨在继续推进其 Qwen 系列模型,以期在性能上超越现有开源模型,并与最先进的专有模型保持竞争力。具体而言,他们希望开发出一系列涵盖不同参数规模、具备多语言能力、在理解、生成、编码和数学推理等方面表现卓越的模型。

为什么这个问题在当前领域是重要的?

  1. 推动开源创新:开源模型是推动 AI 民主化和社区创新的关键。Qwen2 的发布能够为全球研究人员和开发者提供高性能的基座模型,加速 AI 技术的迭代和应用。

  2. 缩小与专有模型的差距:开源模型若能逼近甚至达到专有模型的性能,将降低企业和研究机构对闭源 API 的依赖,促进技术自主可控。

  3. 多功能性和可部署性:提供从小型设备到大型 GPU 部署的多种参数规模模型,能够满足不同应用场景的需求,提升 LLM 的实际可用性。

  4. 长上下文和多语言能力:这些是当前 LLM 发展的重要方向,能够解决更复杂、更现实世界的任务,拓宽应用边界。

    这篇论文的切入点或创新思路: Qwen2 作为 Qwen 系列的最新迭代,其核心切入点是在 Qwen1.5 的基础上,通过以下几个方面进行全面提升:

  5. 数据工程优化:构建了更大规模、更高质量、更具多样性的预训练数据,尤其是在代码、数学和多语言数据方面进行了大幅增强。

  6. 架构改进:引入了分组查询注意力 (Grouped Query Attention, GQA) 优化推理效率,并结合双块注意力 (Dual Chunk Attention, DCA) 和 YARN 机制显著扩展了上下文窗口。

  7. MoE 模型探索:发布了 MoE 模型 Qwen2-57B-A14B,旨在通过稀疏激活实现更高的性能效率比。

  8. 后训练策略优化:采用了结合协作数据标注和自动化数据合成的混合方法进行监督微调 (Supervised Fine-tuning, SFT) 和直接偏好优化 (Direct Preference Optimization, DPO) (一种人类反馈强化学习, Reinforcement Learning from Human Feedback, RLHF 范式),以更好地对齐人类偏好。

  9. 全面评估与开源:对模型进行了详尽的基准测试和多维度评估,并全面开源模型权重和资源,鼓励社区参与。

2.2. 核心贡献/主要发现

论文最主要的贡献可以总结如下:

  • 发布 Qwen2 系列模型:推出了一个全面的大型语言模型套件,包括 0.5B、1.5B、7B、72B 等四种密集模型,以及一个 57B 参数(激活 14B 参数)的混合专家 (MoE) 模型。这些模型涵盖了从小型设备到大型 GPU 的广泛部署需求。

  • 卓越的性能表现

    • 超越前代和开源模型:Qwen2 在各项基准测试中显著超越了其前身 Qwen1.5 以及大多数现有的开源模型 (如 Llama-3-70B, Mixtral-8x22B 等)。
    • 逼近专有模型水平:在多项任务上,Qwen2 展现出与 GPT-4o、Claude-3 Opus 等领先专有模型相当的竞争力。
    • 旗舰模型性能:Qwen2-72B 在 MMLU (84.2)、GPQA (37.9)、HumanEval (64.6)、GSM8K (89.5)、BBH (82.4) 等基准测试中达到顶尖水平。其指令微调版本 Qwen2-72B-Instruct 在 MT-Bench (9.1)、Arena-Hard (48.1)、LiveCodeBench (35.7) 上表现出色。
  • 强大的多语言能力:Qwen2 经过大规模多语言数据预训练,支持并精通约 30 种语言,包括英语、汉语、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,显著提升了模型的全球适用性。

  • 长上下文处理能力:通过引入双块注意力 (DCA) 和 YARN (Yet Another RoPE extensioN) 机制,Qwen2 模型能够有效地处理高达 131,072 词元 (tokens) 的长上下文输入,并在“针在干草堆测试”等长上下文基准测试中展现出卓越的召回能力。

  • 优化的模型架构和训练策略

    • 采用了分组查询注意力 (GQA) 以提高推理效率。
    • 针对 MoE 模型,探索了细粒度专家、共享和路由特定专家以及多元化专家初始化策略。
    • 通过精炼的数据过滤算法、Qwen 模型辅助的数据过滤和合成,构建了更大规模、更高质量的预训练和后训练数据集。
    • 结合监督微调 (SFT) 和直接偏好优化 (DPO) (一种人类反馈强化学习, Reinforcement Learning from Human Feedback, RLHF 范式),高效地将模型与人类偏好对齐。
  • 强调安全性和责任:对模型进行了多语言安全性评估和红队测试 (red teaming exercises),并致力于构建更安全、负责任的 LLMs。

  • 全面开源:将 Qwen2 模型权重、代码、量化、微调和部署资源全部开源,极大地促进了社区的研究和应用,符合当前 LLM 领域开放创新的趋势。

    这些贡献共同确立了 Qwen2 在当前开源 LLM 领域中的领先地位,并为 LLM 的进一步发展提供了重要的技术积累和实践经验。

3. 预备知识与相关工作

3.1. 基础概念

理解 Qwen2 技术报告需要掌握以下核心概念:

  • 大型语言模型 (Large Language Models, LLMs):是指拥有数亿到数万亿参数的深度学习模型,通过在海量文本数据上进行预训练,学习语言的模式、语法、语义和世界知识。它们能够执行文本生成、问答、翻译、摘要等多种自然语言处理任务。LLMs 通常基于 Transformer 架构。

  • 大型多模态模型 (Large Multimodal Models, LMMs):是 LLMs 的扩展,不仅能处理文本数据,还能理解和生成其他模态的数据,如图像、音频等。Qwen2 系列中提到了其家族包括了 Qwen-VL (视觉-语言模型) 和 Qwen-Audio (音频-语言模型),表明其在多模态方向的布局。

  • Transformer 架构:由 Vaswani et al. (2017) 提出,是现代 LLMs 的基石。它完全依赖自注意力机制 (self-attention mechanism) 和前馈网络 (feed-forward networks) 来处理序列数据,取代了传统的循环神经网络 (RNN) 和卷积神经网络 (CNN)。Transformer 架构的优势在于其并行计算能力和捕获长距离依赖关系的能力。

    • 自注意力机制 (Self-Attention):Transformer 的核心组件,允许模型在处理序列中的每个词元 (token) 时,同时考虑序列中所有其他词元的重要性。 Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
      • QQ (Query, 查询), KK (Key, 键), VV (Value, 值):它们都是输入序列经过线性变换后得到的矩阵。
      • QKTQ K^T: 计算查询与所有键的点积,表示每个查询词元与其他所有词元之间的相似度或相关性。
      • dk\sqrt{d_k}: 缩放因子,其中 dkd_k 是键向量的维度。用于防止点积结果过大,导致 softmax 函数在梯度上饱和。
      • softmax\mathrm{softmax}: 归一化指数函数,将相似度分数转换为概率分布,使得所有词元的重要性权重之和为 1。
      • VV: 值矩阵,通过加权求和(权重来自 softmax 输出)得到注意力机制的输出,表示对每个词元加权后的信息聚合。
  • 因果注意力 (Causal Attention):在生成任务中,为了防止模型“偷看”未来的信息,因果注意力机制会在注意力计算时对未来的词元进行掩码 (masking)。这意味着每个词元只能关注其之前和自身的词元,而不能关注其之后的词元。

  • 词元 (Token):语言模型处理的最小文本单位。一个词元可以是一个单词、一个子词 (subword) 或一个字符。Qwen2 使用基于字节级别字节对编码 (byte-level byte-pair encoding) 的词元分析器 (tokenizer)。

  • 混合专家模型 (Mixture-of-Experts, MoE):一种稀疏激活的模型架构。在 MoE 模型中,模型的一部分参数(通常是前馈网络层)被分解为多个“专家”网络。对于每个输入,一个门控网络 (gating network) 或路由器 (router) 会选择激活其中一个或几个专家来处理该输入,而不是激活所有专家。这使得模型可以在拥有大量参数的同时,保持每次前向传播的计算成本相对较低,从而提高训练和推理效率。

  • 旋转位置嵌入 (Rotary Positional Embeddings, RoPE):一种位置编码方法,通过旋转矩阵将位置信息集成到自注意力机制中的 Q (查询) 和 K (键) 向量中。相比于传统的绝对位置编码,RoPE 能够更好地处理长序列,并通过相对位置信息增强模型的泛化能力。

  • 分组查询注意力 (Grouped Query Attention, GQA):是对多头注意力 (Multi-Head Attention, MHA) 的一种优化。在 MHA 中,每个注意力头都有独立的 Q、K、V 投影矩阵。GQA 允许多个查询头共享相同的 K 和 V 投影,从而减少 KV 缓存 (KV cache) 的内存占用,显著提高推理吞吐量,尤其是在长上下文场景下。

  • 监督微调 (Supervised Fine-tuning, SFT):在预训练 (pre-training) 之后,使用高质量的指令-响应对数据集对模型进行进一步训练。其目的是让模型学会遵循用户指令并生成有用、安全、符合预期的回复。

  • 人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF):一种对齐模型行为与人类偏好的强大技术。它通常包括以下步骤:

    1. SFT 模型:初步训练一个指令遵循模型。
    2. 奖励模型 (Reward Model, RM):收集人类对模型生成文本的偏好数据,训练一个能够预测人类偏好分数的奖励模型。
    3. 强化学习:使用奖励模型作为回报信号,通过强化学习算法(如 PPO, Proximal Policy Optimization 或 DPO, Direct Preference Optimization)进一步微调 SFT 模型,使其生成更符合人类偏好的响应。
  • 直接偏好优化 (Direct Preference Optimization, DPO):一种更简洁有效的 RLHF 替代方法。DPO 将奖励模型的学习与策略模型的优化合并到一个步骤中。它直接优化策略模型,使其生成人类更偏好的响应,而无需显式训练一个单独的奖励模型。DPO 通过一个简单的损失函数,直接根据人类偏好对模型策略进行更新,通常能带来更稳定的训练和更好的性能。

  • 对齐税 (Alignment Tax):指在对模型进行对齐 (alignment)(例如通过 SFT 或 RLHF 使其遵循指令和人类偏好)时,模型在某些核心能力(如推理、知识等)上可能出现的性能下降。Online Merging Optimizer 的目标就是缓解这种对齐税。

3.2. 前人工作

Qwen2 的开发是在一系列重要的前人工作基础上进行的,这些工作主要集中在大型语言模型、多模态模型以及模型训练和对齐技术上:

  • ChatGPT (OpenAI, 2022):ChatGPT 的出现标志着对话式 AI 迈向了一个新高度,激发了全球对 LLMs 的巨大热情和研究投入。它展示了基于人类反馈的强化学习 (RLHF) 在提升模型指令遵循和对话能力方面的强大潜力。
  • Llama 系列 (Touvron et al., 2023; AI @ Meta, 2024):Llama 系列模型的开源,尤其是 Llama-3,被广泛认为是开源社区的里程碑。Llama-3 缩小了开源模型与专有模型之间的性能差距,并被认为是 GPT-4 级别的模型,极大地推动了开源 LLM 的发展和竞争。Qwen2 在报告中多次将 Llama-3 作为重要的性能基线进行比较。
  • 专有模型 (Proprietary Models)
    • Claude-3 Opus (Anthropic, 2024)GPT-4o (OpenAI, 2024):这些是最新的顶尖专有模型,在 Chatbot Arena 等人类评估平台上表现卓越,是 Qwen2 努力追赶和超越的目标。
  • Qwen 系列模型 (Bai et al., 2023a; Qwen Team, 2024a):Qwen2 是阿里巴巴 Qwen 系列的最新迭代。其前身 Qwen1.5 已经积累了丰富的模型架构和训练经验。此外,Qwen 团队还发布了视觉-语言模型 Qwen-VL (Bai et al., 2023b) 和音频-语言模型 Qwen-Audio (Chu et al., 2023),显示了其在多模态领域的拓展。
  • Transformer 架构 (Vaswani et al., 2017):Qwen2 及其所有 LLM 基座都建立在 Transformer 架构之上,利用其自注意力机制进行序列建模。
  • 其他开源模型
    • Mistral (Jiang et al., 2023a):以其高效和高性能在开源社区获得关注,尤其是在 MoE 架构的探索上 (Mixtral 8x7B)。
    • Gemma (Mesnard et al., 2024):Google 基于 Gemini 研究和技术发布的开源模型系列。
    • Phi-2 (Abdin et al., 2024):微软发布的“小而强大”的模型,展示了高质量、教科书式数据对小型模型性能的提升作用。
    • Yi-1.5 (Young et al., 2024)GLM-4 (Zeng et al., 2024):其他具有竞争力的开源模型,常被用作基线。
    • Jamba (Lieber et al., 2024):一种结合 Transformer 和 Mamba 架构的混合模型,代表了模型架构创新的方向。
  • 上下文扩展技术
    • YARN (Peng et al., 2023):一种高效的上下文窗口扩展方法,通过重缩放注意力权重来优化长序列处理。Qwen2 采纳了此技术。
    • Dual Chunk Attention (DCA, 双块注意力) (An et al., 2024):一种将长序列分割成可管理块的注意力机制,用于改善长上下文性能。Qwen2 也采用了此方法。
  • 后训练与对齐技术
    • 直接偏好优化 (DPO, Direct Preference Optimization) (Rafailov et al., 2023):一种流行的 RLHF 替代方法,Qwen2 采用了 DPO 进行模型对齐。
    • 宪法 AI (Constitutional AI) (Bai et al., 2022):通过预定义原则引导 LLM 生成响应,是 Qwen2 宪法反馈策略的灵感来源之一。
    • InsTag (Lu et al., 2024c):一种开放集细粒度标签器,Qwen2 用于自动本体提取。
    • self-evolution 策略 (Zhao et al., 2024):用于丰富指令数据集,增加指令复杂性。
    • upcycling (Komatsuzaki et al., 2023):用于 MoE 专家初始化,Qwen2 借鉴了该思想。
    • Online Merging Optimizer (Lu et al., 2024a):Qwen2 用于缓解对齐税,提高 RLHF 效率。

3.3. 技术演进

LLM 领域的技术演进经历了从早期的循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 到 Transformer 架构的范式转变,再到如今对模型规模、效率、多模态和对齐技术的持续探索。Qwen2 的工作正是这一演进脉络中的最新一环:

  1. 基础架构的奠定 (Transformer):2017 年 Attention is All You Need 论文提出 Transformer 架构,彻底改变了自然语言处理领域。其并行计算能力和捕获长距离依赖的优势,使其成为 LLM 的标准骨架。
  2. 模型规模的爆炸式增长:随着计算资源的提升和数据量的积累,LLM 的参数规模从数亿(如 BERT、GPT-1/2)增长到数千亿甚至万亿(如 GPT-3、PaLM),性能也随之显著提升。Qwen2 延续了这一趋势,推出了 72B 这样的巨型模型。
  3. 开源生态的崛起:早期 LLM 主要由少数大型科技公司拥有,但随着 Llama 系列的开源,开源社区的力量被彻底激发。Llama-3 证明了开源模型也能达到最先进的水平,这促使更多研究者和机构(包括 Qwen 团队)投入到开源模型和技术的开发中。
  4. 效率与稀疏化:随着模型规模的增大,计算成本也急剧增加。混合专家模型 (MoE) 作为一种稀疏激活架构,成为解决这一问题的重要方向。通过只激活部分专家,MoE 能够在保持高性能的同时降低计算成本。Qwen2 推出的 MoE 模型 Qwen2-57B-A14B 正是这一方向的体现,其细粒度专家和智能路由机制代表了 MoE 架构的最新进展。
  5. 上下文窗口的扩展:早期 LLM 的上下文窗口有限,限制了其处理长文本和复杂对话的能力。YARN、DCA 等技术的发展,使得 LLM 能够处理数十万乃至百万词元的超长上下文,极大地拓宽了应用场景。Qwen2 成功将上下文支持扩展到 131,072 词元,是这一领域的重大突破。
  6. 多模态能力的融合:LLM 正在从纯文本处理向多模态理解和生成演进。Qwen 系列之前发布的 Qwen-VL 和 Qwen-Audio,以及 Qwen2 报告中提及的 LMMs,都表明了将语言能力扩展到视觉和听觉等其他模态是未来的重要方向。
  7. 模型对齐与安全性:随着 LLM 能力的增强,如何确保模型行为与人类价值观对齐、生成安全无害的响应变得至关重要。SFT、RLHF (包括 DPO) 以及宪法 AI 等技术应运而生,旨在通过人类反馈或预设原则来引导模型行为。Qwen2 在后训练阶段对这些对齐策略的深入探索,特别是自动化数据合成方法,是当前 LLM 对齐研究的前沿。

3.4. 差异化分析

Qwen2 与其前身 Qwen1.5 以及其他主要的开源和专有模型相比,其核心区别和创新点体现在以下几个方面:

  1. 模型范围与架构多样性

    • Qwen2:提供更全面的模型套件,从 0.5B 到 72B 的密集模型,并首次引入了 57B 参数(激活 14B 参数)的 MoE 模型,填补了 Qwen 系列在 MoE 架构上的空白,为不同应用场景提供了更多选择。
    • Qwen1.5:主要为密集模型,参数范围较广,但缺少 MoE 选项。
    • Llama-3:也提供一系列密集模型,但目前尚未推出 MoE 版本。
    • Mixtral (MoE):Mixtral 8x7B 和 8x22B 是著名的 MoE 模型,Qwen2 的 MoE 模型在设计上借鉴了 MoE 思想,但引入了更细粒度的专家设计和更复杂的初始化策略。
  2. 预训练数据规模与质量

    • Qwen2:预训练数据从 Qwen1.5 的 3 万亿词元 (tokens) 扩展到 7 万亿词元,并对数据质量、多样性以及代码、数学和多语言内容的覆盖进行了显著提升。特别引入了 Qwen 模型进行低质量数据过滤和高质量数据合成。
    • Qwen1.5 和其他开源模型:虽然也使用大规模数据,但 Qwen2 在数据工程上的精细化和模型辅助优化是其优势之一。
  3. 长上下文处理能力

    • Qwen2:通过在预训练后期扩展上下文长度,结合 YARN (Yet Another RoPE extensioN) 和 Dual Chunk Attention (DCA) 机制,能够支持高达 131,072 词元的上下文窗口,显著超越了大多数现有模型(包括其前身)。
    • Qwen1.5:上下文窗口通常较短(例如 4K-32K 词元)。
    • Llama-3:支持 8K 词元。
    • ChatGLM4-9B-1M:声称支持 1M 词元,Qwen2-7B-Instruct 在 NeedleBench 等测试中与之竞争。
  4. 模型架构优化

    • Qwen2
      • GQA (Grouped Query Attention):用于优化 KV 缓存使用,提高推理吞吐量,尤其适用于长上下文。
      • MoE 专家设计:采用细粒度专家,同时激活更多专家,并结合共享和路由特定专家,以及基于 upcycling 的多样化专家初始化策略,旨在提升性能和灵活性。
      • KV 缓存尺寸:Qwen2 模型具有更低的每词元 KV 尺寸,有利于长上下文推理时的内存效率。
    • Qwen1.5:采用更传统的注意力机制。
    • Mixtral (MoE):通常激活少数几个(如 2 个)较粗粒度的专家。
  5. 后训练与对齐策略

    • Qwen2:采用结合协作数据标注和自动化数据合成的混合方法来构建 SFT 和 RLHF 数据集,旨在以更少的人工标注实现高效对齐。特别提到了拒绝采样、执行反馈、数据重用和宪法反馈等自动化策略。在 RLHF 阶段,采用了 DPO 并引入 Online Merging Optimizer 以缓解对齐税。
    • Qwen1.5 和其他模型:通常也采用 SFT 和 RLHF,但 Qwen2 在自动化数据生成和 DPO 优化上的具体策略可能有所不同。
  6. 性能优势

    • 基准测试表现:Qwen2 在语言理解、编码、数学和多语言任务上全面超越 Qwen1.5,并在多项任务上达到或超越 Llama-3-70B 和 Mixtral-8x22B 等顶级开源模型的性能。

    • 多语言能力:在中文和其他约 30 种语言上的强大表现是其显著特点,在多语言人工评估中也展现出与顶尖专有模型(如 GPT-4-Turbo)相当的竞争力。

      总结来说,Qwen2 的差异化体现在其更全面的模型生态、更精进的数据工程、更优化的模型架构(尤其是长上下文和 MoE 设计)以及更高效的后训练对齐策略,这些共同使其在性能上取得了显著提升,并巩固了其在开源 LLM 领域的领先地位。

4. 方法论

Qwen2 系列模型在模型设计、预训练和后训练阶段都进行了全面而深入的改进。本节将详细拆解其技术方案。

4.1. 词元分析器与模型设计 (Tokenizer & Model Design)

4.1.1. 词元分析器 (Tokenizer)

Qwen2 系列沿用了 Qwen (Bai et al., 2023a) 的词元分析器 (tokenizer),该分析器基于字节级别字节对编码 (byte-level byte-pair encoding)。这种设计具有以下几个关键特点和优势:

  • 高编码效率 (High Encoding Efficiency):相比于其他词元分析器,它展现出更好的压缩率,这意味着在表示相同文本时,所需的词元数量更少,这对于减少序列长度、加快推理速度和降低计算成本非常有益。
  • 多语言能力 (Multilingual Capabilities):字节级别编码的特性使其能够自然地处理多种语言的字符,无需为每种语言单独设计子词词汇表,从而促进了 Qwen2 的多语言能力。
  • 通用词汇表 (Common Vocabulary):所有 Qwen2 模型(无论大小)都使用一个包含 151,643 个常规词元和 3 个控制词元的共同词汇表。这种统一性简化了不同模型之间的兼容性。需要注意的是,考虑到分布式训练的因素,实际嵌入层 (embeddings) 的有效尺寸会更大。

4.1.2. 模型架构 (Model Architecture)

Qwen2 系列本质上是基于 Transformer 架构 (Vaswani et al., 2017) 的大型语言模型,采用因果注意力 (causal attention) 机制进行自注意力计算。该系列包括四种规模的密集语言模型和一个混合专家 (Mixture-of-Experts, MoE) 模型。

4.1.2.1. Qwen2 密集模型 (Qwen2 Dense Model)

Qwen2 密集模型的架构包含多个 Transformer 层,每个层都配备了因果注意力机制和前馈神经网络 (Feed-Forward Neural Networks, FFNs)。与 Qwen 相比,Qwen2 密集模型引入了以下关键改进:

  • 分组查询注意力 (Grouped Query Attention, GQA) Qwen2 采用了 分组查询注意力 (Grouped Query Attention, GQA) (Ainslie et al., 2023),而不是传统的多头注意力 (Multi-Head Attention, MHA)。GQA 的主要优势在于:

    • 优化 KV 缓存使用 (Optimizes KV cache usage):在推理过程中,GQA 允许多个查询头共享相同的键 (Key) 和值 (Value) 投影矩阵。这意味着只需要存储一份共享的 KV 缓存,而不是每个注意力头都存储一份。
    • 显著提高吞吐量 (Significantly enhancing throughput):通过减少 KV 缓存的内存占用,GQA 在处理长序列时可以显著降低内存带宽需求,从而提高推理速度和效率。详细的 KV 头配置针对不同模型尺寸在 Model Configuration 部分有报告。
  • 带 YARN 的双块注意力 (Dual Chunk Attention with YARN) 为了扩展 Qwen2 的上下文窗口 (context window),研究团队实施了 双块注意力 (Dual Chunk Attention, DCA) (An et al., 2024) 机制。

    • 双块注意力 (DCA):将长序列分割成可管理的块 (chunks)。如果输入序列的长度在一个块内可以处理,DCA 的结果与原始注意力机制相同。否则,DCA 能够有效地捕获块内和块间词元之间的相对位置信息,从而改善长上下文性能。
    • YARN (Yet Another RoPE extensioN):此外,模型还采用了 YARN (Peng et al., 2023) 来重新缩放注意力权重 (rescale the attention weights),以实现更好的长度外推 (length extrapolation)。YARN 通过调整旋转位置嵌入 (Rotary Positional Embeddings, RoPE) 的基频和缩放因子,使得模型能够在不进行额外微调的情况下,有效处理比训练时更长的序列。
  • 其他组件 Qwen2 沿用了 Qwen 中的以下设计:

    • SwiGLU (Dauphin et al., 2017):作为激活函数 (activation function)。SwiGLU 是一种门控激活单元,通常被认为比传统的 ReLU 或 GeLU 具有更好的性能。
    • 旋转位置嵌入 (Rotary Positional Embeddings, RoPE) (Su et al., 2024):用于位置编码 (positional embedding)。RoPE 通过旋转矩阵将相对位置信息集成到自注意力机制的 Q (查询) 和 K (键) 向量中。
    • QKV 偏差 (QKV bias) (Su, 2023):用于注意力机制的偏差项。
    • RMSNorm (Jiang et al., 2023b) 和预归一化 (pre-normalization):用于训练稳定性。RMSNorm 是一种均方根归一化方法,而 pre-normalization 结构(即在每个 Transformer 块的输入处应用归一化)通常被认为比 post-normalization 对训练更稳定。

4.1.2.2. Qwen2 混合专家模型 (Qwen2 Mixture-of-Experts Model)

Qwen2 MoE 模型的架构与 Qwen1.5-MoE-A2.7B (Qwen Team, 2024c) 紧密相似。它用一个 MoE FFN (混合专家前馈网络) 替代了传统的 FFN。MoE FFN 由 nn 个独立的 FFN 组成,每个 FFN 都作为一个专家 (expert)。对于每个输入的词元 x\bf x,一个门控网络 GG 会根据其计算出的概率将该词元路由到特定的专家 EiE_i 进行计算。其数学表达如下: p=softmax(G(x)),  y=itopk(p)piEi(x). \begin{array} { l } { { \displaystyle { \bf p } = \mathrm { s o f t m a x } \left( G \left( { \bf x } \right) \right) , } \ ~ } \\ { { \displaystyle { \bf y } = \sum _ { i \in \mathrm { t o p } _ { k } \left( { \bf p } \right) } { \bf p } _ { i } E _ { i } ( { \bf x } ) } . } \end{array} 其中:

  • x\bf x: 输入词元 (token) 的表示。

  • GG: 门控网络 (gated network),通常是一个轻量级神经网络,用于计算每个专家被选择的概率。

  • softmax\mathrm{softmax}: 归一化指数函数,将门控网络的输出转换为概率分布。

  • p\bf p: 路由器 (router) 为输入 x\bf x 计算的、选择每个专家的概率分布。

  • topk(p)\mathrm{top}_k(\bf p): 从概率分布 p\bf p 中选择概率最高的 kk 个专家。通常 kk 是一个小的常数(例如 2)。

  • Ei(x)E_i(\bf x): 第 ii 个专家 (expert) 对输入 x\bf x 进行计算后的输出。每个专家 EiE_i 本身是一个前馈网络 (FFN)。

  • pi\bf p_i: 第 ii 个专家被选择的概率。

  • y\bf y: MoE 层的最终输出,是选定专家的输出加权和。

    以下是 Qwen2 MoE 的关键设计考虑:

  • 专家粒度 (Expert Granularity) MoE 模型与密集模型的主要结构差异在于 MoE 层包含了多个 FFN,每个 FFN 都作为一个独立的专家。传统的 MoE 模型(如 Mixtral 8x7B)通常将每个专家参数设为原始密集模型单个 FFN 的大小。 Qwen2 MoE 模型采用了 细粒度专家 (fine-grained experts) (Dai et al., 2024) 的策略,即创建更小规模的专家,同时激活更多专家。在总专家参数数量和激活参数数量相同的情况下,细粒度专家提供了更丰富的专家组合。通过利用这些细粒度专家,Qwen2 MoE 促进了更多样化和动态的专家利用,从而增强了整体性能和适应性。

  • 专家路由 (Expert Routing) 专家路由机制的设计对于提升 MoE 模型的性能至关重要。近年来,MoE 层中整合共享专家 (shared experts) 和路由特定专家 (routing-specific experts) 的趋势日益明显 (Rajbhandari et al., 2022; Dai et al., 2024)。Qwen2 采纳了这种方法,它允许共享专家处理各种任务,而其他专家则保留用于特定的路由场景。共享专家和专业化专家的引入为开发 MoE 路由机制提供了更具适应性和效率的方法。

  • 专家初始化 (Expert Initialization) Qwen2 模型的专家初始化方式类似于 upcycling (Komatsuzaki et al., 2023),即利用密集模型的权重进行初始化。然而,Qwen2 的方法强调细粒度专家之间的多样化,以增强模型的表示广度。具体流程如下:

    1. 给定指定的专家中间尺寸 hEh_{\mathrm{E}}、专家数量 nn 和原始 FFN 中间尺寸 hFFNh_{\mathrm{FFN}}
    2. 原始 FFN 会被复制 n×hE/hFFN\lceil n \times h_{\mathrm{E}} / h_{\mathrm{FFN}} \rceil 次,以确保与指定专家数量的兼容性,并适应任意专家中间尺寸。
    3. 为了促进每个 FFN 副本内的多样性,参数会在中间维度 (intermediate dimension) 上进行打乱 (shuffled)。这确保了每个细粒度专家都具有独特的特性,即使在不同的 FFN 副本之间也是如此。
    4. 随后,这些专家从 FFN 副本中提取出来,并丢弃剩余的维度。
    5. 对于每个细粒度专家,其 50% 的参数会被随机重新初始化。这个过程为专家初始化引入了额外的随机性,可能会增强模型在训练过程中的探索能力。

4.1.2.3. 模型配置 (Model Configuration)

Qwen2 系列包含 5 种尺寸的模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。以下是这些模型的关键超参数和重要信息:

以下是原文 Table 1 的结果:

Configuration 0.5B 1.5B 7B 72B 57B-A14B
Hidden Size 896 1,536 3,584 8,192 3,584
# Layers 24 28 28 80 28
# Query Heads 14 12 28 64 28
# KV Heads 2 2 4 8 4
Head Size 64 128 128 128 128
Intermediate Size 4,864 8,960 18,944 29,568 2,560
# Routed Experts - - 64
# Activated Experts 8
# Shared Experts - - 8
Embedding Tying True True False False False
Vocabulary Size 151,646 151,646 151,646 151,646 151,646
# Trained Tokens 12T 7T 7T 7T 4.5T

Table 1: Architecture of Qwen2 dense and MoE models. For MoE models, 57B-A14B denotes that the model has 57B parameters in total and for each token 14B parameters are active, the Intermediate size denotes that of each expert, and # Activated Experts excludes the shared experts.

其中值得注意的几点:

  • Qwen2-57B-A14B 模型是从 Qwen2-7B 放大而来的。其 Hidden Size# Query Heads 与 7B 模型相同,但 Intermediate Size 为 2,560 (每个专家),总共有 64 个路由专家,每个词元激活 8 个路由专家和 8 个共享专家。
  • Embedding Tying (嵌入绑定) 在 0.5B 和 1.5B 模型中为 True,但在较大的模型中为 False。嵌入绑定是指输入嵌入层和输出预测层共享权重,这可以减少参数数量并有时提高性能。
  • Qwen2 模型在每词元 (token) 的键-值 (KV) 缓存大小上显著低于 Qwen1.5 模型。这一特性转化为更低的内存占用,在长上下文推理任务中尤其有利。

4.2. 预训练 (Pre-training)

在 Qwen2 的预训练阶段,研究团队主要致力于完善数据集和探索有效处理长上下文长度的方法。

4.2.1. 预训练数据 (Pre-training Data)

Qwen2 模型的预训练涉及开发一个新的、大规模、高质量的多语言数据集。该数据集在规模、质量和多样性上均优于 Qwen (Bai et al., 2023a) 和 Qwen1.5 (Qwen Team, 2024a) 模型中使用的语料库:

  • 质量增强 (Quality Enhancement)
    • 过滤算法得到了改进,增加了启发式和基于模型的方法。
    • 利用 Qwen 模型来过滤低质量数据,同时利用这些模型合成高质量的预训练数据。
  • 数据扩展 (Data Expansion)
    • 与 Qwen1.5 (Qwen Team, 2024a) 相比,Qwen2 收集了显著更大规模的高质量代码、数学和多语言数据,从而增强了模型在这些领域的能力。
    • 新的数据集支持大约 30 种语言,包括英语、汉语、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语等。
  • 分布改进 (Distribution Improvement)
    • 通过在缩小规模的模型上进行实验,优化了来自不同来源和领域的数据混合比例,以确保模型学习到类似人类学习的数据分布。

      基于这些增强,预训练数据量从 Qwen1.5 (Qwen Team, 2024a) 的 3 万亿词元 (tokens) 扩展到 7 万亿词元。曾尝试进一步放宽质量阈值,得到了一个 12 万亿词元的数据集,但在该数据集上训练的模型并未显示出显著的性能提升。研究团队怀疑,简单增加数据量并不一定能带来模型预训练的收益。考虑到训练成本,最终选择使用更高质量的 7 万亿词元数据集来训练更大的模型,而将 12 万亿词元数据集用于 Qwen2-0.5B。MoE 模型使用了 4.5 万亿词元进行预训练。

与之前的 Qwen 模型类似,高质量的多任务指令数据也被整合到 Qwen2 的预训练过程中,以增强其上下文学习 (in-context learning) 和指令遵循 (instruction-following) 能力。

4.2.2. 长上下文训练 (Long-context Training)

为了增强 Qwen2 的长上下文能力,研究团队在预训练的最后阶段将上下文长度从 4,096 词元扩展到 32,768 词元。这一扩展伴随着高质量长数据量的显著增加。

  • RoPE 基频调整:为了优化长上下文场景下的性能 (Xiong et al., 2023),旋转位置嵌入 (RoPE) 的基频 (base frequency) 从 10,000 调整为 1,000,000。
  • YARN 和 DCA 机制:为了充分利用模型的长度外推 (length extrapolation) 潜力,采用了 YARN (Peng et al., 2023) 机制和双块注意力 (Dual Chunk Attention, DCA) 机制 (An et al., 2024)。这些策略使得模型能够处理高达 131,072 词元 (tokens) 的序列,并在初步实验中显示出最小的困惑度 (perplexity) 降低,证明了其在保持高性能的同时处理超长上下文的能力。

4.3. 后训练 (Post-training)

在大规模预训练之后,Qwen2 进行了后训练阶段。这一过程对于提升其在编码、数学、逻辑推理、指令遵循和多语言理解等广泛领域的能力至关重要。此外,它还确保模型生成的响应与人类价值观保持一致,使其具有帮助性 (helpful)、诚实性 (honest) 和无害性 (harmless)。与传统方法严重依赖大量人工监督不同,Qwen2 的方法侧重于以最少的人工标注实现可扩展的对齐 (scalable alignment) (Cao et al., 2024)。具体来说,研究团队探索了获取高质量的演示数据 (demonstration data) 和偏好数据 (preference data) 的方法,用于监督微调 (Supervised Fine-tuning, SFT) 和人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF),旨在最大限度地减少人工标注需求,同时最大化数据的质量和可靠性。

4.3.1. 后训练数据 (Post-training Data)

后训练数据主要由两部分组成:

  • 演示数据 (Demonstration Data) D={(xi,yi)}\mathcal{D} = \{ (x_i, y_i) \}:其中 xix_i 代表指令, yiy_i 代表令人满意的响应。这部分数据用于监督微调 (SFT)。

  • 偏好数据 (Preference Data) P={(xi,yi+,yi)}\mathcal{P} = \{ (x_i, y_i^+, y_i^-) \}:其中 xix_i 代表指令,yi+y_i^+yiy_i^- 是对 xix_i 的两个响应,其中 yi+y_i^+ 是优于 yiy_i^- 的首选响应。这部分数据用于人类反馈强化学习 (RLHF)。

    训练数据的构建包括两个步骤:协作数据标注 (Collaborative Data Annotation)自动化数据合成 (Automated Data Synthesis)。首先,研究团队从大规模指令语料库中提取数据本体 (data ontology),从而获得广泛而多样的高质量指令集。这些指令被系统地增强以提高其复杂性。通过人工标注,获得了目标响应 yiy_i 及其正负对应物 (yi+,yi)(y_i^+, y_i^-)。随后,采用了各种自动化对齐策略,在代码、数学、指令遵循、创作、角色扮演和安全性等领域合成了大量人工标注数据。

4.3.1.1. 协作数据标注 (Collaborative Data Annotation)

  • 自动本体提取 (Automatic Ontology Extraction):首先,应用 InsTag (Lu et al., 2024c),一个开放集细粒度标签器 (open-set fine-grained tagger),从大规模指令数据中提取底层本体 (underlying ontology)。随后,人工检查确保提取本体的准确性。
  • 指令选择 (Instruction Selection):每个带有标注标签的指令都根据标签多样性、语义丰富性、复杂性和意图完整性进行评估。基于这些标准,选择了一组代表性的指令 (Dong et al., 2023)。
  • 指令演化 (Instruction Evolution):为了丰富指令数据集,采用了自演化 (self-evolution) 策略 (Zhao et al., 2024),提示 Qwen 模型为现有指令添加约束或要求,从而增加其复杂性并确保数据集中存在不同难度级别的指令。
  • 人工标注 (Human Annotation):使用不同的生成策略和不同规模的 Qwen 模型获取指令的多个响应。标注人员根据偏好对这些响应进行排名,确保最佳响应符合既定标准,从而产生演示数据和偏好数据。

4.3.1.2. 自动化数据合成 (Automated Data Synthesis)

在大规模场景下,特别是那些需要专业知识、经验、细致或耐心的任务,保持响应标注质量面临显著挑战。为解决这些挑战,研究团队设计了各种自动化对齐策略来大规模合成数据。

  • 拒绝采样 (Rejection Sampling):对于数学或具有明确最终答案的类似任务,应用了拒绝采样 (rejection sampling) (Yuan et al., 2023) 来提高解决方案的质量。大型语言模型 (LLMs) 被要求为每个指令生成多个响应(即推理路径)。那些得出准确结论并被模型认为是合理的路径被保留下来,作为演示数据。偏好数据通过对比正确和不正确的路径来生成。
  • 执行反馈 (Execution Feedback):对于编码任务,LLMs 被用于生成解决方案和相关的测试用例。通过编译和执行这些解决方案来评估其有效性,从而创建演示数据和偏好数据。这种方法也适用于评估指令遵循 (Dong et al., 2024)。对于每个带有约束(例如长度限制)的指令,LLM 被要求生成一个 Python 验证函数,以确保响应符合指令要求。
  • 数据重用 (Data Repurposing):对于文学创作任务,标注人员在没有专业训练的情况下很难创建高质量的响应。为解决此问题,研究团队从公共领域聚合高质量的文学作品,并使用 LLMs 开发不同详细程度的指令。这些指令与原始作品配对,作为演示数据。例如,为了编译具有生动引人入胜响应的角色扮演数据,从维基百科等知识库中获取详细的角色配置文件,并指导 LLMs 生成相应的指令和响应 (Lu et al., 2024b)。这个过程类似于阅读理解任务,确保了角色配置文件的一致性。
  • 宪法反馈 (Constitutional Feedback)宪法 AI (Constitutional AI) (Bai et al., 2022) 指的是引导 LLMs 根据预定义的原则集生成响应的过程。为确保遵守安全性、价值观等指导方针,编译了一个宪法数据集。该数据集阐明了需要遵循和需要避免的原则。它被用于指导 LLMs 生成符合或偏离这些指导方针的响应,作为演示数据和偏好数据的参考。

4.3.2. 监督微调 (Supervised Fine-tuning, SFT)

研究团队组装了一个包含超过 50 万个示例的广泛指令数据集,涵盖指令遵循、编码、数学、逻辑推理、角色扮演、多语言和安全性等技能。模型使用 32,768 词元 (tokens) 的序列长度进行两个 epoch 的微调。为了优化学习,学习率从 7×1067 \times 10^{-6} 逐渐降低到 7×1077 \times 10^{-7}。为解决过拟合问题,应用了 0.1 的权重衰减 (weight decay),梯度被裁剪到最大值 1.0。

4.3.3. 人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)

Qwen2 的 RLHF 训练方案包括两个顺序阶段:离线训练 (offline training)在线训练 (online training)

  • 离线训练阶段 (Offline Training Stage):使用预编译的偏好数据集 P\mathcal{P},通过直接偏好优化 (Direct Preference Optimization, DPO) (Rafailov et al., 2023) 最大化 yi+y_i^+yiy_i^- 之间似然的差异。DPO 是一种简洁有效的 RLHF 方法,它直接优化策略模型,使其生成人类更偏好的响应,而无需显式训练一个单独的奖励模型。
  • 在线训练阶段 (Online Training Stage):模型利用奖励模型 (reward models) 的即时反馈,实时迭代地优化其性能。具体来说,从当前策略模型中采样多个响应,奖励模型选择最受偏好和最不受偏好的响应,形成偏好对,用于每个回合的 DPO 训练。此外,研究团队采用了 Online Merging Optimizer (Lu et al., 2024a) 来缓解对齐税 (alignment tax),即模型生成与人类偏好对齐时可能出现的性能下降。

5. 实验设置

为了全面评估 Qwen2 模型(包括基础模型和指令微调模型),研究团队实施了一套综合评估协议。该协议涵盖了广泛的能力,包括通用知识理解、语言理解、生成、编码、数学、推理以及其他专业领域。具体而言,基础模型通过使用已建立的大型语言模型 (LLMs) 基准数据集进行评估,响应通过少样本提示 (few-shot prompting) 方式获取,除非另有说明。对于指令微调模型,除了基准评估外,还优先进行人类偏好评估。

5.1. 数据集

实验使用了大量的基准数据集,分为基础语言模型评估和指令微调模型评估,并涵盖了英语、汉语和多语言任务。

5.1.1. 基础语言模型评估数据集

  • 英语 (English):

    • MMLU (Massive Multitask Language Understanding) (Hendrycks et al., 2021a):包含 57 个学科的多选问题,衡量模型的通用知识和推理能力。使用 5-shot 提示。
    • MMLU-Pro (Wang et al., 2024):MMLU 的更具挑战性版本。使用 5-shot 提示。
    • GPQA (Graduate-level Google-Proof Q&A) (Rein et al., 2023):研究生级别的、难以通过 Google 搜索找到答案的问题,测试模型深度知识和推理能力。使用 5-shot 提示。
    • Theorem QA (Chen et al., 2023a):测试模型在数学定理理解和应用方面的能力。使用 5-shot 提示。
    • BBH (Big-Bench Hard) (Suzgun et al., 2023):来自 BIG-Bench 的 23 个最具挑战性任务的子集,评估复杂推理能力。使用 3-shot 提示。
    • HellaSwag (Zellers et al., 2019):常识推理数据集,要求模型在四个选项中选择最合理的句子结尾。使用 10-shot 提示。
    • Winogrande (Sakaguchi et al., 2021):常识推理数据集,解决指代消解问题,以对抗性方式构建以减少偏见。使用 5-shot 提示。
    • TruthfulQA (Lin et al., 2022a):评估模型生成真实(非幻觉)答案的能力。使用 0-shot 提示。
    • ARC-C (AI2 Reasoning Challenge - Challenge Set) (Clark et al., 2018):科学问答数据集,要求模型进行多步推理。使用 25-shot 提示。
  • 编码 (Coding):

    • HumanEval (Chen et al., 2021):包含 164 个 Python 编程问题,每个问题都附带测试用例,评估代码生成能力。使用 0-shot 提示。
    • MBPP (Mostly Basic Python Problems) (Austin et al., 2021):包含 974 个 Python 编程问题,评估代码生成能力。使用 0-shot 提示。
    • EvalPlus (Liu et al., 2023a):对 HumanEval 和 MBPP 进行增强,包含更多、更严格的测试用例,评估代码鲁棒性。使用 0-shot 提示。
    • MultiPL-E (Cassano et al., 2023):一个多语言代码生成基准,在 Python, C++, Java, PHP, TypeScript, C#, Bash, JavaScript 上进行 0-shot 评估。
  • 数学 (Mathematics):

    • GSM8K (Grade School Math 8K) (Cobbe et al., 2021):小学数学应用题数据集。使用 5-shot 提示。
    • MATH (Hendrycks et al., 2021b):包含中学和高中级别的数学问题,涵盖代数、几何、数论等,评估复杂数学推理。使用 4-shot 提示。
  • 汉语 (Chinese):

    • C-Eval (Huang et al., 2023):一个多级别、多学科的中文评估套件,类似于 MMLU。使用 5-shot 提示。
    • CMMLU (Chinese Massive Multitask Language Understanding) (Li et al., 2023):中文大规模多任务语言理解基准,类似于 MMLU。使用 5-shot 提示。
  • 多语言 (Multilingual):分为四类。

    • (a) 考试 (Exam): M3Exam (5-shot, 仅选择无需图像的示例), IndoMMLU (Koto et al., 2023) (3-shot), ruMMLU (Fenogenova et al., 2024) (5-shot), 和翻译版 MMLU (Chen et al., 2023b) (5-shot,包括阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语)。
    • (b) 理解 (Understanding): BELEBELE (Bandarkar et al., 2023) (5-shot), XCOPA (Ponti et al., 2020) (5-shot), XWinograd (Muennighoff et al., 2023) (5-shot), XStoryCloze (Lin et al., 2022b) (0-shot) 和 PAWS-X (Yang et al., 2019) (5-shot)。
    • (c) 数学 (Mathematics): MGSM (Goyal et al., 2022) (8-shot CoT)。
    • (d) 翻译 (Translation): Flores-101 (Goyal et al., 2022) (5-shot)。

5.1.2. 指令微调模型评估数据集

除了上述基础能力评估数据集(MMLU, MMLU-Pro, GPQA, Theorem QA, HumanEval, MBPP, MultiPL-E, GSM8K, MATH),指令微调模型还额外评估以下基准:

  • LiveCodeBench v1 (Jain et al., 2024):用于代码生成任务的全面、无污染评估基准。
  • MT-Bench (Zheng et al., 2023):一个多轮对话基准,使用 GPT-4 作为评判者来评估模型在开放领域对话中的质量。
  • Arena-Hard (Li et al., 2024):一个具有挑战性的对话竞技场基准,通过人类偏好评估 LLM。
  • AlignBench (Liu et al., 2023b):一个中文对齐基准,评估模型在中文语境下的指令遵循和对齐能力。
  • MixEval (Ni et al., 2024):一个混合基准,其结果近似于 Chatbot Arena 的人类评估。
  • IFEval (Instruction-Following Evaluation) (Zhou et al., 2023):评估模型遵循复杂指令的能力,特别是带有约束条件的指令。

5.1.3. 内部自动评估数据集 (In-House Automatic Evaluation Datasets)

研究团队还使用了一系列内部构建的数据集,用于评估模型在知识理解、文本生成、编码等方面的能力,包括中文和英文。

5.1.4. 长上下文能力评估 (Long Context Capabilities Evaluation)

  • Needle in a Haystack (NIAH) (Kamradt, 2023):评估模型从长文本中找出特定事实的能力。在不同长度(8K, 16K, ..., 128K 词元)的文本中,将事实策略性地放置在不同深度进行测试。
  • NeedleBench (OpenCompass Contributors, 2023):NIAH 的进阶版,在长文本中包含多个事实(2-5个),需要同时识别并进行多跳推理。
  • LV-Eval (Yuan et al., 2024):包含 11 个多样化的 QA 数据集,需要同时理解多条证据。使用关键词召回 (keyword recall) 作为评估分数。

5.1.5. 多语言人类评估 (Multilingual Human Evaluation)

设计了多语言测试用例,评估模型在不同语言中的多功能性。邀请专业标注员对模型响应进行 1-5 分的人工评分。

5.1.6. 安全性评估 (Safety Evaluation)

多语言安全性评估,测试 LLMs 在非法行为、欺诈、色情和隐私等主题上的安全性表现。收集越狱 (jail-breaking) 提示来测试模型是否能通过拒绝提供安全响应。

5.2. 评估指标

论文中使用的评估指标涵盖了通用能力、特定任务表现和对齐效果。以下是对其中几个关键指标的详细说明:

5.2.1. MMLU (Massive Multitask Language Understanding)

  1. 概念定义:MMLU 旨在评估语言模型在广泛学科领域(包括人文、社会科学、STEM 等)的知识广度和推理能力。它由多选问题组成,涵盖了 57 个不同的科目,是衡量模型通用智能和在不同任务间迁移学习能力的重要基准。
  2. 数学公式:MMLU 的评估指标通常是准确率 (Accuracy)Accuracy=Number of Correct PredictionsTotal Number of Predictions \text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}
  3. 符号解释
    • Number of Correct Predictions\text{Number of Correct Predictions}: 模型正确回答的问题数量。
    • Total Number of Predictions\text{Total Number of Predictions}: 所有被评估的问题总数。

5.2.2. GPQA (Graduate-level Google-Proof Q&A)

  1. 概念定义:GPQA 旨在评估模型在需要深层理解和复杂推理的“Google-Proof”问题上的能力,这些问题通常无法通过简单搜索直接找到答案。它衡量模型在科学和技术领域的高级知识和推理能力。
  2. 数学公式:GPQA 的评估指标也是准确率 (Accuracy)Accuracy=Number of Correct AnswersTotal Number of Questions \text{Accuracy} = \frac{\text{Number of Correct Answers}}{\text{Total Number of Questions}}
  3. 符号解释
    • Number of Correct Answers\text{Number of Correct Answers}: 模型正确回答的问题数量。
    • Total Number of Questions\text{Total Number of Questions}: 所有被评估的问题总数。

5.2.3. HumanEval

  1. 概念定义:HumanEval 用于评估语言模型生成可执行代码的能力。它包含一系列编程问题(通常是 Python 函数),每个问题都有一个函数签名、文档字符串和多个单元测试。模型需要根据问题描述生成正确的函数体。
  2. 数学公式:HumanEval 的主要评估指标是 pass@k,其中 pass@1 是最常见的。pass@k 衡量的是模型生成 kk 个候选代码中至少有一个能够通过所有单元测试的比例。 pass@k=1Ni=1NI[at least one of k samples for problem i passes] \text{pass@k} = \frac{1}{N} \sum_{i=1}^N \mathbb{I}\left[ \text{at least one of } k \text{ samples for problem } i \text{ passes} \right]
  3. 符号解释
    • NN: 总问题数量。
    • kk: 为每个问题生成的代码样本数量。
    • I[]\mathbb{I}[\cdot]: 指示函数,当括号内的条件为真时为 1,否则为 0。

5.2.4. GSM8K (Grade School Math 8K)

  1. 概念定义:GSM8K 是一个包含 8000 个小学数学应用题的数据集,旨在评估模型解决多步数学推理问题的能力。模型需要理解问题、执行计算并得出正确答案。
  2. 数学公式:GSM8K 的评估指标是准确率 (Accuracy)Accuracy=Number of Correct SolutionsTotal Number of Problems \text{Accuracy} = \frac{\text{Number of Correct Solutions}}{\text{Total Number of Problems}}
  3. 符号解释
    • Number of Correct Solutions\text{Number of Correct Solutions}: 模型正确解决的数学问题数量。
    • Total Number of Problems\text{Total Number of Problems}: 所有被评估的数学问题总数。

5.2.5. BBH (Big-Bench Hard)

  1. 概念定义:BBH 是 BIG-Bench 中最具挑战性任务的子集,旨在评估模型在需要复杂推理、规划或深入理解的零样本 (zero-shot) 或少样本 (few-shot) 场景下的能力。
  2. 数学公式:BBH 的评估指标通常是准确率 (Accuracy),对于每个子任务单独计算,然后取平均。 Accuracy=Number of Correct AnswersTotal Number of Questions \text{Accuracy} = \frac{\text{Number of Correct Answers}}{\text{Total Number of Questions}}
  3. 符号解释
    • Number of Correct Answers\text{Number of Correct Answers}: 模型正确回答的问题数量。
    • Total Number of Questions\text{Total Number of Questions}: 所有被评估的问题总数。

5.2.6. MT-Bench

  1. 概念定义:MT-Bench 是一个多轮对话基准,通过模拟真实用户场景,评估模型在多轮交互中的指令遵循、连贯性、有用性和安全性。它使用一个强大的 LLM(通常是 GPT-4)作为评判者 (LLM-as-a-judge) 来打分。
  2. 数学公式:MT-Bench 的分数是所有对话轮次中,LLM 评判者给出的平均得分。通常,每个问题有多个评判者打分,然后取平均。 MT-Bench Score=1Ni=1NScorei \text{MT-Bench Score} = \frac{1}{N} \sum_{i=1}^N \text{Score}_i
  3. 符号解释
    • NN: 总对话问题数量或评判者数量。
    • Scorei\text{Score}_i: 第 ii 个对话问题或评判者给出的分数(通常为 1-10 分)。

5.2.7. LiveCodeBench

  1. 概念定义:LiveCodeBench 是一个用于评估大型语言模型代码生成能力的基准,它强调“全面”和“无污染”。它包含多个编程任务,并通过动态测试用例来确保评估的公平性和鲁棒性,避免训练数据污染。
  2. 数学公式:LiveCodeBench 的评估指标通常是 pass@1,与 HumanEval 类似。 pass@1=1Ni=1NI[the first generated sample for problem i passes] \text{pass@1} = \frac{1}{N} \sum_{i=1}^N \mathbb{I}\left[ \text{the first generated sample for problem } i \text{ passes} \right]
  3. 符号解释
    • NN: 总问题数量。
    • I[]\mathbb{I}[\cdot]: 指示函数,当括号内的条件为真时为 1,否则为 0。

5.3. 对比基线

Qwen2 将其方法与一系列代表性的开源和专有模型进行了比较,这些基线涵盖了不同参数规模和架构类型,确保了评估的全面性和说服力。

5.3.1. 70B+ 参数模型 (或类似规模)

  • Mixtral-8x22B (Jiang et al., 2024):一个大型的混合专家 (MoE) 模型,以其高性能和计算效率而闻名。
  • Llama-3-70B (AI @ Meta, 2024):Meta AI 推出的最先进的开源密集模型,被广泛认为是 GPT-4 级别的模型。
  • Qwen1.5-72B (Qwen Team, 2024a)Qwen1.5-110B (Qwen Team, 2024b):Qwen2 的前身,用于展示 Qwen 系列的迭代进步。

5.3.2. 30B+ 密集模型和 40B+ MoE 模型 (或类似规模)

  • Mixtral-8x7B (Jiang et al., 2024):另一个著名的 MoE 模型,激活参数量与 Qwen2-57B-A14B 接近。
  • Jamba (Lieber et al., 2024):一个结合 Transformer 和 Mamba 架构的混合模型。
  • Yi-1.5-34B (Young et al., 2024)01.AI 推出的高性能开源密集模型。
  • Qwen1.5-32B (Qwen Team, 2024a):Qwen2 的前身,用于同参数区间的对比。

5.3.3. 7B-9B 参数模型

  • Mistral-7B-v0.2 (Jiang et al., 2023a):一个高效、高性能的 7B 级别开源模型。
  • Gemma-7B (Mesnard et al., 2024):Google 推出的开源模型系列中的 7B 版本。
  • Llama-3-8B (AI @ Meta, 2024):Llama-3 系列的 8B 版本,在 Chatbot Arena 表现优异。
  • Yi-1.5-9B (Young et al., 2024)01.AI 推出的 9B 级别模型。
  • GLM-4-9B (Zeng et al., 2024):清华大学智谱 AI 推出的 9B 级别模型。
  • Qwen1.5-7B (Qwen Team, 2024a):Qwen2 的前身,用于同参数区间的对比。

5.3.4. 小型模型 (0.5B-2B 参数)

  • Phi-2 (Abdin et al., 2024):微软推出的“小而强大”的模型,以其在高质量数据训练下的卓越性能而闻名。
  • Gemma-2B (Mesnard et al., 2024):Gemma 系列的 2B 版本。
  • Qwen1.5-1.8B (Qwen Team, 2024a)Qwen1.5-0.5B (Qwen Team, 2024a):Qwen2 的前身,用于同参数区间的对比。

5.3.5. 专有模型 (Proprietary LLMs)

  • GPT-3.5-Turbo-1106 (OpenAI), GPT-4-Turbo-0409 (OpenAI), GPT-4o-0513 (OpenAI):OpenAI 的顶尖模型,用于在多语言和安全性评估中进行对比。

  • Claude-3-Opus-0229 (Anthropic):Anthropic 的顶尖模型,用于在多语言评估中进行对比。

  • Qwen-Max-0428 (Alibaba):阿里巴巴的内部顶尖模型,用于内部评估基准的对比。

    这些基线模型确保了 Qwen2 的性能是在当前 LLM 领域中全面、公正且具有代表性的。

6. 实验结果与分析

为了彻底评估 Qwen2 模型,包括基础模型和指令微调模型,研究团队实施了全面的评估协议。本节将详细展示实验结果并进行分析。

6.1. 基础语言模型评估

6.1.1. Qwen2-72B

以下是原文 Table 2 的结果:

Datasets Mixtral-8x22B Llama-3-70B Qwen1.5-72B Qwen1.5-110B Qwen2-72B
English
MMLU 77.8 79.5 77.5 80.4 84.2
MMLU-Pro 49.5 52.8 45.8 49.4 55.6
GPQA 34.3 36.3 36.3 35.9 37.9
Theorem QA 35.9 32.3 29.3 34.9 43.1
BBH 78.9 81.0 65.5 74.8 82.4
HellaSwag 88.7 88.0 86.0 87.5 87.6
Winogrande 85.0 85.3 83.0 83.5 85.1
ARC-C 70.7 68.8 65.9 69.6 68.9
TruthfulQA 51.0 45.6 59.6 49.6 54.8
Coding
HumanEval 46.3 48.2 46.3 54.3 64.6
MBPP 71.7 70.4 66.9 70.9 76.9
EvalPlus 54.1 54.8 52.9 57.7 65.4
MultiPL-E 46.7 46.3 41.8 52.7 59.6
Mathematics
GSM8K 83.7 83.0 79.5 85.4 89.5
MATH 41.7 42.5 34.1 49.6 51.1
Chinese
C-Eval 54.6 65.2 84.1 89.1 91.0
CMMLU 53.4 67.2 83.5 88.3 90.1
Multilingual
Exam 63.5 70.0 66.4 75.6 76.6
Understanding 77.7 79.9 78.2 78.2 80.7
Mathematics 62.9 67.1 61.7 64.4 76.0
Translation 23.3 38.0 35.6 36.2 37.8

Table 2: Performance of the 70B+ models. We compare Qwen2-72B with the baselines, including Mixtral-8x22B, Llama-3-70B, Qwen1.5-72B, and Qwen1.5-110B. For most datasets, Qwen2-72B demonstrates advantages over the baselines.

分析: Qwen2-72B 作为 Qwen2 系列的旗舰基础模型,在与同级别和更大规模的开源模型(Mixtral-8x22B, Llama-3-70B, Qwen1.5-72B, Qwen1.5-110B)的比较中,展现出了全面的领先优势。

  • 英语能力:Qwen2-72B 在 MMLU 和 MMLU-Pro 上分别以 84.2 和 55.6 的得分领先 Llama-3-70B 4.7 和 2.8 个百分点,表明其在通用知识理解和多任务处理能力上的优越性。在科学评估中,GPQA (37.9) 和 Theorem QA (43.1) 的得分也分别比 Llama-3-70B 高出 1.6 和 9.8 个百分点,这可能得益于预训练数据中高质量的科学内容。在 BBH (82.4) 上与 Llama-3-70B (81.0) 相当,但在 HellaSwag 和 Winogrande 上略低于 Llama-3-70B。

  • 编码能力:Qwen2-72B 在 HumanEval (64.6)、MBPP (76.9)、EvalPlus (65.4) 和 MultiPL-E (59.6) 上均显著优于所有基线模型。特别是与 Qwen1.5-72B 相比,HumanEval 提升了 18.3 个百分点,MBPP 提升了 10.0 个百分点,这直接验证了预训练阶段编码数据增强的有效性。

  • 数学能力:在 GSM8K (89.5) 和 MATH (51.1) 上,Qwen2-72B 同样表现卓越,分别比 Qwen1.5-72B 高出 10.0 和 17.0 个百分点,也明显优于 Llama-3-70B。这归因于数学相关数据的丰富。

  • 汉语能力:Qwen2-72B 在 C-Eval (91.0) 和 CMMLU (90.1) 上以压倒性优势领先 Mixtral-8x22B 和 Llama-3-70B,并超越了 Qwen1.5-72B 和 Qwen1.5-110B,表明其强大的中文理解能力。

  • 多语言能力:在多语言考试、理解和数学任务上,Qwen2-72B 均展现出领先性能,但在翻译任务上表现一般。

    总体而言,Qwen2-72B 实现了全面的性能提升,尤其在编码、数学和中文理解方面表现突出,并接近或超越了当前最先进的开源模型。

6.1.2. Qwen2-57B-A14B (MoE 模型)

以下是原文 Table 3 的结果:

Datasets Jamba Mixtral-8x7B Yi-1.5-34B Qwen1.5-32B Qwen2-57B-A14B
Architecture MoE MoE Dense Dense MoE
# Act Params 12B 12B 32B 34B 14B
# Params 52B 47B 32B 34B 57B
English
MMLU 67.4 71.8 77.1 74.3 76.5
MMLU-Pro - 41.0 48.3 44.0 43.0
GPQA 29.2 - 30.8 34.3
Theorem QA - 23.2 - 28.8 33.5
BBH 45.4 50.3 76.4 66.8 67.0
HellaSwag 87.1 86.5 85.9 85.0 85.2
Winogrande ARC-C 82.5 81.9 84.9 81.5 79.5
TruthfulQA 64.4 66.0 65.6 63.6 64.1
Coding
HumanEval 29.3 37.2 46.3 43.3 53.0
MBPP - 63.9 65.5 64.2 71.9
EvalPlus 46.4 51.9 50.4 57.2
MultiPL-E 39.0 39.5 38.5 49.8
Mathematics
GSM8K 59.9 62.5 82.7 76.8 80.7
MATH - 30.8 41.7 36.1 43.0
Chinese
C-Eval - 83.5 87.7
CMMLU 84.8 82.3 88.5
Multilingual
Exam 56.1 58.3 61.6 65.5
Understanding 70.7 73.9 76.5 77.0
Mathematics 45.0 49.3 56.1 62.3
Translation 29.8 30.0 33.5 34.5

Table 3: Performance of the 30B+ dense models and 40B+ MoE models. Qwen2-57B-A14B, an MoE model with a total of 57 billion parameters and 14 billion activated parameters, is designed to match the performance of 30 billion parameter dense models. This comparison includes dense model baselines: Yi-1.5-34B and Qwen1.5-32B, as well as MoE baselines: Mixtral-8x7B and Jamba. Results demonstrate that Qwen2-57B-A14B achieves competitive performance overall, with a notable superiority in coding and mathematics tasks.

分析: Qwen2-57B-A14B 是一个具有 570 亿总参数和 140 亿激活参数的 MoE 模型,旨在与 300 亿参数的密集模型匹敌。

  • 英语能力:Qwen2-57B-A14B 在 MMLU (76.5) 上与 Yi-1.5-34B (77.1) 相当,并优于 Mixtral-8x7B (71.8)。在 GPQA (34.3) 和 Theorem QA (33.5) 上,Qwen2-57B-A14B 也优于 Mixtral-8x7B 和 Qwen1.5-32B。这表明其在自然语言理解任务上具有与 30B 级别密集模型相当的性能。

  • 编码与数学能力:该模型在 HumanEval (53.0)、MBPP (71.9)、EvalPlus (57.2)、MultiPL-E (49.8) 等编码任务上显著优于所有基线模型(包括 Yi-1.5-34B 和 Mixtral-8x7B)。在 GSM8K (80.7) 和 MATH (43.0) 等数学任务上也表现出色,超越了 Mixtral-8x7B 和 Qwen1.5-32B,并与 Yi-1.5-34B 持平或略优。

  • 中文能力:Qwen2-57B-A14B 在 C-Eval (87.7) 和 CMMLU (88.5) 上表现出强大的中文理解能力,甚至可以与更大的 Qwen2-72B 模型相媲美。

  • 多语言能力:在多语言考试、理解和数学任务上,Qwen2-57B-A14B 均优于所有基线模型。

    总而言之,Qwen2-57B-A14B 是一款高效模型,尽管每次前向传播仅激活 140 亿参数,但其整体性能与 300 亿参数的密集模型相当,尤其在编码和数学任务中表现出卓越的竞争力,并且在中文理解上表现尤为突出。

6.1.3. Qwen2-7B

以下是原文 Table 4 的结果:

Datasets Mistral-7B Gemma-7B Llama-3-8B Qwen1.5-7B Qwen2-7B
English
MMLU 64.2 64.6 66.6 61.0 70.3
MMLU-Pro 30.9 33.7 35.4 29.9 40.0
GPQA 24.7 25.7 25.8 26.7 31.8
Theorem QA 19.2 21.5 22.1 14.2 31.1
BBH 56.1 55.1 57.7 40.2 62.6
HellaSwag 83.2 82.2 82.1 78.5 80.7
Winogrande 78.4 79.0 77.4 71.3 77.0
ARC-C 60.0 61.1 59.3 54.2 60.6
TruthfulQA 42.2 44.8 44.0 51.1 54.2
Coding
HumanEval 29.3 37.2 33.5 36.0 51.2
MBPP 51.1 50.6 53.9 51.6 65.9
Evalplus 36.4 39.6 40.3 40.0 54.2
MultiPL-E 29.4 29.7 22.6 28.1 46.3
Mathematics
GSM8K 52.2 46.4 56.0 62.5 79.9
MATH 13.1 24.3 20.5 20.3 44.2
Chinese
C-Eval 47.4 43.6 49.5 74.1 83.2
CMMLU - - 50.8 73.1 83.9
Multilingual
Exam 47.1 42.7 52.3 47.7 59.2
Understanding 63.3 58.3 68.6 67.6 72.0
Mathematics 26.3 39.1 36.3 37.3 57.5
Translation 23.3 31.2 31.9 28.4 31.5

Table 4: Performance of the 7B+ models. We compare Qwen2-7B with previously released state-of-the-art 7B+ models including Mixtral-7B, Gemma-7B, Llama-3-8B, and our previous Qwen1.5-7B. Qwen2-7B demonstrates significant advantages over the baselines in most of the evaluation datasets.

分析: 7B 模型因其在配备 16GB 内存的加速器上以 16 位浮点数运行时易于部署而广受欢迎。

  • 全面优势:Qwen2-7B 在大多数数据集上表现出优于其他模型的性能,特别是其前身 Qwen1.5-7B,在 MMLU (70.3 vs 61.0)、BBH (62.6 vs 40.2)、HumanEval (51.2 vs 36.0)、GSM8K (79.9 vs 62.5)、MATH (44.2 vs 20.3) 上都有显著提升。

  • 编码与数学能力:Qwen2-7B 在 HumanEval (51.2)、MBPP (65.9)、EvalPlus (54.2) 和 MultiPL-E (46.3) 等编码任务上遥遥领先于所有基线,包括 Llama-3-8B。在 GSM8K (79.9) 和 MATH (44.2) 等数学任务上也表现非常出色,大幅超越了 Llama-3-8B。

  • 中文能力:在 C-Eval (83.2) 和 CMMLU (83.9) 上,Qwen2-7B 同样显著优于 Llama-3-8B 和其他基线,展现出强大的中文理解能力。

  • 多语言能力:在多语言考试 (59.2)、理解 (72.0) 和数学 (57.5) 任务上,Qwen2-7B 也表现出强大性能,但在翻译任务上表现一般。

    这些结果表明 Qwen2-7B 针对广泛的语言和基于逻辑的任务进行了优化,展示了其多功能性和先进能力。

6.1.4. Qwen2-1.5B & Qwen2-0.5B

以下是原文 Table 5 的结果:

Datasets Phi-2 Gemma-2B Qwen1.5-1.8B Qwen2-0.5B Qwen2-1.5B
# Non-Emb Params 2.5B 2.0B 1.2B 0.3B 1.2B
MMLU 52.7 42.3 46.8 45.4 56.5
MMLU-Pro - 15.9 - 14.7 21.8
Theorem QA - - 8.9 15.0
BBH 43.4 35.2 24.2 28.4 37.2
HellaSwag 73.1 71.4 61.4 49.3 66.6
Winogrande 74.4 66.8 60.3 56.8 66.2
ARC-C 61.1 48.5 37.9 31.5 43.9
TruthfulQA 44.5 33.1 39.4 39.7 45.9
HumanEval 47.6 22.0 20.1 22.0 31.1
MBPP 55.0 29.2 18.0 22.0 37.4
GSM8K 57.2 17.7 38.4 36.5 58.5
MATH 3.5 11.8 10.1 10.7 21.7
C-Eval 23.4 28.0 59.7 58.2 70.6
CMMLU 24.2 - 57.8 55.1 70.3

Table 5: Performance of the smaller models. We compare our Qwen2-0.5B and Qwen2-1.5B with the previous SOTA small models including Phi-2, Gemma-2B and Qwen1.5-1.8B. Qwen2-0.5B with a much smaller model size achieves competitive performance, and Qwen2-1.5B significantly outperforms Qwen2-0.5B.

分析:

  • Qwen2-1.5B:在 MMLU (56.5) 上超越了 Phi-2 (52.7),Phi-2 是以高质量教科书式数据训练的模型,这表明 Qwen2-1.5B 在语言理解方面取得了显著进步。在 HumanEval (31.1) 和 MBPP (37.4) 等编码任务上,Qwen2-1.5B 优于 Gemma-2B 和 Qwen1.5-1.8B,但仍略低于 Phi-2。在 GSM8K (58.5) 和 MATH (21.7) 等数学任务上,Qwen2-1.5B 表现最佳,显著优于所有竞争对手。在 TruthfulQA (45.9) 上表现最好,表明小模型不一定受幻觉 (hallucination) 问题困扰。

  • Qwen2-0.5B:尽管参数规模更小,Qwen2-0.5B 在编码任务(HumanEval 22.0 vs Gemma-2B 22.0, Qwen1.5-1.8B 20.1)上与 Gemma-2B 和 Qwen1.5-1.8B 相当,并在数学任务(GSM8K 36.5, MATH 10.7)上表现出竞争力。

  • 中文能力:Qwen2 的两个小模型在 C-Eval 和 CMMLU 上均显著优于所有其他小模型,这与大模型的表现趋势一致。

  • 推理能力:在通用推理任务(如 BBH, HellaSwag, Winogrande, ARC-C)中,Phi-2 通常优于所有其他模型,这在一定程度上反映了教科书式数据对推理能力的重要性。

    总体而言,Qwen2 系列在不同模型尺寸下均展现出优于基线的性能。Qwen2-72B 表现最佳,印证了模型规模缩放的有效性。

6.2. 指令微调模型评估

6.2.1. Qwen2-72B-Instruct

以下是原文 Table 6 的结果:

Datasets Mixtral-8x22B Llama-3-70B Qwen1.5-72B Qwen1.5-110B
English
MMLU 74.0 82.0 75.6 76.5 82.3
MMLU-Pro 56.1 56.2 51.7 50.5 64.4
GPQA 49.7 41.9 39.4 32.8 42.4
Theorem QA 40.8 42.5 28.8 18.8 44.4
Coding
HumanEval 73.8 81.7 71.3 74.4 86.0
MBPP 75.9 82.3 71.9 76.4 80.2
MultiPL-E 61.1 63.4 48.1 55.4 69.2
LiveCodeBench v1 21.8 29.3 17.9 25.3 35.7
Mathematics
GSM8K 89.1 93.0 82.7 84.5 93.2
MATH 47.4 50.4 42.5 42.0 69.0
Alignment
MT-Bench 8.66 8.95 8.61 8.88 9.12
MixEval 82.3 84.0 84.1 85.7 86.7
Arena-Hard 36.4 41.1 36.1 39.8 48.1
IFEval strict-prompt 67.1 77.3 55.8 57.5 77.6
AlignBench - 7.42 7.28 7.87 8.27

Table 6: Performance of 70B+ instruction-tuned models. We compare Qwen2-72B-Instruct with Mixtral-8x22B-Instruct, Llama-3-70B-Instruct, Qwen1.5-72B-Chat, and Qwen1.5-110B-Chat. "Instruct" or "-Chat" is omitted in the table. Qwen2-72B-Instruct demonstrates advantages in core capabilities, and superior performance in human preference alignment.

分析: Qwen2-72B-Instruct 与其他指令微调模型(Mixtral-8x22B-Instruct, Llama-3-70B-Instruct, Qwen1.5-72B-Chat, Qwen1.5-110B-Chat)的比较显示,强大的基础语言模型有助于提升指令微调模型的下游性能。

  • 核心能力:Qwen2-72B-Instruct 在语言理解(MMLU 82.3, MMLU-Pro 64.4, Theorem QA 44.4)、编码(HumanEval 86.0, MultiPL-E 69.2, LiveCodeBench v1 35.7)和数学(MATH 69.0)等领域表现突出,优于大多数基线。在 GPQA (42.4) 和 MBPP (80.2) 上与 Llama-3-70B 略有差距。
  • 人类偏好对齐与指令遵循:Qwen2-72B-Instruct 在 MT-Bench (9.12)、MixEval (86.7)、Arena-Hard (48.1)、IFEval (77.6) 和 AlignBench (8.27) 等评估对齐和指令遵循的基准上具有显著优势。这表明其高质量的预训练模型、改进的后训练数据和训练技术共同带来了卓越的对齐性能。

6.2.2. Qwen2-57B-A14B-Instruct

以下是原文 Table 7 的结果:

Datasets Mixtral-8x7B Yi-1.5-34B Qwen1.5-32B Qwen2-57B-A14B
Architecture MoE Dense Dense MoE
# Act Params 12B 32B 34B 14B
# Params 47B 32B 34B 57B
English
MMLU 71.4 76.8 74.8 75.4
MMLU-Pro 43.3 52.3 46.4 52.8
GPQA - - 30.8 34.3
Theorem QA - 30.9 33.1
Coding
HumanEval 45.1 75.2 68.3 79.9
MBPP 59.5 74.6 67.9 70.9
MultiPL-E - 50.7 66.4
LiveCodeBench v1 12.3 - 15.2 25.5
Mathematics
GSM8K 65.7 90.2 83.6 85.3
MATH 30.7 50.1 42.4 49.1
Alignment
MT-Bench 8.30 8.50 8.30 8.55
MixEval 70.0 81.7 81.0 82.3
IFEval strict-prompt - 50.3 59.9
AlignBench 5.70 7.20 7.19 7.36

Table 7: Performance of 30B+ dense and 40B+ MoE instruction-tuned models. We compare Qwen2-57B-A14B-Instruct with the similar-size MoE model Mixtral-8x7B-Instruct, 30B dense models such as Yi-1.5-34B-Chat and Qwen1.5-32B-Chat. "-Instruct" or "-Chat" is omitted in the table. Qwen2-57B-A14B-Instruct is competitive with the recent SOTA 30B dense models, and significantly outcompetes the MoE baseline.

分析: Qwen2-57B-A14B-Instruct 与 Mixtral-8x7B-Instruct (MoE 基线) 以及 Yi-1.5-34B-Chat 和 Qwen1.5-32B-Chat (30B 密集基线) 进行比较。

  • 与 Qwen1.5-32B-Chat 相比:Qwen2-57B-A14B-Instruct 在几乎所有基准测试中都表现出卓越性能。

  • 与 SOTA 30B 密集模型相比:与 Yi-1.5-34B-Chat 相比,Qwen2-57B-A14B-Instruct 在除数学任务外的大多数评估中都取得了优势。尤其是在编码任务(HumanEval 79.9 vs 75.2, MultiPL-E 66.4 vs -)和指令遵循(IFEval 59.9 vs 50.3)上。

  • 对齐表现:在对齐评估方面,Qwen2-57B-A14B-Instruct 的优势尤为明显,在 MT-Bench (8.55)、MixEval (82.3) 和 AlignBench (7.36) 上均表现领先。

    这表明,Qwen2-57B-A14B-Instruct 即使激活参数较少,也能与最新的 SOTA 30B 密集模型竞争,并显著超越 MoE 基线。

6.2.3. Qwen2-7B-Instruct

以下是原文 Table 8 的结果:

Datasets Llama-3-8B Yi-1.5-9B GLM-4-9B Qwen1.5-7B Qwen2-7B
English
MMLU 68.4 69.5 72.4 59.5 70.5
MMLU-Pro 41.0 - - 29.1 44.1
GPQA 34.2 - 27.8 34.3
Theorem QA 23.0 - 14.1 25.3
Coding
HumanEval 62.2 66.5 71.8 46.3 79.9
MBPP 67.9 - - 48.9 67.2
MultiPL-E 48.5 27.2 59.1
LiveCodeBench v1 17.3 - 6.0 26.6
Mathematics
GSM8K 79.6 84.8 79.6 60.3 85.7
MATH 30.0 47.7 50.6 23.2 52.9
Alignment
MT-Bench 8.05 8.20 8.35 7.60 8.41
MixEval 75.0 74.2 - 71.4 76.5
IFEval strict-prompt 72.1 - 69.0 38.3 54.7
AlignBench 6.20 6.90 7.01 6.20 7.21

Table 8: Performance of 7B+ instruction-tuned models. We compare Qwen2-7B-Instruct with the recent SOTA models with 7-9 billion parameters, including Llama-3-8B-Instruct, Yi-1.5-9B-Chat, GLM-4-9B-Chat, and Qwen1.5-7B-Chat. "-Instruct" or "-Chat" is omitted in the table. Qwen2-7B-Instruct demonstrates competitive performance against Llama-3-8B-Instruct.

分析: Qwen2-7B-Instruct 与 7-9B 参数区间的 SOTA 模型(Llama-3-8B-Instruct, Yi-1.5-9B-Chat, GLM-4-9B-Chat, Qwen1.5-7B-Chat)进行比较。

  • 相对于前身:Qwen2-7B-Instruct 比其前身 Qwen1.5-7B-Chat 有了显著进步,尤其在编码和数学任务上得分更高。
  • 与 Llama-3-8B-Instruct 相比:Qwen2-7B-Instruct 展现出竞争力,在编码任务(HumanEval 79.9 vs 62.2, MultiPL-E 59.1 vs 48.5, LiveCodeBench v1 26.6 vs 17.3)上表现优异。在数学任务(GSM8K 85.7 vs 79.6, MATH 52.9 vs 30.0)上也显著领先。
  • 指令遵循:在 IFEval strict-prompt 上,Qwen2-7B-Instruct (54.7) 仍落后于 Llama-3-8B-Instruct (72.1) 和 GLM-4-9B-Chat (69.0)。这表明在指令遵循方面仍有改进空间。研究团队计划通过增强后训练数据质量来解决这一限制。

6.2.4. Qwen2-1.5B-Instruct & Qwen2-0.5B-Instruct

以下是原文 Table 9 的结果:

Datasets Qwen1.5-0.5B Qwen2-0.5B Qwen1.5-1.8B Qwen2-1.5B
MMLU 35.0 37.9 43.7 52.4
HumanEval 10.4 29.9 27.4 47.0
MBPP 14.5 37.8 28.6 51.9
GSM8K 11.3 40.1 35.3 61.6
IFEval strict-prompt 14.6 20.0 16.8 29.0

Table 9: Performance of smaller instruction-tuned models. We compare both Qwen2-0.5B-Instruct and Qwen2-1.5B-Instruct with Qwen1.5-0.5B-Chat and Qwen2-1.8B-Chat. "-Instruct" or "-Chat" is omitted in the table. Compared with the similar-size baselines, Qwen2 significant surpasses the performance of Qwen1.5.

分析: 在小型模型领域,Qwen2-0.5B-Instruct 和 Qwen2-1.5B-Instruct 与其前身 Qwen1.5-0.5B-Chat 和 Qwen1.5-1.8B-Chat 进行比较。

  • 显著提升:Qwen2 模型在核心能力(如 MMLU、HumanEval、MBPP、GSM8K)和指令遵循任务上均表现出显著优势。例如,Qwen2-1.5B 在 MMLU 上从 Qwen1.5-1.8B 的 43.7 提升到 52.4,HumanEval 从 27.4 提升到 47.0。Qwen2-0.5B 也有类似但幅度较小的提升。
  • 数据缩放的有效性:这一成就主要归因于预训练数据的扩增。结果证实,即使对于参数低于 10 亿的模型,数据缩放仍然是提升模型性能的有效策略。

6.3. 内部自动评估

6.3.1. 中文评估

以下是原文 Table 10 的结果:

Models Knowledge Exam Comprehension Coding Math Reasoning Avg.
Proprietary LLMs
GPT-4o-2024-05-13 66.68 69.04 76.85 59.58 71.16 69.94 68.87
Qwen-Max-0428 76.65 74.80 73.66 49.48 66.01 70.84 68.57
Qwen1.5 Series
Qwen1.5-0.5B-Chat 28.55 36.99 29.70 3.82 13.10 25.47 22.94
Qwen1.5-1.8B-Chat 30.31 44.98 44.81 6.86 29.85 34.61 31.90
Qwen1.5-4B-Chat 33.67 47.17 50.44 14.05 36.20 39.98 36.92
Qwen1.5-MoE-A2.7B-Chat 52.76 60.49 52.84 19.34 38.45 43.07 44.49
Qwen1.5-7B-Chat 56.77 59.36 55.50 18.85 46.41 48.77 47.61
Qwen1.5-14B-Chat 63.35 66.13 60.06 28.19 54.80 50.20 53.79
Qwen1.5-32B-Chat 68.63 67.59 64.67 35.28 60.62 62.87 59.94
Qwen1.5-72B-Chat 71.52 70.04 66.70 38.22 63.09 61.30 61.81
Qwen1.5-110B-Chat 76.26 74.00 71.25 44.25 64.92 64.47 65.86
Qwen2 Series
Qwen2-0.5B-Instruct 28.18 38.09 35.90 9.40 21.20 25.61 26.40
Qwen2-1.5B-Instruct 35.46 51.93 44.70 14.05 34.58 35.94 36.11
Qwen2-7B-Instruct 61.54 66.66 59.63 34.74 60.99 58.22 56.96
Qwen2-57B-A14B-Instruct 64.15 73.67 67.52 40.66 63.90 59.89 61.63
Qwen2-72B-Instruct 76.19 75.65 74.72 49.53 70.80 70.59 69.58

Table 10: Performances of Qwen2-Instruct models on our in-house Chinese automatic evaluation benchmark. Scores of Qwen2 models surpassing their comparable-sized Qwen1.5 counterparts are in bold. Qwen2-57B-A14B-Instruct is compared with Qwen1.5-32B-Chat.

分析: 在中文内部评估中,Qwen2 模型普遍优于 Qwen1.5 系列。

  • 小型模型:Qwen2-1.5B-Instruct (平均 36.11) 在几乎所有评估项上都超越了参数更多的 Qwen1.5-1.8B-Chat (平均 31.90)。
  • 7B 模型:Qwen2-7B-Instruct (平均 56.96) 的优势更为显著,尤其在 Coding (34.74 vs 18.85) 和 Math (60.99 vs 46.41) 上。
  • 旗舰模型:Qwen2-72B-Instruct (平均 69.58) 表现卓越,甚至超越了参数更大的 Qwen1.5-110B-Chat (平均 65.86),尽管后者拥有更多的参数。
  • MoE 模型:Qwen2-57B-A14B-Instruct (平均 61.63) 在大多数领域优于 Qwen1.5-32B-Chat (平均 59.94),但在 Knowledge (64.15 vs 68.63) 上略低,这可能是因为 MoE 模型预训练词元数量(4.5T)少于 32B 密集模型(7T)。

6.3.2. 英文评估

以下是原文 Table 11 的结果:

Models Knowledge Comprehension Coding Math Avg.
Proprietary LLMs
GPT-4o-2024-05-13 87.29 76.30 55.87 84.99 76.11
Qwen-Max-0428 80.73 71.63 48.76 79.12 70.06
Qwen1.5 Series
Qwen1.5-0.5B-Chat 30.12 25.44 1.78 15.48 18.21
Qwen1.5-1.8B-Chat 40.37 41.87 4.99 29.71 29.23
Qwen1.5-4B-Chat 51.44 50.16 15.45 44.83 40.47
Qwen1.5-MoE-A2.7B-Chat 61.64 54.79 21.28 50.46 47.04
Qwen1.5-7B-Chat 64.86 58.61 20.79 54.24 49.62
Qwen1.5-14B-Chat 74.41 59.80 28.18 66.91 57.32
Qwen1.5-32B-Chat 76.38 64.70 37.39 73.04 62.88
Qwen1.5-72B-Chat 77.59 67.58 37.30 73.76 64.06
Qwen1.5-110B-Chat 78.29 70.17 44.12 78.87 67.86
Llama-3 Series
Llama-3-8B-Instruct 71.01 64.71 42.56 65.82 61.03
Llama-3-70B-Instruct 83.06 76.31 57.18 79.70 74.06
Qwen2 Series
Qwen2-0.5B-Instruct 43.19 29.57 6.95 31.52 27.81
Qwen2-1.5B-Instruct 56.03 45.08 17.61 50.44 42.29
Qwen2-7B-Instruct 73.75 63.09 36.41 75.67 62.23
Qwen2-57B-A14B-Instruct 76.80 67.92 42.37 77.04 66.03
Qwen2-72B-Instruct 83.00 73.58 53.03 82.15 72.94

Table 11: Performances of Qwen2-Instruct models on our in-house English automatic evaluation benchmark. Scores of Qwen2 models surpassing their comparable-sized Qwen1.5 and Llama-3 counterparts are in bold. Qwen2-57B-A14B-Instruct is compared with Qwen1.5-32B-Chat.

分析: 在英文内部评估中,Qwen2 模型与 Qwen1.5 和 Llama-3 进行比较。

  • 小型模型:Qwen2 的小模型显著优于 Qwen1.5 的对应版本。例如,Qwen2-1.5B-Instruct (平均 42.29) 远超 Qwen1.5-1.8B-Chat (平均 29.23)。
  • 与 Llama-3 相比:Qwen2-72B-Instruct (平均 72.94) 略低于 Llama-3-70B-Instruct (平均 74.06),尤其在 Comprehension (73.58 vs 76.31) 和 Coding (53.03 vs 57.18) 上有小幅差距。研究团队推测,英文预训练词元数量以及后训练数据的数量和多样性可能是导致这一性能差距的原因。

6.4. 长上下文能力

研究团队采用了三种方法评估长上下文能力:针在干草堆测试 (Needle in a Haystack, NIAH)NeedleBenchLV-Eval

6.4.1. 针在干草堆测试 (Needle in a Haystack)

这项实验评估模型在海量文本中精确识别事实的能力。研究团队创建了长度为 8K、16K、...、128K 词元 (tokens) 的文本,并将事实战略性地放置在不同的深度。每个深度区间(例如从 0% 到 10%)包含两个实例。对于超过 32K 词元的上下文,此评估中应用了 YARN (Peng et al., 2023) 机制。

以下是原文 Figure 1 的图像:

Figure 1: Performance of Qwen2 instruction-tuned models on Needle in A Haystack Test. All models that supports context lengths above 32k tokens integrates the YARN mechanism. 该图像是图表,展示了Qwen2系列指令微调模型在《针在干草堆测试》中的表现,横坐标为上下文长度(# Tokens),纵坐标为放置事实文档深度。不同模型针对不同上下文长度的表现差异明显,特别是在72B和1.5B模型上有显著效果。

Figure 1: Performance of Qwen2 instruction-tuned models on Needle in A Haystack Test. All models that supports context lengths above 32k tokens integrates the YARN mechanism.

分析: 从 Figure 1 可以看出,Qwen2-72B-Instruct 在检索整个 128K 上下文中的信息时表现出卓越的准确性,在所有上下文长度和深度上几乎都保持 100% 的准确率。这表明 Qwen2-72B-Instruct 是处理广泛文本的最佳选择,前提是资源充足。此外,同一系列中的其他模型在不同上下文长度下也展现出显著性能。具体来说,Qwen2-7B-Instruct 在处理高达 128K 词元上下文时达到了高水平的准确性,而 Qwen2-57B-A14B-Instruct 能够熟练处理高达 64K 词元的上下文。Qwen2 系列中两个较小的模型也能支持 32K 词元的上下文。这验证了 DCA 和 YARN 机制在提升 Qwen2 长上下文能力方面的有效性。

6.4.2. NeedleBench 和 LV-Eval

以下是原文 Table 12 的结果:

Datasets NeedleBench LV-Eval
8k 32k 128k 256k 16k 32k 64k 128k 256k
ChatGLM4-9B-1M 56.61 49.15 44.30 45.29 46.40 43.23 42.92 40.41 36.95
Qwen2-7B-Instruct + YARN + DCA 87.07 73.64 38.77 2.92 49.77 46.93 28.03 11.01 0.55
Qwen2-72B-Instruct + YARN + DCA 91.90 92.01 73.05 17.13 58.82 56.70 42.92 31.79 2.88

Table 12: Performance of Qwen2-72B-Instruct and Qwen2-7B-Instruct on NeedleBench and LV-Eval. +YARN+DCA does not change the model behavior within 32k tokens.

分析:

  • NeedleBench:NeedleBench 通过在文本中包含多个事实(二到五个)来增加 NIAH 的挑战,需要同时识别和多跳推理。Table 12 显示,YARN 和 DCA (An et al., 2024) 的整合显著提高了 Qwen2 模型的长上下文能力。

    • Qwen2-7B-Instruct (在 8k 和 32k 上分别为 87.07 和 73.64) 优于声称具有 1M 上下文长度的 ChatGLM4-9B-1M (在 8k 和 32k 上分别为 56.61 和 49.15)。然而,Qwen2-7B-Instruct 在 128k 和 256k 上的性能下降较为明显。
    • Qwen2-72B-Instruct 展现出强大的性能,在 8k (91.90) 和 32k (92.01) 长度下保持高准确率,即使在 128k (73.05) 长度下,准确率下降也仅为约 6 个百分点(与 ChatGLM4-9B-1M 的 11 个百分点下降相比),尤其考虑到其初始准确率更高。
  • LV-Eval:LV-Eval 包含 11 个多样化的 QA 数据集,需要同时理解多条证据。为了修正其原始指标过于严格导致高假阴性率的缺点,研究团队采用了关键词召回 (keyword recall) 作为报告分数。

    • 如 Table 12 所示,YARN 和 DCA 的整合显著提升了 Qwen2 模型在 LV-Eval 上的长上下文能力。
    • Qwen2-7B-Instruct (在 16k 为 49.77, 32k 为 46.93) 与 ChatGLM4-9B-1M 性能相当 (在 16k 为 46.40, 32k 为 43.23),但在更长的上下文(如 64k 及以上)下,其性能下降更为明显。
    • Qwen2-72B-Instruct (在 16k 为 58.82, 32k 为 56.70, 64k 为 53.03) 在所有长度下都表现出强大性能,证实了其处理长上下文任务的能力。

6.5. 多语言评估

以下是原文 Table 13 的结果:

Language GPT-3.5-Turbo GPT-4-Turbo GPT-4o Claude-3-Opus Qwen2-72B-Instruct
Arabic 2.52 3.44 3.55 4.15 3.86
French 3.47 4.19 4.16 4.23 4.01
Indonesian 3.56 4.09 4.39 4.40 3.83
Japanese 2.75 3.68 3.72 3.85 3.63
Korean 2.37 4.24 4.40 4.23 4.14
Portuguese 3.37 3.86 3.89 4.09 3.97
Russian 3.24 4.27 4.32 4.25 4.15
Spanish 4.07 4.08 4.26 4.31 4.10
Thai 3.38 4.11 4.09 4.01 3.75
Vietnamese 3.90 3.84 4.14 3.98 3.91
Average 3.16 3.98 4.09 4.15 3.93

Table 13: Performance of Qwen2-72B-Instruct and proprietary LLMs in multilingual human evaluation. We compare Qwen2-72B-Instruct with GPT-3.5-Turbo-1106, GPT-4-Turbo-0409, GPT4o-0513, Claude-3-Opus-0229. Scores range from 1 to 5. Overall, Qwen2-72B-Instruct performs substantially better than GPT-3.5-Turbo but there is progress to be made to be competitive with the proprietary models released in the last 6 months.

分析: 在多语言人工评估中,Qwen2-72B-Instruct 与 GPT-3.5-Turbo-1106, GPT-4-Turbo-0409, GPT-4o-0513 和 Claude-3-Opus-0229 进行比较,分数为 1 到 5。

  • 显著超越 GPT-3.5-Turbo:Qwen2-72B-Instruct (平均 3.93) 显著优于 GPT-3.5-Turbo (平均 3.16),这表明其大规模多语言预训练和指令微调数据对多语言能力的贡献巨大。

  • 与 GPT-4-Turbo 竞争:Qwen2-72B-Instruct 与 GPT-4-Turbo (平均 3.98) 表现相当,但在某些语言上(如阿拉伯语、印尼语、泰语)略有差距。

  • 与 GPT-4o 和 Claude-3-Opus 差距:与最新的专有模型 GPT-4o (平均 4.09) 和 Claude-3-Opus (平均 4.15) 相比,Qwen2-72B-Instruct 仍有提升空间。

    这表明 Qwen2-72B-Instruct 的多语言能力在开源模型中处于领先地位,并已具备与大多数 SOTA 专有 LLMs 竞争的能力。

6.6. 安全性与责任

以下是原文 Table 14 的结果:

Risk Category GPT-4 Mixtral-8x22B Qwen2-72B-Instruct
Illegal 0.00 6.87 0.00
Fraud 3.40 8.49 2.41
Pornography 23.63 33.82 22.91
Privacy 3.37 15.03 2.47

Table 14: Performance of models in safety evaluation. We compare Qwen2-72B-Instruct with GPT-4 and Mixtral-8x22B-Instruct. The lower, the better. Qwen2-72B-Instruct rejected more prompts with risks than the competitors.

分析: 在安全性评估中,Qwen2-72B-Instruct 与 GPT-4 和 Mixtral-8x22B-Instruct 进行比较,表中显示的是模型生成有害响应的比例,越低越好。

  • 优于 Mixtral-8x22B-Instruct:Qwen2-72B-Instruct 在所有风险类别中都显著优于 Mixtral-8x22B-Instruct,例如在 IllegalFraud 类别中表现出更强的拒绝能力。

  • 与 GPT-4 竞争:Qwen2-72B-Instruct 在 Illegal 类别与 GPT-4 持平 (均为 0.00),在 Fraud (2.41 vs 3.40) 和 Privacy (2.47 vs 3.37) 上甚至略优于 GPT-4。

  • 色情内容:在 Pornography 类别,尽管 Qwen2-72B-Instruct (22.91) 略优于 GPT-4 (23.63),但所有模型在该类别上的得分都相对较高,表明这是一个普遍难以区分的挑战性类别。

    这些结果表明 Qwen2-72B-Instruct 在安全性方面表现出色,优于 Mixtral-8x22B-Instruct,并与 GPT-4 具有竞争力。但研究团队也承认仍有很大的改进空间,尤其是在处理色情内容方面。

6.7. 污染分析 (Contamination Analysis)

以下是原文 Table 15 的结果:

Test set Percent of Qwen2-72B-Instruct Qwen2-7B-Instruct
Contamination Original Non-Contam. Original Non-Contam.
MMLU 11.2% 82.3 83.2 0.9 70.5 71.3 0.8
MMLU-Pro 11.6% 64.4 65.6 1.2 44.1 46.5 2.4
GPQA 1.0% 42.4 41.8 -0.6 34.3 34.1 -0.2
HumanEval 75.0% 86.0 87.0 1.0 79.9 87.8 7.9
MBPP 29.6% 80.2 79.7 -0.5 67.2 69.0 1.8
MultiPL-E 37.7% 69.2 69.2 0.0 59.1 58.9 -0.2
GSM8k 0.7% 93.2 92.8 -0.4 85.7 85.6 -0.1
Math 31.7% 69.0 74.6 5.6 52.9 57.6 4.7
IFEval 0.9% 77.6 77.4 -0.2 54.7 53.7 -1.0

Table 15: Contamination Analysis. The contaminated samples in this table are identified using a strict criterion: any test sample with a 13-gram overlap with the pre-training or post-training data is considered contaminated. We report the percentage of contaminated samples as well as the model performance on both the original and non-contaminated test sets.

分析: 数据污染分析旨在评估训练数据泄露对模型性能的影响。研究团队使用了严格的污染识别标准:任何与预训练或后训练数据有 13-gram 重叠的测试样本都被视为污染样本。

  • 污染率:某些数据集,如 HumanEval (75.0%)、MultiPL-E (37.7%) 和 MATH (31.7%),在严格标准下显示出较高的污染百分比。研究团队认为,这些高污染率的样本大部分是假阳性 (false positives),主要来源于数学和编码数据集。这可能是因为某些代码片段和数学公式非常常见,以至于它们在解决测试数据时并没有提供任何有意义的优势。

  • 性能影响:分析结果显示,Qwen2 模型在原始测试集和非污染测试集上的性能基本一致,性能差异 (Δ\Delta) 大多很小,甚至有些情况下非污染集上的性能反而略有提升(如 MMLU、MMLU-Pro、MATH)。这表明潜在的数据污染问题并未显著影响模型的性能。

    结论是,尽管严格的污染检测发现了一些重叠,但这些重叠并未对 Qwen2 模型的评估性能产生实质性影响,验证了模型在非污染数据上的泛化能力。

7. 总结与思考

7.1. 结论总结

本技术报告全面介绍了 Qwen2 系列,这是一个多功能的基础模型和指令微调语言模型套件,参数范围从 0.5 亿到 720 亿,涵盖了密集模型和混合专家 (Mixture-of-Experts, MoE) 架构。Qwen2 在性能上超越了其前身 Qwen1.5 和大多数现有的开源模型,并在语言理解、生成、多语言能力、编码、数学和推理等广泛基准测试中展现出与顶尖专有模型相当的竞争力。

本次更新特别关注了长上下文、多语言、编码、数学能力以及安全性和责任方面。通过引入 GQA、DCA 和 YARN 等先进架构优化,Qwen2 实现了高达 131K 词元的长上下文处理能力。在预训练和后训练阶段,通过大规模、高质量的数据工程以及结合 SFT 和 DPO 的高效对齐策略,显著提升了模型性能和人类偏好对齐。

为促进社区创新和可访问性,Qwen2 模型权重已全面开源,并提供了量化、微调和部署资源,使研究人员和开发者能够充分利用 Qwen2 的潜力进行各种应用和研究项目。这些努力旨在推动 AI 技术的发展及其对社会的积极影响。

7.2. 局限性与未来工作

论文中提及了 Qwen2 系列的当前局限性以及未来可能的研究方向:

  • MoE 模型预训练数据量:论文指出 Qwen2-57B-A14B (MoE 模型) 的预训练词元数量(4.5T)少于大型密集模型(7T)。在中文内部评估中,其在 Knowledge 任务上略低于 Qwen1.5-32B-Chat。研究团队计划在未来继续对 MoE 模型进行预训练,以探索其规模化行为,并可能进一步提升其性能。
  • 7B 模型指令遵循能力:Qwen2-7B-Instruct 在 IFEval strict-prompt 上的表现落后于一些竞争对手,表明其指令遵循能力仍有提升空间。研究团队计划通过增强后训练数据质量来解决这一限制,确保模型能更稳健地理解和执行复杂指令。
  • 英文能力与顶级专有模型的差距:在英文内部评估中,Qwen2-72B-Instruct 略低于 Llama-3-70B-Instruct,特别是在 ComprehensionCoding 上。研究团队推测这可能与英文预训练词元数量以及后训练数据的数量和多样性有关。未来可能需要进一步优化英文数据策略。
  • 安全性,特别是色情内容识别:尽管 Qwen2 在安全性评估中表现良好,但在 Pornography 类别中所有模型的得分都相对较高,这仍然是一个难以区分的挑战性领域。未来仍需在安全性对齐上投入更多努力,以使模型更安全、更负责任。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 数据工程的极致重要性:Qwen2 的成功再次印证了高质量、大规模、多样化数据在 LLM 训练中的核心地位。特别是其利用模型自身进行数据过滤和合成,以及在代码和数学数据上的针对性增强,为数据构建提供了新的思路。这表明数据飞轮效应 (data flywheel effect) 不仅指模型生成新数据,也包括模型辅助提升数据质量的闭环。
  2. 效率与性能的平衡:MoE 架构的引入和 GQA 的应用,体现了在模型规模不断增大的趋势下,对计算效率和推理吞吐量的持续追求。Qwen2-57B-A14B 在激活参数仅 14B 的情况下达到 30B 密集模型的性能,是稀疏化方法的重要实践。
  3. 长上下文能力的突破:DCA 和 YARN 机制的结合,使得 Qwen2 能够处理超长上下文,极大地拓宽了 LLM 的应用场景,例如长文档理解、复杂会议纪要分析等。这对于构建更强大的 AI 助手和代理至关重要。
  4. 对齐策略的创新:自动化数据合成的多种策略(拒绝采样、执行反馈、数据重用、宪法反馈)展示了在减少人工标注成本的同时,高效对齐模型行为的可能性。这对于 RLHF 的可扩展性具有重要意义。
  5. 开源生态的推动:Qwen2 系列的全面开源,包括模型权重、代码和部署资源,是对全球 AI 社区的巨大贡献。这不仅加速了研究进展,也降低了 AI 应用的门槛,促进了技术的普惠化。
  6. 多语言能力的重视:Qwen2 在中文和多语言上的强大表现,对于非英语世界的用户和开发者来说,具有巨大的价值。它打破了英语中心化的局限,推动了全球 AI 的发展。

7.3.2. 批判

  1. MoE 模型训练的挑战:虽然 MoE 架构在效率上具有优势,但 Qwen2 的 MoE 模型在知识能力上仍有提升空间(例如中文内部评估中 Knowledge 分数略低),且预训练数据量相对较少。这表明 MoE 模型的训练和优化,特别是如何充分利用其巨大参数容量,仍然是一个活跃的、充满挑战的研究领域。

  2. 英文性能的细微差距:尽管 Qwen2-72B-Instruct 总体表现卓越,但在一些英文基准(如英文内部评估的 ComprehensionCoding)上与 Llama-3-70B-Instruct 存在细微差距。这可能意味着在某些特定语言和任务上,针对性的数据和训练策略仍需进一步精炼。

  3. 数据污染的真实影响:虽然污染分析结果表明性能未受显著影响,但 HumanEval 等数据集高达 75% 的“污染率”仍值得警惕。尽管作者解释为假阳性,但如何更精确地定义和检测数据污染,以及在模型能力和训练数据重叠之间划清界限,仍然是一个开放问题。严格的 13-gram 重叠标准可能会过度敏感,但更宽松的标准又可能遗漏真正的泄露。

  4. 长上下文能力的实用性与成本:尽管模型能够处理 131K 词元,但在实际部署中,如此长的上下文带来的计算和内存成本仍然非常高昂。如何进一步优化长上下文推理的效率和成本,使其在更广泛的场景中实用化,是未来的重要方向。虽然 YARN 和 DCA 有所帮助,但 pass@k 在超长上下文下显著下降(Table 12)也表明挑战依然存在。

  5. 模型可解释性:报告主要关注模型性能,而对模型内部机制、决策过程的可解释性提及较少。随着 LLM 越来越复杂,提升其可解释性对于建立信任和确保安全至关重要。

    总的来说,Qwen2 技术报告展示了在开源 LLM 领域的一次全面而令人印象深刻的飞跃。它不仅在性能上树立了新标杆,更在数据工程、架构创新和对齐策略上提供了宝贵的经验。虽然仍有可改进之处,但其开放性和强大的能力无疑将极大地推动 AI 社区的进步。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。