论文状态:已完成

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

发表:2025/12/08
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了原生并行推理器(NPR),一个无教师框架,使大型语言模型具备真正的并行推理能力。NPR通过自我蒸馏渐进训练、并行感知策略优化及强大的引擎重构,实现从顺序思维到原生并行认知的转变。在推理基准测试中,NPR表现出高达24.5%的性能提升及4.6倍的推理加速,设立了智能体推理的新标准。

摘要

We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning (原生并行推理器:通过自我蒸馏强化学习实现并行推理)

1.2. 作者

Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, and Zilong Zheng. 所有作者均隶属于 NLCo Lab, Beijing Institute for General Artificial Intelligence (BIGAI)。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台。

  • 发布状态: 预印本 (Preprint)。根据提供的 Published at (UTC): 2025-12-08T11:39:43.000Z 信息,该论文预计于 2025 年 12 月 8 日发布。
  • 声誉和影响力: arXiv 是一个广受欢迎的预印本服务器,允许研究者在正式同行评审和发表之前分享他们的最新工作。它在快速传播科学发现方面具有重要作用,但论文内容尚未经过正式的同行评审,其结论的最终权威性需待正式发表后确认。

1.4. 发表年份

2025年。

1.5. 摘要

本文介绍了 Native Parallel Reasoner (NPR),一个无需教师模型 (teacher-free) 的框架,它使大型语言模型 (LLM) 能够自我演化出真正的并行推理能力。NPR 通过三项关键创新将模型从顺序仿真 (sequential emulation) 转换为原生并行认知 (native parallel cognition):

  1. 自我蒸馏渐进训练范式 (self-distilled progressive training paradigm):无需外部监督,从“冷启动”格式发现 (cold-start format discovery) 逐步过渡到严格的拓扑约束。

  2. 新颖的并行感知策略优化 (Parallel-Aware Policy Optimization - PAPO) 算法:直接在执行图内部优化分支策略,使模型能够通过试错 (trial and error) 学习自适应分解。

  3. 强大的 NPR 引擎 (NPR Engine):重构了 SGLang 的内存管理和流控制,以实现稳定、大规模的并行强化学习 (RL) 训练。

    在八个推理基准测试中,基于 Qwen3-4B 训练的 NPR 实现了高达 24.5% 的性能提升和高达 4.6 倍的推理加速。与之前常退化为自回归解码 (autoregressive decoding) 的基线方法不同,NPR 展示了 100% 的真实并行执行,为自我演化、高效和可扩展的智能体式推理 (agentic reasoning) 树立了新标准。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

核心问题: 尽管大型语言模型 (LLM) 在语义流畅性和多步骤的智能体式推理 (agentic reasoning) 方面取得了显著进展,但它们在处理复杂问题时往往采用顺序(链式思维,chain-of-thought - CoT)推理。这种顺序推理方式在探索多样化轨迹方面存在局限性,不能充分利用并行计算的优势来提升效率和解决问题的广度。在智能体式 AI 的发展中,“更广阔”的并行推理能力,即同时探索多样化路径的能力,正成为主导需求。

重要性: 类似于分布式计算中的 MapReduce 范式,将任务分解与轨迹聚合分离,对于提升 LLM 的推理效率和鲁棒性至关重要。理想情况下,模型应将多智能体系统 (multi-agent systems) 的协作广度内化为高效、原生并行的架构,而不是简单地模拟并行。

现有研究的挑战与空白 (Gap):

  1. 算法和架构不兼容 (Algorithmic and Architectural Incompatibility): 现有的推理引擎 (vLLM, SGLang 等) 和强化学习 (RL) 算法 (DAPO 等) 未能为原生分支提供良好支持。推理引擎难以控制并行分支和聚合,而 RL 算法在优化特殊词元 (special tokens) 时常会裁剪梯度,阻碍模型学习严格的并行结构。

  2. 低效的手工并行化 (Inefficient Hand-Crafted Parallelism): 虽然一些方法尝试通过手工设计的“分治”规则实现并行推理,但这通常涉及冗余的重复计算,导致高昂的线性延迟成本 (O(N)O(N)),不适用于实时部署。

  3. 依赖监督蒸馏 (Reliance on Supervised Distillation): 像 Multiverse 这样的框架虽然实现了原生并行,但严重依赖于从更强的教师模型 (teacher models) 蒸馏出的监督数据。这种依赖性限制了学生模型 (student models) 只能模仿教师模型的顺序推理拓扑结构,并将其强制适应并行格式,从而造成“智能天花板” (Intelligence Ceiling),阻碍了模型发现新颖的、内生的并行策略。

    本文正是为了解决这些挑战,旨在探索 LLM 如何在不依赖外部监督的情况下,自我演化出并行推理能力。

2.2. 核心贡献/主要发现

本文提出了 Native Parallel Reasoner (NPR) 框架,旨在使 LLM 能够自我演化出真正的并行推理能力,而无需依赖外部教师模型。其核心贡献和主要发现如下:

  1. 提出了统一的、无需教师模型的 NPR 框架: NPR 框架整合了自我蒸馏数据构建、并行监督微调 (SFT) 和并行强化学习 (RL),以构建一个真正的原生并行推理器。该方法能够内在地学习自适应分解、多样化的并行计划以及 KV 重用执行策略,从而建立可重用的认知原语。
  2. 引入了并行感知策略优化 (Parallel-Aware Policy Optimization - PAPO) 算法: PAPO 是一种专门为优化并行解码策略而设计的 RL 算法。研究证实,PAPO 能够诱导真正的并行行为,使模型主动利用独立的注意力分支进行探索和自我纠正。案例研究表明,NPR 的并行性不仅体现在任务分解上,还体现在通过不同推理角度进行多样化探索和反思性交叉验证。
  3. 开发了鲁棒且可扩展的并行推理引擎——NPR 引擎: NPR 引擎重构了并行执行的核心组件,包括 radix-cache 内存管理、输出长度控制和基于 Multiverse-Engine 的并行状态分支。这消除了标准引擎中固有的不稳定性,为原生并行 RL 训练提供了实用的后端支持。
  4. 在多项基准测试中实现了显著的准确性和效率提升:
    • 在八个推理基准测试中,基于 Qwen3-4B 训练的 NPR 实现了高达 24.5% 的性能提升和高达 4.6 倍的推理加速。

    • 自我蒸馏数据表现优异,超越了之前教师模型生成的数据集,验证了从原生分布中学习的假设。

    • 与基线方法(如 Multiverse)相比,NPR 实现了 100% 的真实并行执行,消除了隐藏的自回归回退或伪并行行为。

    • NPR 在测试时展现了强大的可扩展性,并且其推理加速能力随任务难度增加而提升。

    • 定性案例研究表明,NPR 能够根据问题类型自适应地调整并行程度和风格,实现更快推理和更高解决方案可靠性。

      这些贡献共同为 LLM 在无需外部监督的情况下,自我演化出高效、可扩展且真正并行的智能体式推理能力奠定了新标准。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文,以下是需要掌握的关键基础概念:

3.1.1. 大型语言模型 (Large Language Models - LLMs)

LLMs 是指参数量庞大(通常达数十亿甚至数千亿)的深度学习模型,它们在海量文本数据上进行预训练,能够理解、生成人类语言,并执行各种自然语言处理任务,如问答、翻译、文本摘要和推理。本文关注的是 LLM 在复杂推理任务中的应用。

3.1.2. 链式思维 (Chain-of-Thought - CoT)

CoT 是一种提示工程技术,通过引导 LLM 生成一系列中间推理步骤,来帮助模型更好地解决多步骤推理问题。这通常表现为模型输出一个逐步的思考过程,最终得出答案。CoT 是一种顺序推理形式。

3.1.3. 强化学习 (Reinforcement Learning - RL)

RL 是一种机器学习范式,其中一个智能体 (agent) 通过与环境的交互学习如何采取行动以最大化累积奖励。智能体观察环境状态,执行一个动作,环境返回一个奖励和新的状态。通过反复试错 (trial and error),智能体学习一个最优的策略 (policy),即在给定状态下选择最佳动作的规则。在 LLM 中,RL 通常用于微调模型,使其生成更符合特定目标(如正确性、有用性)的文本。

3.1.4. 监督微调 (Supervised Fine-Tuning - SFT)

SFT 是指在一个预训练的 LLM 的基础上,使用带有明确输入-输出对(标签数据)的数据集进行进一步训练的过程。SFT 的目标是让模型学习执行特定任务(如指令遵循、摘要生成),使其输出与训练数据中的期望输出更接近。

3.1.5. 并行推理 (Parallel Reasoning)

并行推理 (Parallel Reasoning - PR) 放松了自回归 (autoregressive - AR) 推理严格的从左到右依赖性,允许模型在可能的情况下独立地生成多个推理步骤或探索多个推理路径。这意味着模型可以同时考虑不同的解题策略、分解问题为独立的子任务并并行解决,或者进行多角度的交叉验证。 形式上,一个由 TT 个推理步骤 {st}t=1T\{s_t\}_{t=1}^T 组成的推理样本 y^\hat{y} 的联合概率可以根据步骤之间的依赖图 G\mathcal{G} 进行分解: P(y^q;θ)=t=1TP(stPa(st),q;θ), P ( \boldsymbol { \hat { y } } \mid q ; \boldsymbol { \theta } ) = \prod _ { t = 1 } ^ { T } P ( s _ { t } \mid \operatorname { Pa } ( s _ { t } ) , q ; \boldsymbol { \theta } ) , 其中,Pa(st)(s_t) 表示在依赖图 G\mathcal{G}sts_t 直接依赖的父步骤集合,θ\theta 是模型参数。这个公式表明,如果推理步骤之间没有相互依赖,它们可以并发处理。

3.1.6. 直接优势策略优化 (Direct Advantage Policy Optimization - DAPO)

DAPO 是一种用于 LLM 的强化学习算法,它基于 Proximal Policy Optimization (PPO) 的思想,但进行了一些简化和修改。它通过计算生成响应中每个词元的优势函数 (advantage function),并使用一个裁剪过的目标函数来更新模型策略。其目标是鼓励模型生成高奖励的响应,同时保持生成多样性。

3.1.7. SGLang

SGLang 是一个用于 LLM 的高性能推理引擎,它通过支持结构化生成和动态批处理等技术来优化 LLM 的吞吐量和延迟。本文的 NPR 引擎在此基础上进行了重构,以适应并行 RL 的特定需求。

3.1.8. KV-cache (Key-Value Cache)

在基于 Transformer 的 LLM 中,注意力机制 (Attention Mechanism) 需要计算查询 (Query)、键 (Key) 和值 (Value) 矩阵。在生成序列时,每个词元 (token) 的键和值都会被计算并缓存起来,以便后续词元在计算注意力时可以重用这些已计算的 Key-Value 对,从而避免重复计算,提高推理效率。KV-cache 对于长序列生成和并行生成尤其重要。

3.1.9. 注意力掩码 (Attention Mask)

注意力掩码 是一种机制,用于控制 Transformer 模型中词元之间注意力计算的范围。在自回归生成中,通常使用因果掩码 (causal mask) 确保词元只能关注其左侧(包括自身)的词元,而不能“看到”未来的词元。在并行推理中,特殊的 注意力掩码 可以用来隔离并行的推理分支,确保它们独立计算,互不干扰。

3.1.10. 位置编码 (Positional Encoding)

Transformer 模型本身不具备处理序列顺序信息的能力,因此需要引入 位置编码 来为模型提供序列中每个词元的位置信息。在并行推理中,特殊的 位置编码 可以用来标识词元在并行结构中的位置,例如属于哪个并行分支、哪个步骤,从而帮助模型理解和处理复杂的并行拓扑。

3.2. 前人工作

本文的工作建立在 LLM 推理能力和并行计算范式等多个领域的前沿研究之上。

3.2.1. LLM 推理能力与自回归解码

传统的 LLM 主要采用自回归 (AR) 解码,即逐词元 (token-by-token) 生成。这种方式虽然简单直观,但存在“前缀陷阱” (prefix trap) 和缺乏自我纠正能力的问题,容易导致早期承诺错误和次优解 (Wang et al., 2025b)。

  • CoT (Chain-of-Thought): CoT 提示工程通过引导模型生成中间步骤来提高复杂推理能力,但本质上仍是顺序的。

3.2.2. 早期并行推理方法

为了提高推理的效率和鲁棒性,研究者探索了各种并行策略:

  • Best-of-N (Cobbe et al., 2021) 和 Self-Consistency (Wang et al., 2023): 这些方法通过生成多个独立的推理路径,然后从中选择得分最高或最一致的结果。它们不是端到端优化的,而是对独立路径的后处理。
  • 基于搜索的方法:
    • Tree-of-Thought (Yao et al., 2023): 将推理过程建模为树状搜索,探索不同思考路径。
    • Graph-of-Thought (Besta et al., 2024): 进一步将推理组织为更复杂的图结构。
    • 蒙特卡洛树搜索 (Monte Carlo Tree Search - MCTS) (Xie et al., 2024): 结合了模拟和树搜索,用于更系统地探索推理空间。 这些方法通常依赖于手工设计的结构和外部验证器,这限制了它们的灵活性和可扩展性。

3.2.3. 学习型并行推理方法

为了提高并行推理的适应性和灵活性,近期工作转向了学习方法:

  • 基于监督微调 (SFT) 的方法:
    • Multiverse (Yang et al., 2025a): 本文的主要基线之一。它通过将强大学习型推理模型 (LRM) 的顺序轨迹蒸馏为并行推理路径来引导模型学习。它成功实现了原生并行,但其关键局限性在于对教师模型的依赖。
    • ParaThinker (Wen et al., 2025) 和 SSFT (Jia et al., 2025): 类似地,这些方法也采用 SFT 范式,从更强大的教师模型生成的并行轨迹中学习。 这些方法的共同缺点是纯粹的模仿限制了模型发现新颖推理模式的能力,并可能将教师模型的“智能天花板”强加给学生模型。
  • 基于强化学习 (RL) 的方法:
    • APR (Pan et al., 2025) 和 Parallel-R1 (Zheng et al., 2025a): 这些方法通过 RL 增强并行推理能力。然而,它们要么只在玩具任务上有效,要么仍然依赖于其他推理模型提供的监督数据来引导 RL 过程。

3.2.4. LLM 的强化学习

RL 已成为增强 LLM 推理能力的重要工具:

  • 结果级奖励 (Outcome-level Rewards):
    • 人类反馈强化学习 (RL from Human Feedback - RLHF): 通过人类偏好或任务级正确性优化结果级奖励 (Meng et al., 2024)。
  • 过程感知 RL (Process-aware RL):
    • 通过步骤级奖励建模提供更密集、更可解释的监督 (Lightman et al., 2024; Zhang et al., 2025b; Khalifa et al., 2025)。然而,这容易受主观性、高标注成本和模糊中间信号导致的不稳定优化影响。
  • 可验证奖励强化学习 (RL with Verifiable Reward - RLVR):
    • 使用明确、可审计的验证器(如逻辑检查器、基于规则的评分器、形式化验证器)取代不透明的奖励模型 (Shao et al., 2024; Xie et al., 2025; Yu et al., 2025; Zheng et al., 2025b)。RLVR 提供了客观性、可重复性和更强的正确性保证,特别适用于数学、编程等可验证的推理任务。本文的 DAPOPAPO 算法属于这一范畴。

3.3. 差异化分析

NPR 与现有工作的核心区别和创新点在于:

  1. 无需教师模型: NPR 摆脱了对外部强教师模型的依赖,通过自我蒸馏和渐进式 RL 训练,使 LLM 能够自我演化出并行推理能力。这避免了教师模型带来的“智能天花板”和对模仿的限制。

  2. 真正的原生并行执行: NPR 的设计确保了 100% 的真实并行执行,而许多现有方法(如 Multiverse 在某些情况下)在测试时会退化为自回归解码,或包含伪并行行为。NPR 通过专门设计的 PAPO 算法和 NPR 引擎,从根本上支持了这一点。

  3. 专用算法和引擎: PAPO 算法直接优化执行图中的分支策略,使得模型能够通过试错自适应地学习分解。而 NPR 引擎则解决了并行 RL 训练中的稳定性问题,如 KV-cache 管理、词元预算和非法并行模式,为大规模并行 RL 训练提供了可靠的后端。

  4. 渐进式训练范式: NPR 采用三阶段渐进训练,从“冷启动”的格式发现,到稳定并行原语的监督微调,再到最终的 RL 优化,这种分阶段的学习路径比直接的 SFTRL 更稳定和有效。

    总而言之,NPR 旨在通过内生的学习机制,构建一个更通用、更高效、更具扩展性的并行推理系统,而非仅仅是模仿或手工编码并行行为。

4. 方法论

4.1. 方法原理

Native Parallel Reasoner (NPR) 框架旨在使语言模型能够生成和评估多个推理分支,从而实现并行推理。NPR 的核心思想是,通过一个三阶段的渐进式训练课程,逐步诱导、奠定并放大模型的并行推理能力。这个课程从最初的格式诱导,到稳定的并行原语学习,最终到完全优化的并行推理,形成了一个连贯的路径。

具体而言,NPR 的三个阶段是:

  1. NPR-ZERO: 使用强化学习 (RL) 诱导模型生成结构化的并行格式,而不依赖任何外部标注数据。
  2. NPR-BETA: 通过对自我蒸馏 (self-distilled) 的轨迹进行监督微调 (SFT),稳定这些新兴的并行原语。
  3. NPR (最终模型): 应用并行感知强化学习 (Parallel-Aware Reinforcement Learning) 过程,直接优化模型执行原生并行推理的能力。

4.2. 阶段一:遵循格式的强化学习

4.2.1. 并行推理的输出格式

为了支持在生成过程中自适应分解和并行推理,NPR 采用了受 Multiverse 启发但结构更精简的“Map-Process-Reduce”模式。这种模式通过明确的标签 (tags) 定义了并行推理的结构。 每个并行块以 <guideline>...</guideline><guideline> ... </guideline> 开始,其中包含一系列 <plan>...</plan><plan> ... </plan> 条目,定义了“Map”阶段,即任务分解。 随后是“Process”阶段:每个 <step>...</step><step> ... </step> 块独立并并行地执行一个被分解的子任务。 在所有 <step><step> 块完成后,“Reduce”阶段将它们的输出整合到 <takeaway>...</takeaway><takeaway> ... </takeaway> 标签中的最终总结。 这种基于标签的明确格式使得分解、独立处理和最终聚合易于解析和验证,对后续的训练和评估至关重要。

以下是原文中 Table 1 所示的结构化模式示例:

The Output Format Example of Parallel Reasoning
<guideline><guideline>
<plan>1:[Onesentenceindependentstrategy]</plan><plan>1: [One-sentence independent strategy]</plan>
<plan>2:[Onesentenceindependentstrategy]</plan><plan>2: [One-sentence independent strategy]</plan>
...
</guideline></guideline>
<step>1:[Selfcontaineddetailedanalysisforplan1]</step><step>1: [Self-contained detailed analysis for plan 1]</step>
<step>2:[Selfcontaineddetailedanalysisforplan2]</step><step>2: [Self-contained detailed analysis for plan 2]</step>
<takeaway>[Comparesteps,synthesizefindings,determinenextaction]</takeaway><takeaway>[Compare steps, synthesize findings, determine next action]</takeaway>
<guideline><guideline>
<plan>1:[Onesentencestrategy]</plan><plan>1: [One-sentence strategy]</plan>
</guideline></guideline>
<step>1:[Selfcontaineddetailedanalysis]</step><step>1: [Self-contained detailed analysis]</step>
<takeaway>[Finalsynthesisandconclusion]</takeaway><takeaway>[Final synthesis and conclusion]</takeaway>
[Finaluserfacingsummary.Includeanswerfordefinitiveshortanswers.][Final user-facing summary. Include \boxed{answer} for definitive short answers.]

4.2.2. DAPO 目标函数与奖励

尽管这种结构化模式为并行推理提供了一个清晰、可学习的格式,但获取大规模、高质量的训练数据仍然充满挑战。与 Multiverse 依赖多教师模型不同,NPR 采取了一种更简单、自我改进的方法:从一个预训练的 LLM 开始,应用 DAPO (Direct Advantage Policy Optimization) 来诱导目标原生并行推理生成格式,无需配对监督或外部教师模型。

NPR 的奖励函数结合了格式和准确性信号:

  • 格式奖励: 通过格式检查的输出获得 0.0 的奖励;未能通过的输出则受到 (0.0,2.0](0.0, -2.0] 范围内的惩罚。

  • 准确性奖励: 在通过格式检查的前提下,正确答案获得 +1.0+1.0 奖励,不正确答案获得 -1.0 奖励。

    这个过程产生了一个检查点,称为 NPR-ZERO,其主要优化目标是学习所需的结构化格式。随后,NPR-ZERO 的生成结果被用于大规模的自我蒸馏,以构建后续监督微调 (SFT) 阶段的合成语料库。

论文中给出了 DAPO 的目标函数 I(θ)\mathcal{I}(\theta) \mathcal { I } ( \theta ) = \mathbb { E } _ { ( q , y ) \sim \mathcal { D } , \{ \hat { y } _ { i } \} _ { i = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } ( \cdot \vert q ) } \\ \qquad - \frac { 1 } { \sum _ { i = 1 } ^ { G } \vert \hat { y } _ { i } \vert } \displaystyle \sum _ { i = 1 } ^ { G } \sum _ { t = 1 } ^ { \vert \hat { y } _ { i } \vert } \left[ \operatorname* { m i n } \left( r _ { i , t } ( \theta ) \hat { A } _ { i , t } \mathrm { , c l i p } \left( r _ _ { i , t } ( \theta ) , 1 - \epsilon _ { \mathrm { l o w } } , 1 + \epsilon _ { \mathrm { h i g h } } \right) \hat { A } _ { i , t } \right) \right] . \\ \qquad \mathrm { s . t . } \quad 0 < \left| \left\{ \hat { y } _ { i } \mid \mathrm { i s } _ { \mathrm { - } } \mathrm { e q u i v a l e n t } ( y , \hat { y } _ { i } ) \right\} \right| < G 其中,ri,t(θ)r_{i,t}(\theta) 表示当前策略与旧策略在响应 ii 的词元 tt 上的概率比,A^i,t\hat{A}_{i,t} 表示该词元的标准化优势。 ri,t(θ)=πθ(y^i,tq,y^i,<t)πθold(y^i,tq,y^i,<t),A^i,t:=Rimean({R1,R2,,RG})std({R1,R2,,RG}). \boldsymbol { r } _ { i , t } ( \theta ) = \frac { \pi _ { \boldsymbol { \theta } } ( \hat { y } _ { i , t } \mid q , \hat { y } _ { i , < t } ) } { \pi _ { \boldsymbol { \theta } _ { \mathrm { o l d } } } ( \hat { y } _ { i , t } \mid q , \hat { y } _ { i , < t } ) } , \quad \hat { A } _ { i , t } : = \frac { R _ { i } - \operatorname * { m e a n } ( \{ R _ { 1 } , R _ { 2 } , \cdot \cdot \cdot , R _ { G } \} ) } { \operatorname * { s t d } ( \{ R _ { 1 } , R _ { 2 } , \cdot \cdot \cdot , R _ { G } \} ) } . 符号解释:

  • I(θ)\mathcal{I}(\theta): 策略 πθ\pi_\theta 的目标函数。

  • E\mathbb{E}: 期望操作,对问题 (q, y) 和由旧策略 πθold\pi_{\theta_{old}} 生成的响应 {y^i}i=1G\{\hat{y}_i\}_{i=1}^G 进行采样。

  • qq: 输入问题。

  • yy: 问题的真实答案。

  • D\mathcal{D}: 数据集。

  • y^i\hat{y}_i: 由旧策略 πθold\pi_{\theta_{old}} 生成的第 ii 个响应。

  • GG: 每个问题生成的响应组大小。

  • y^i\vert \hat{y}_i \vert: 第 ii 个响应的长度(词元数量)。

  • tt: 响应中的词元索引。

  • ri,t(θ)r_{i,t}(\theta): 当前策略 πθ\pi_\theta 与旧策略 πθold\pi_{\theta_{old}} 在生成第 ii 个响应的第 tt 个词元 y^i,t\hat{y}_{i,t} 时的概率比。πθ(y^i,tq,y^i,<t)\pi_{\boldsymbol{\theta}}(\hat{y}_{i,t} \mid q, \hat{y}_{i,<t}) 是当前策略生成 y^i,t\hat{y}_{i,t} 的条件概率,πθold(y^i,tq,y^i,<t)\pi_{\boldsymbol{\theta}_{old}}(\hat{y}_{i,t} \mid q, \hat{y}_{i,<t}) 是旧策略生成 y^i,t\hat{y}_{i,t} 的条件概率。

  • A^i,t\hat{A}_{i,t}: 第 ii 个响应的第 tt 个词元的标准化优势函数。

  • clip()\text{clip}(\cdot): 裁剪函数,用于将概率比 (θ)(\theta) 限制在 [1ϵlow,1+ϵhigh][1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}}] 范围内,以防止过大的策略更新。

  • ϵlow,ϵhigh\epsilon_{\text{low}}, \epsilon_{\text{high}}: 裁剪范围的下限和上限。

  • s.t.\text{s.t.}: 约束条件,要求组中与真值 (y) 等价的响应数量 ({y^iis-equivalent(y,y^i)})(|\{\hat{y}_i \mid \text{is-equivalent}(y, \hat{y}_i)\}|) 必须大于 0 且小于 GG。这确保了奖励函数能够区分不同质量的响应,同时鼓励多样性。

  • RiR_i: 第 ii 个生成响应的总奖励(由格式和准确性决定)。

  • mean()\text{mean}(\cdot): 对一组奖励值求平均。

  • std()\text{std}(\cdot): 对一组奖励值求标准差。

    该目标函数旨在通过惩罚低奖励响应、鼓励高奖励响应,并在生成的输出中保持多样性,来优化策略模型。

4.3. 阶段二:拒绝采样与并行预热

4.3.1. 结构化轨迹收集与拒绝采样

为了获得高质量的结构化推理轨迹而无需外部标注,NPR 采用了简单的自我蒸馏流程。对于数据集中的每个问题 qiq_i,模型生成 KK 个候选推理轨迹及其对应的答案 {(rji,a^ji)}j=1K\{(r_j^i, \hat{a}_j^i)\}_{j=1}^K。这些样本构成了提取正向监督信号的池。

通过一个拒绝采样 (rejection-sampling) 过滤器来筛选轨迹,该过滤器模仿了 NPR-ZERO 中使用的自举 (bootstrapping) 设置。每个采样轨迹使用两个轻量级、指示器式的约束进行评估:

  1. 结果正确性 (Outcome Correctness): 预测答案 a^\hat{a} 与真实答案 aia_i 不匹配的轨迹被丢弃。这个规则由指示函数 1correct(a^)\mathbb{1}_{\text{correct}}(\hat{a}) 表示。

  2. 结构化并行性 (Structured Parallelism): 任何不符合所需结构化输出格式(如 Table 1 所示)的轨迹都被移除,以确保并行生成的清晰监督。这个约束由 1format(r)\mathbb{1}_{\text{format}}(r) 编码。

    只有同时满足这两个标准的样本才会被接受: 1accept(r,a^)=1correct(a^)1format(r). \mathbb { 1 } _ { \mathrm { a c c e p t } } ( r , \hat { a } ) = \mathbb { 1 } _ { \mathrm { c o r r e c t } } ( \hat { a } ) \cdot \mathbb { 1 } _ { \mathrm { f o r m a t } } ( r ) . 应用此过滤器后,得到蒸馏数据集 Daccept\mathcal{D}_{\text{accept}} \mathcal { D } _ { \mathrm { a c c e p t } } = \{ ( q _ { i } , r _ { j } ^ { i } , a _ { j } ^ { i } ) \ | \ i \leq N , j \leq K , \ \mathrm { s . t . } \ ( r _ { j } ^ { i } , a _ { j } ^ { i } ) \sim \pi _ { \theta } ( \cdot | q _ { i } ) , \mathbb { 1 } _ { \mathrm { a c c e p t } } ( r _ _ { j } ^ { i } , \hat { a } _ { j } ^ { i } ) = 1 \} . 符号解释:

  • 1accept(r,a^)\mathbb{1}_{\text{accept}}(r, \hat{a}): 接受指示函数,当轨迹 rr 和其答案 a^\hat{a} 同时满足正确性和格式要求时为 1

  • 1correct(a^)\mathbb{1}_{\text{correct}}(\hat{a}): 答案正确指示函数。

  • 1format(r)\mathbb{1}_{\text{format}}(r): 格式正确指示函数。

  • Daccept\mathcal{D}_{\text{accept}}: 经过拒绝采样后接受的蒸馏数据集。

  • qiq_i: 数据集中的第 ii 个问题。

  • NN: 数据集中问题的总数。

  • KK: 为每个问题生成的候选轨迹数量。

  • rjir_j^i: 对于问题 qiq_i,生成的第 jj 个候选推理轨迹。

  • a^ji\hat{a}_j^i: 对于问题 qiq_i,生成的第 jj 个候选答案。

  • πθ(qi)\pi_{\theta}(\cdot|q_i): 模型在问题 qiq_i 上的策略。

    这些被接受的轨迹作为后续监督微调阶段的训练语料库,为后续的并行强化学习过程提供了稳定的初始化。

4.3.2. 并行注意力掩码与位置编码

为了支持结构化并行生成,NPR 采用了 Multiverse Attention 的核心设计来构建并行注意力掩码和相应的 位置编码。这种设计使得多条推理路径能够在一个前向传播中并存,并通过少量示例实现快速适应。它还允许 NPR 引擎 (§2.5) 对共享上下文进行高效的 KV-cache 重用,从而减少推理开销。此外,为了确保模型能够发出所需的结构标签,初始化了一组与这些标签对应的特殊词元 (special tokens),并在冷启动训练阶段暴露它们。

以下是 Algorithm 1 所示的并行注意力掩码构建过程:

Algorithm 1 Parallel Attention Mask
Input: sequence: T:={t1,,tL},\mathcal { T } : = \{ t _ { 1 } , \ldots , t _ { L } \} , .   
Ta ag tokens: {τparallel±,τstep±,τplan±}\{ \tau _ { \mathrm { p a r a l l e l } } ^ { \pm } , \tau _ { \mathrm { s t e p } } ^ { \pm } , \tau _ { \mathrm { p l a n } } ^ { \pm } \} .   
Output: Attention mask: MRL×L\mathbf { M } \in \mathbb { R } ^ { L \times L } .   
1: procedure CONSTRUCT NPR ATTN MASK   
2: Mtril(1L×L)\mathbf { M } \gets \mathrm { t r i l } ( \mathbf { 1 } _ { L \times L } ) Causal mask   
3: SS  \emptyset Init structure stack   
4: for i=1Li = 1 \dots L do   
5: if ti{τparallel+,τstep+,τplan+}t _ { i } \in \{ \tau _ { \mathrm { p a r a l l e l } } ^ { + } , \tau _ { \mathrm { s t e p } } ^ { + } , \tau _ { \mathrm { p l a n } } ^ { + } \} then   
6: S.push({type(ti),iˉ})S . \mathrm { p u s h } ( \{ \mathrm { t y p e } ( t _ { i } ) , \bar { i } \} )   
7: else if ti{τstep,τplan}t _ { i } \in \{ \tau _ { \mathrm { s t e p } } ^ { - } , \tau _ { \mathrm { p l a n } } ^ { - } \} then   
8: bS.pop()b \gets S . \mathsf { p o p } ( )   
9: Save span (bˇ.start,i)( \check { b } . \mathrm { { s t a r t } } , i ) in parent block   
10: else if ti=τparallelt_i = \tau_{\mathrm{parallel}}^- then   
11: bS.pop()b \gets S . \mathsf { p o p } ( )   
12: {Pj=[sj,ej)}j=1nb.\{ \mathcal { P } _ { j } = [ s _ { j } , e _ { j } ) \} _ { j = 1 } ^ { n } \gets b.steps   
13: for (j,k)[1,n]2( j , k ) \in [ 1 , n ] ^ { 2 } where jkj \neq k do   
14: Zj{sj,,ej1}\mathcal { Z } _ { j } \gets \{ s _ { j } , \dotsc , e _ { j } - 1 \}   
15: Zk{sk,,ek1}\mathcal { Z } _ { k } \gets \{ s _ { k } , \dotsc , e _ { k } - 1 \}   
16: M[Zj,Zk]0\mathbf { M } [ \mathcal { Z } _ { j } , \mathcal { Z } _ { k } ] \gets 0 Isolate steps   
17: M[Zk,Zj]0\mathbf { M } [ \mathcal { Z } _ { k } , \mathcal { Z } _ { j } ] \gets 0   
18: MM(1M)×()\mathbf { M } \gets \mathbf { M } \oplus ( \mathbf { 1 } - \mathbf { M } ) \times ( - \infty )   (Set non-zero elements to 0 and zero elements to -infinity)
19: return M\mathbf { M } 

符号解释:

  • T\mathcal{T}: 输入序列,由词元 t1,,tLt_1, \ldots, t_L 组成。
  • τparallel±,τstep±,τplan±\tau_{\mathrm{parallel}}^{\pm}, \tau_{\mathrm{step}}^{\pm}, \tau_{\mathrm{plan}}^{\pm}: 表示并行块、步骤块和计划块的开始 (+) 和结束 (-) 标签词元。
  • M\mathbf{M}: 输出的注意力掩码,一个 L×LL \times L 的矩阵。
  • tril(1L×L)\mathrm{tril}(\mathbf{1}_{L \times L}): 生成一个下三角矩阵,其中下三角部分为 1,上三角部分为 0,这是标准的因果掩码 (causal mask),确保每个词元只能关注它之前或自身。
  • SS: 一个用于跟踪当前结构块(如 guideline, step, plan)的栈 (stack)。
  • ii: 序列中的当前词元索引。
  • tit_i: 当前词元。
  • type(t_i): 词元 tit_i 的类型(例如 parallel, step, plan)。
  • iˉ\bar{i}: 词元 tit_i 在序列中的起始位置。
  • bb: 从栈中弹出的一个块信息。
  • span(\check{b}.\text{start}, i):一个块的起始和结束位置。: 一个块的起始和结束位置。 - \tau_{\mathrm{parallel}}^-:并行块的结束标签词元。: 并行块的结束标签词元。 - {\mathcal{P}j = [s_j, e_j)}{j=1}^n: 块 $b$ 中包含的 $n$ 个步骤 (`steps`),每个步骤由起始位置 $s_j$ 和结束位置 $e_j$ 定义。 - $\mathcal{Z}_j$: 第 `$j$` 个步骤的词元索引集合。 - \mathbf{M}[\mathcal{Z}j, \mathcal{Z}k] \gets 0: 将注意力掩码中,步骤 `$j$` 中的词元不能关注步骤 `$k$` 中的词元的部分设为 `0` (隔离步骤)。 - \mathbf{M} \gets \mathbf{M} \oplus (\mathbf{1} - \mathbf{M}) \times (-\infty): 在 `Transformer` 中,`0` 的掩码值通常在 `softmax` 之前被替换为负无穷,以确保这些位置的注意力权重为 `0`。原文此处的符号表达略显非标准,但意图是使得被遮蔽(值为 `0`)的注意力得分在 `softmax` 后变为 `0`。 该算法通过维护一个结构栈,根据并行标签 ($<guideline>$, $<plan>$, $<step>$) 动态调整注意力掩码,确保并行块内的不同步骤之间无法相互关注,从而实现独立的并行处理。 以下是 `Algorithm 2` 所示的并行位置编码构建过程: ```markdown Algorithm 2 Parallel Positional Encoding <div class="table-wrapper"><table><tr><td>Output: Position IDs: P RL</td><td>± ±</td></tr><tr><td>1:procedure CONSTRUCT NPR POSITION IDS 2: P ← [0, 1, . . . , L − 1]; S ← Ø</td><td> Init sequential positions &amp; block stack</td></tr><tr><td>for i = 1 . . . L do</td><td></td></tr><tr><td>3: 4: b ← S.top() if S ≠= Ø then S.push({pend : −1, max : 0})</td><td></td></tr><tr><td>5: guideline</td><td> Open new &lt;guideline&gt; block</td></tr><tr><td>6: else if ti = −idelie then bpend ← P[]</td><td> Mark &lt;guideline&gt; end position</td></tr><tr><td>7: ≥ ← </td><td> Reset to end</td></tr><tr><td>8: els if = τtep then b.mx ← max(b.max, P[] − .end)</td><td>Track length of max step</td></tr><tr><td>e f = e he d − x−1) 9:</td><td>Align to max</td></tr><tr><td>10: S.pop()</td><td> Close &lt;guideline&gt; block</td></tr></table></div> ``` **符号解释**: - $P$: 输出的位置ID序列。 - $L$: 序列长度。 - $S$: 结构块栈。 - $i$: 序列中的词元索引。 - $b$: 当前处理的块信息。 - `pend`: 块的结束位置。 - `max`: 块内最长步骤的长度。 - $ti = −idelie$ (原文可能为 $t_i = <guideline>$ 结束标签): `guideline` 块结束。 - `P[]`: 当前词元的位置ID。 - `b.mx`: 块 `$b$` 中记录的最大步骤长度。 - $τstep$: 步骤块的开始标签词元。 `Algorithm 2` 的文本表示存在一些排版问题,但其核心思想是为并行结构中的词元分配特殊的位置ID。例如,在并行块内部,不同步骤的词元可能根据其相对位置以及最长步骤的长度进行对齐,以支持并行处理。这种方法可以有效地利用 `KV-cache` 重用,减少推理开销。 ### 4.3.3. 并行预热 (Parallel Warmup) 在并行掩码和位置编码方案就绪后,模型在蒸馏数据集 $\mathcal{D}_{\text{accept}}$ 上执行监督预热步骤。模型使用标准的负对数似然 (`negative log-likelihood`) 进行训练。这个阶段生成 `NPR-BETA` 模型,它作为后续并行强化学习阶段的稳定初始化。 ## 4.4. 阶段三:原生并行强化学习 虽然并行 `SFT` 教会了模型原生并行推理的基本原语,但单纯的监督模仿是不够的。`SFT` 蒸馏的轨迹往往缺乏结构多样性,并且某些推理模式无法泛化到训练分布之外。为了放大和泛化这些能力,`NPR` 引入了一个专门的原生并行 `RL` 阶段。由于 `NPR-BETA` 已经学习了连贯的并行模式,它可以用作直接 `RL` 的可靠初始化。 该阶段对标准 `RL` (`DAPO` 风格) 进行了以下实际修改,以尊重并行语义并稳定训练: ### 4.4.1. 并行推演 (Parallel Rollouts) 现有的推理引擎 (`Kwon et al., 2023; Zheng et al., 2024`) 不强制执行严格的并行语义,可能产生畸形轨迹。因此,`NPR` 使用其专门设计的 `NPR` 引擎 (`§2.5`) 进行推演 (rollouts),这保证了每个生成的轨迹都遵循预期的 `Map-Process-Reduce` 流程。 ### 4.4.2. 推演期间的结构过滤 (Structural Filtering During Rollout) 即使使用了结构化引擎,仍可能发生罕见的格式违规。为了防止畸形序列进入优化过程,`NPR` 在推演期间执行模式级别的过滤。它不依赖于简单的文本格式检查器,而是使用 `SFT` 阶段构建的注意力掩码和位置 ID 编码,这些编码精确地表示并行模式。过滤后,所有保留的推演都严格遵守目标结构,因此奖励简化为仅考虑准确性。 ### 4.4.3. 批次级优势归一化 (Batch-level Advantage Normalization) 由于违反格式的样本在优化前被移除,组级别方差 (group-level variance) 会崩溃,使得相对(组)优势无效。`NPR` 采用 `Lite-PO` 风格的优势函数 (Liu et al., 2025a),但将组级别方差替换为批次级别方差。对于每个样本 `$i$` 和词元 `$t$`,计算如下: \hat { A } _ { i , t } : = \frac { R _ { i } - \operatorname* { m e a n } ( { R _ { 1 } , R _ { 2 } , \cdot \cdot \cdot , R _ { G } } ) } { \mathsf { s t d } ( { R _ { 1 } , R _ { 2 } , \cdot \cdot \cdot , R _ { G } , \cdot \cdot \cdot , R _ { N * G } } ) } , 符号解释: **符号解释**: - \hat{A}{i,t}: 第 `$i$` 个样本的第 `$t$` 个词元的标准化优势。 - R_i: 第 `$i$` 个样本的准确性奖励。 - \text{mean}({R_1, R_2, \ldots, R_G}): 当前组 `$G$` 中所有样本奖励的均值。 - \text{std}({R_1, R_2, \ldots, R_G, \ldots, R{NG}}): 当前批次中所有样本奖励的标准差。这里的 `$N$` 是批次大小,`$G$` 是组大小。与 `DAPO` 仅在组内计算标准差不同,`PAPO` 在整个批次(NG 个样本)上计算标准差。 ### 4.4.4. 保留特殊词元的梯度 (Preserve Gradients on Special Tokens) 特殊词元 (special tokens) 对于维护并行语义至关重要。抑制这些词元梯度的词元级裁剪 (token-level clipping) 会破坏学习到的结构,因此 `NPR` 移除了裁剪掩码 (clip-masking),并确保特殊词元始终接收梯度。然而,移除裁剪掩码会使 `PPO` (Schulman et al., 2017) 中的重要性采样比率 (importance-sampling ratios) 不稳定。为了避免不稳定的重新加权,`NPR` 消除了重要性采样,并采用严格的在策略 (on-policy) 目标。这既稳定了训练,又加快了训练速度,因为它不需要重新计算历史对数概率。 将这些选择综合起来,得到了 `Native Parallel Reasoner` 的并行感知策略优化 (Parallel-Aware Policy Optimization - PAPO) 目标: \mathcal { I } ( \theta ) = \mathbb { E } _ { ( q , y ) \sim \mathcal { D } , { \hat { y } _ { i } } _ { i = 1 } ^ { G } \sim \pi _ { \theta } ( \cdot | q ) } - \frac { 1 } { \sum _ { i = 1 } ^ { G } \vert \hat { y } _ { i } \vert } \sum _ { i = 1 } ^ { G } \sum _ { t = 1 } ^ { \vert \hat { y } _ { i } \vert } \big [ \frac { \pi _ { \theta } ( \hat { y } _ { i , t } \mid q , \hat { y } _ { i , < t } ) } { \mathrm { s g } [ \pi _ { \theta } ( \hat { y } _ { i , t } \mid q , \hat { y } _ { i , < t } ) ] } \hat { A } _ { i , t } \big ] . 符号解释: **符号解释**: - \mathcal{I}(\theta):PAPO目标函数。: PAPO 目标函数。 - \mathbb{E}:期望操作,对问题(q,y)和由当前策略: 期望操作,对问题 ``(q, y)`` 和由当前策略 \pi_\theta生成的响应 生成的响应 {\hat{y}i}{i=1}^G进行采样。 进行采样。 - \pi_{\theta}(\cdot|q):当前策略。: 当前策略。 - \text{sg}[\cdot]:停止梯度(stopgradient)操作,意味着: 停止梯度 (`stop gradient`) 操作,意味着 \pi_\theta(\hat{y}{i,t} \mid q, \hat{y}{i, 在分母中被视为常数,不参与梯度计算。这使得策略更新趋向于增加高优势动作的概率,而不会因为分母的梯度而引入不稳定性。 图 3 比较了 `GRPO` 风格的 `RL` 和 `PAPO`: ![Figure 3 | Comparison of GRPO-style RL (Shao et al., 2024) and Parallel-Aware Policy Optimization](/files/papers/693933a0a90c4b49441f2e8b/images/3.jpg) *该图像是图表,比较了GRPO风格强化学习和基于并行意识策略优化(PAPO)的本地并行强化学习。图中展示了两种方法在处理查询时的不同流程,其中GRPO采用顺序输出方式,而PAPO通过本地并行推理引擎实现多输出并行处理。各个步骤的奖励模型和优势计算方式也有所不同,突出PAPO在并行推理上的优势。* `GRPO`-style `RL` 通常采用顺序 (`autoregressive`) 解码,通过一个策略模型逐词元生成输出,并使用一个奖励模型对整个序列或部分序列进行评估,然后通过 `PPO` 或 `DAPO` 风格的目标函数进行优化。其优势函数通常是基于组或批次内的奖励计算。 相比之下,`PAPO` 通过 `NPR` 引擎支持本地并行推理,直接在执行图内部优化分支策略。在推演 (`rollout`) 阶段,模型可以生成多个并行的 $<step>$。`PAPO` 的优势函数计算考虑了批次级别的奖励统计,并通过停止梯度操作稳定对特殊词元的优化,确保模型能够学习真正的并行结构。 ## 4.5. 工程增强:NPR 引擎 `Multiverse` 的并行生成引擎(基于 `SGLang`)为大规模推演提供了强大的基础,但在实际生产规模运行时,它暴露出一些脆弱的实现问题,影响了正确性和 `RL` 稳定性。`NPR` 团队通过实施一套紧凑的引擎级缓解措施,恢复了高吞吐量并行推演中的确定性行为、内存安全性以及正确的长度计数。这些措施共同构成了 `NPR` 引擎。 **观察到的问题与解决方案**: 1. <strong>`KV-cache` 双重释放和内存损坏 (`KV-cache double-free and memory corruption`)</strong>: * **问题**: 在大规模并行分支下,当 `KV-cache` 超出其容量时,共享的 `radix-tree` `KV` 路径有时会被多次回收,导致上下文损坏,极端情况下还会引起 `GPU` 内存泄漏。这种情况随着分支因子 (branching factor) 的增加而恶化。 * **解决方案**: `NPR` 引擎用明确的、预算感知的回收策略取代了机会性回收。当观察到的 `KV` 使用量超过预分配预算时,立即执行缓存刷新和受影响块的确定性重新分配。 2. <strong>全局词元预算低估 (`Underestimated global token budget`)</strong>: * **问题**: 并行解码会使总词元消耗大致乘以分支数量,但原始的计数机制只跟踪最长的单个分支,这导致运行可能超出配置的 `max_new_tokens`。 * **解决方案**: `NPR` 引擎将长度计数扩展为分支感知:它现在记录每次扩展时的活跃分支因子,并相应地更新一个全局词元账本。 3. <strong>非法并行模式导致的未定义状态 (`Undefined states from illegal parallel schemas`)</strong>: * **问题**: 某些并行分支布局超出了引擎的条件逻辑范围,在罕见极端情况下会导致未定义状态。 * **解决方案**: `NPR` 引擎在任何扩展之前添加了一个轻量级的预分支格式验证器,强制执行一小组结构不变量。这些检查有意设计为开销小且保守,只允许结构上有效的分支,从而以可忽略的运行时成本防止非法状态。 4. **$<step>$ 块内的局部重复 ($Local repetition inside <step> blocks$)**: * **问题**: 在并行采样下,细粒度的步骤流 (`step streams`) 倾向于表现出局部重复,这降低了步骤轨迹的清晰度。 * **解决方案**: `NPR` 引擎对在 $<step> ... </step>$ 上下文中生成的词元应用温和、选择性的重复惩罚 (系数 $\mathbf{\Pi} = \mathbf{1.02}$),而 $<guideline>$ 和 $<takeaway>$ 流则保持无惩罚 (系数 `1.0`)。 这些修复集成到 `SGLang` 的 `rollout` 框架后,`NPR` 引擎在处理大规模并行 `RL` 工作负载时,表现出显著改进的确定性、内存稳定性和正确性。经验训练和评估表明,这些引擎级的改进是至关重要的,它们能有效防止细微的策略外伪影 (off-policy artifacts) 并稳定优化,以满足生产级并行 `RL` 所需的吞吐量。 # 5. 实验设置 ## 5.1. 数据集 实验基于 `ORZ` 数据集 (Hu et al., 2025),该数据集包含 57k 个问题-答案对。为了确保整个流程的一致性,从 `ORZ` 中抽取了一个固定子集 `8k` 个示例,并将其用于 `NPR` 的所有三个训练阶段 (`§2.2`, `§2.3`, `§2.4`)。 评估模型效果和泛化能力时,使用了以下多样化的推理基准测试: - <strong>小型数据集 (报告 `avg@8`)</strong>: - `AIME24` (Mathematical Association of America, 2024) - `AIME25` (Mathematical Association of America, 2025) - `HMMT25` (Balunovi et al., 2025) - `AMC23` (Mathematical Association of America, 2023) - <strong>大型或异构数据集 (报告 `avg@1`)</strong>: - `OlympiadBench` (He et al., 2024) - `Minerva-Math` (Lewkowycz et al., 2022) - `ZebraLogic` (Lin et al., 2025) - `MATH500` (Hendrycks et al., 2021) ## 5.2. 评估指标 评估模型性能时,主要使用了以下指标: ### 5.2.1. `avg@k` `avg@k` 定义为对于每个问题生成的 $k$ 个解决方案中,正确答案的预期比例。 - **概念定义**: `avg@k` 量化了在模型生成 $k$ 个候选解决方案的场景下,平均有多少个解决方案是正确的。它反映了模型在多次尝试中,其解决方案的平均准确率。 - **数学公式**: \displaystyle { \operatorname { avg } @ { k } \ : = \ : \frac { c } { k } } - **符号解释**: - `$c$`: 生成的 $k$ 个解决方案中正确的数量。 - `$k$`: 为每个问题生成的候选解决方案总数。 ### 5.2.2. `best@k` `best@k` 用作测试时可扩展性的指标,它衡量在 $k$ 个解决方案中至少有一个正确解决方案的比例(也称为“`oracle coverage`”,即“神谕覆盖率”)。 - **概念定义**: `best@k` 衡量的是对于给定的一个问题,在模型生成的 $k$ 个候选解决方案中,只要有一个是正确的,该问题就被视为解决。它反映了模型在给定多次尝试机会下,找到正确答案的最高概率或覆盖率。 - <strong>数学公式 (补充)</strong>: 假设对于一个问题,模型生成了 $k$ 个解 $\{s_1, s_2, \dots, s_k\}$。如果其中至少有一个解 $s_j$ 是正确的,则该问题计为成功。`best@k` 是所有问题中成功解决的比例。 \operatorname{best@k} = \frac{\text{Number of problems with at least one correct solution among } k}{\text{Total number of problems}} - **符号解释**: - `Number of problems with at least one correct solution among k`: 在 $k$ 个解决方案中至少有一个正确解决方案的问题数量。 - `Total number of problems`: 评估中的问题总数量。 ## 5.3. 对比基线 `NPR` 与一系列强大的基线模型进行了比较: - <strong>开放顺序推理器 (Open Sequential Reasoners)</strong>: - `Qwen2.5-32B-Instruct` (Qwen et al., 2024) - `Qwen3-4B` (Yang et al., 2025b) (非思维模式,`non-thinking mode`) - `Qwen3-4B-Instruct-2507` - <strong>近期并行推理器 (Recent Parallel Reasoners)</strong>: - `Multiverse` 模型 (Yang et al., 2025a),包括: - `Multiverse-32B` - `Multiverse-4B` (在 `Qwen3-4B-Instruct-2507` 上复现) - <strong>顺序变体 (Sequential Variants)</strong>: - `SR-BETA`: 纯粹通过顺序推理范式训练的监督微调 (`SFT`) 模型。 - `SR`: 纯粹通过顺序推理范式训练的强化学习 (`RL`) 模型。 ## 5.4. 训练细节 实验模型基于 `Qwen3-4B-Instruct-2507` 和 `Qwen3-4B`(非思维模式,`non-thinking mode`)。作者故意避开思维模式 (thinking-mode) 变体,因为它们无法通过标准监督微调进行训练 (`§4.6`)。 以下是每个阶段的关键配置总结: - <strong>阶段一 (Stage 1)</strong>: 遵循 `DAPO` 设置,最大生成长度为 30,000 词元。训练开始时学习率为 1e-6,并衰减到 1e-7。权重衰减 (weight decay) 设置为 0.1。 - <strong>阶段三 (Stage 3)</strong>: 采用 `PAPO` 算法和 `NPR` 引擎。最大生成长度保持 30,000 词元,学习率设置为 1e-7。 # 6. 实验结果与分析 ## 6.1. 核心结果分析 ### 6.1.1. 整体推理性能 以下是原文 `Table 2` 所示的顺序和并行推理器在推理基准测试上的性能: <div class="table-wrapper"><table> <thead> <tr> <th>Model</th> <th>Data</th> <th>Train</th> <th>Base</th> <th>A25</th> <th>A24</th> <th>H25</th> <th>OB</th> <th>MvM</th> <th>ZL</th> <th>AMC23</th> <th>M500</th> <th>AVG</th> </tr> </thead> <tbody> <tr> <td>Q2.5-32B-Inst.</td> <td>-</td> <td>-</td> <td>-</td> <td>10.4</td> <td>15.8</td> <td>3.8</td> <td>46.4</td> <td>40.8</td> <td>43.6</td> <td>62.8</td> <td>80.4</td> <td>38.0</td> </tr> <tr> <td>MV-32B</td> <td>s1.1-8k</td> <td>S→P SFT</td> <td>Q2.5-32B-Inst.</td> <td>45.8*</td> <td>53.8*</td> <td>20.8</td> <td>48.0</td> <td>40.0</td> <td>47.1</td> <td>72.5</td> <td>91.8*</td> <td>52.5</td> </tr> <tr> <td>Q3-4B-Inst.</td> <td>-</td> <td>-</td> <td>-</td> <td>47.4</td> <td>60.0</td> <td>31.0</td> <td>64.0</td> <td>41.2</td> <td>80.2</td> <td>92.2</td> <td>93.4</td> <td>63.7</td> </tr> <tr> <td>MV-4B</td> <td>s1.1-8k</td> <td>S→P SFT</td> <td>Q3-4B-Inst.</td> <td>42.9</td> <td>46.7</td> <td>20.8</td> <td>38.8</td> <td>34.9</td> <td>60.2</td> <td>75.0</td> <td>81.6</td> <td>50.1</td> </tr> <tr> <td>NPR-BETA</td> <td>orz-8k</td> <td>Parallel SFT</td> <td>Q3-4B-Inst.</td> <td>37.1</td> <td>52.1</td> <td>23.3</td> <td>60.1</td> <td>41.2</td> <td>76.1</td> <td>85.9</td> <td>91.6</td> <td>58.2</td> </tr> <tr> <td>SR-BETA</td> <td>orz-8k</td> <td>Sequential SFT</td> <td>Q3-4B-Inst.</td> <td>37.1</td> <td>52.1</td> <td>22.5</td> <td>56.3</td> <td>41.5</td> <td>72.8</td> <td>90.9</td> <td>92.8</td> <td>58.2</td> </tr> <tr> <td>SR</td> <td>orz-8k</td> <td>Sequential RL</td> <td>Q3-4B-Inst.</td> <td>49.2</td> <td>57.1</td> <td>26.3</td> <td>62.2</td> <td>38.2</td> <td>78.9</td> <td>93.1</td> <td>93.6</td> <td>62.0</td> </tr> <tr> <td>NPR</td> <td>orz-8k</td> <td>Parallel RL</td> <td>NPR-BETA</td> <td>50.4</td> <td>63.3</td> <td>30.8</td> <td>63.7</td> <td>43.0</td> <td>81.7</td> <td>93.1</td> <td>93.6</td> <td>65.0</td> </tr> <tr> <td>Q3-4B</td> <td>-</td> <td>-</td> <td>-</td> <td>19.1</td> <td>25.0</td> <td>12.1</td> <td>48.6</td> <td>28.5</td> <td>35.2</td> <td>65.6</td> <td>84.8</td> <td>39.9</td> </tr> <tr> <td>NPR-BETA</td> <td>orz-8k</td> <td>Parallel SFT</td> <td>Q3-4B</td> <td>43.8</td> <td>52.5</td> <td>29.2</td> <td>57.8</td> <td>45.9</td> <td>70.0</td> <td>85.3</td> <td>86.8</td> <td>58.9</td> </tr> <tr> <td>NPR</td> <td>orz-8k</td> <td>Parallel RL</td> <td>NPR-BETA</td> <td>53.8</td> <td>62.5</td> <td>32.9</td> <td>61.9</td> <td>47.1</td> <td>75.8</td> <td>89.7</td> <td>91.8</td> <td>64.4</td> </tr> </tbody> </table></div> **关键发现**: - <strong>自我蒸馏数据优势 (Self-Distilled Data Efficacy)</strong>: 使用 `NPR` 的自我蒸馏数据集 (`orz-8k` 用于 `NPR-BETA`) 相比 `Multiverse` 的训练语料库 (`s1.1-8k` 用于 `MV-4B`) 带来了显著的性能提升。例如,在 `AMC23` 上从 75.0 提升到 85.9 (+10.9),在 `MATH500` 上从 81.6 提升到 91.6 (+10.0)。平均得分从 50.1 提升到 59.0 (+8.9)。这验证了从原生分布中学习的假设,并表明 `Multiverse` 数据集(由顺序推理轨迹构建)对真正并行推理模式的覆盖有限。 - <strong>并行 `SFT` 优势 (Parallel SFT advantage)</strong>: 从顺序 `SFT` (`SR-BETA`) 切换到并行 `SFT` (`NPR-BETA`) 在多个基准测试中带来了持续的改进。例如,`AIME25` 从 37.1 提升到 42.9 (+5.8)。这表明并行格式的监督鼓励了更具适应性和结构多样性的推理行为,减轻了顺序 `SFT` 固有的限制性偏差。 - <strong>并行 `RL` 优势 (Parallel RL advantage)</strong>: 在 `NPR-BETA` 的基础上,应用 `NPR` 的并行 `RL` 算法 (`NPR` vs. `SR`) 带来了进一步的收益,并持续超越了顺序 `RL`。例如,`AIME24` 从 57.1 提升到 63.3 (+6.2),`MinervaMath` 从 38.2 提升到 43.0 (+4.8)。平均得分从 62.0 提升到 65.0 (+3.0)。这证实了并行 `RL` 更有效地放大了在并行 `SFT` 期间学到的高奖励推理模式,`PAPO` 和稳定的 `NPR` 引擎共同实现了可靠的结构探索和更强的性能。 ### 6.1.2. 推理加速与效率 以下是原文 `Table 3` 所示的 `tokens per second (TPS)` 和加速比结果: <div class="table-wrapper"><table> <thead> <tr> <td rowspan="2">Method</td> <th colspan="2">AIME25</th> <th colspan="2">AIME24</th> <th colspan="2">HMMT25</th> <th colspan="2">AMC23</th> <th colspan="2">ZebraLogic</th> </tr> <tr> <th>TPS</th> <th>Speedup</th> <th>TPS</th> <th>Speedup</th> <th>TPS</th> <th>Speedup</th> <th>TPS</th> <th>Speedup</th> <th>TPS</th> <th>Speedup</th> </tr> </thead> <tbody> <tr> <td>SR</td> <td>646.8</td> <td>1.0×</td> <td>667.5</td> <td>1.0×</td> <td>683.8</td> <td>1.0×</td> <td>685.5</td> <td>1.0×</td> <td>649.7</td> <td>1.0×</td> </tr> <tr> <td>MULTIVeRsE</td> <td>1579.0</td> <td>2.4×</td> <td>1096.5</td> <td>1.6×</td> <td>1465.1</td> <td>2.1×</td> <td>1139.9</td> <td>1.7×</td> <td>853.9</td> <td>1.3×</td> </tr> <tr> <td>NPR-Inst.</td> <td>2979.8</td> <td>4.6×</td> <td>2768.5</td> <td>4.1×</td> <td>2784.1</td> <td>4.1×</td> <td>1986.3</td> <td>2.9×</td> <td>2245.5</td> <td>3.5×</td> </tr> </tbody> </table></div> **关键发现**: - `NPR` 在所有五个基准测试中实现了最佳效率,持续优于 `Multiverse` (1.3倍 - 2.4倍加速) 和自回归基线。 - 加速比随任务难度而增加:在更困难的问题(`AIME25`: 4.6倍,`HMMT25`: 4.1倍)上观察到更大的收益,而在相对容易的问题(`AMC23`: 2.9倍)上收益较小。这表明当需要更深入地探索解决方案路径时,`NPR` 的方法变得越来越有优势。 ### 6.1.3. 并行推理触发分析 通过计算并行推理触发率来量化模型生成同时、非顺序推理的倾向。 { \mathrm { p a r a l l e l { \mathrm { - } } r a t e } } = { \frac { N _ { \mathrm { p a r a l l e l } } } { N _ { \mathrm { t o t a l } } } } \times 1 0 0 % 符号解释: **符号解释**: - N_{\text{parallel}}:展现并行推理行为的解决方案数量。: 展现并行推理行为的解决方案数量。 - N_{\text{total}}: 评估的测试案例总数。 以下是原文 `Table 4` 所示的 `NPR` 和 `Multiverse` 在不同数据集上的并行推理触发率比较: <div class="table-wrapper"><table> <thead> <tr> <th>Model</th> <th>AIME25</th> <th>AIME24</th> <th>HMMT25</th> <th>Olympiad</th> <th>Minerva</th> <th>ZebraLogic</th> <th>AMC23</th> <th>MATH500</th> </tr> </thead> <tbody> <tr> <td>MV-32B</td> <td>65.0</td> <td>62.9</td> <td>63.3</td> <td>69.5</td> <td>66.9</td> <td>45.8</td> <td>70.0</td> <td>76.0</td> </tr> <tr> <td>NPR-Inst.</td> <td>100.0</td> <td>100.0</td> <td>100.0</td> <td>100.0</td> <td>100.0</td> <td>100.0</td> <td>100.0</td> <td>100.0</td> </tr> </tbody> </table></div> **关键发现**: - `MV-32B` 的并行率在不同数据集上表现出显著波动,表明其并行推理的采用高度依赖于数据集特性。例如,在 `ZebraLogic` 等逻辑密集型任务上的性能明显低于一些数学竞赛数据集。 - 相比之下,`NPR` 模型在所有八个数据集上都达到了 **100.0%** 的统一并行率。这种一致性表明,端到端的 `NPR` 训练流程更可靠地将并行推理制度化为模型的默认问题解决模式,而与数据集领域或复杂性无关。 ### 6.1.4. 测试时可扩展性 `NPR` 的测试时可扩展性通过 `avg@8` 和 `best@8` 分数进行评估。 以下是原文 `Table 5` 所示的 `SFT` 和 `RL` 检查点在 `Instruct` 和 `Non-thinking Qwen3-4B` 主干模型上的性能: <div class="table-wrapper"><table> <thead> <tr> <td></td> <th colspan="2">AIME25</th> <th colspan="2">AIME24</th> <th colspan="2">HMMT25</th> <th colspan="2">AMC23</th> </tr> <tr> <td></td> <th>avg@8</th> <th>best@8</th> <th>avg@8</th> <th>best@8</th> <th>avg@8</th> <th>best@8</th> <th>avg@8</th> <th>best@8</th> </tr> </thead> <tbody> <tr> <td>Qwen3-4B-Instruct-2507</td> <td>47.4</td> <td>63.3</td> <td>60.0</td> <td>86.7</td> <td>31.0</td> <td>46.7</td> <td>92.2</td> <td>96.7</td> </tr> <tr> <td>NPR-BETA-Inst.</td> <td>42.9</td> <td>63.3</td> <td>50.8</td> <td>83.3</td> <td>23.3</td> <td>46.7</td> <td>85.9</td> <td>97.5</td> </tr> <tr> <td>NPR-Inst.</td> <td>50.4</td> <td>70.0</td> <td>63.3</td> <td>80.0</td> <td>30.8</td> <td>53.3</td> <td>93.1</td> <td>100.0</td> </tr> <tr> <td>Qwen3-4B-Non-thinking</td> <td>19.1</td> <td>36.7</td> <td>25.0</td> <td>40.0</td> <td>12.1</td> <td>23.3</td> <td>65.6</td> <td>93.3</td> </tr> <tr> <td>NPR-BETA-Non.</td> <td>43.8</td> <td>70.0</td> <td>52.5</td> <td>83.3</td> <td>29.2</td> <td>46.7</td> <td>85.3</td> <td>97.5</td> </tr> <tr> <td>NPR-Non.</td> <td>53.8</td> <td>76.7</td> <td>62.5</td> <td>80.0</td> <td>32.9</td> <td>53.3</td> <td>89.7</td> <td>100.0</td> </tr> </tbody> </table></div> **关键发现**: - `NPR` 显著提高了测试时的神谕覆盖率 (`best@8`),尤其是在基础模型相对较弱时,收益最大且最一致。 - 对于 `Non-thinking` 主干模型,监督微调 (`SFT`) 将 `AIME25` 上的 `best@8` 从 36.7 提高到 70.0,而 `NPR` 进一步将其提高到 76.7,比 `SFT` 高出 6.7 点。 - 对于 `HMMT25` 上的相同主干模型,`best@8` 在 `SFT` 后从 23.3 提高到 46.7,在 `NPR` 后进一步提高到 53.3,再次提升 6.6 点。 - 对于 `Instruct` 主干模型,`NPR` 将 `AIME25` 的 `best@8` 提高到 70.0,而 `SFT` 为 63.3。 - 总体而言,`NPR` 扩大了 `SFT` 带来的覆盖率优势,将样本多样性的适度增加转化为 `best@8` 的显著提升。 ### 6.1.5. `NPR` 的演化动态 以下是原文 `Figure 4` 所示的 `AIME 2025` 评估上的学习动态: ![Figure 4 | Learning dynamics of evaluation on AIME 2025.](/files/papers/693933a0a90c4b49441f2e8b/images/4.jpg) *该图像是一个图表,展示了在 AIME 2025 基准测试中不同阶段的训练动态。各阶段的平均准确率随训练步数变化,阶段 1(Format-Follow RL)达到 47.9%,阶段 2(Parallel Warmup)为 42.9%,阶段 3(Native-Parallel RL)最终达到 50.4%。* **关键发现**: - 向原生并行推理 (`NPR`) 的演化是渐进且结构化的。 - 在训练初期,天真地强制并行生成格式会严重降低性能(例如,`Qwen3-4B-Instruct-2507` 在 `AIME25` 上从 47.5 下降到 17.5)。 - 为了解决这个问题,`NPR` 采用了三阶段流水线: - <strong>阶段 1 (Format-Follow RL)</strong>: 应用遵循格式的强化学习来稳定格式合规性和正确性,生成可靠的轨迹,其平均准确率达到 47.9%。这些轨迹仅作为后续阶段的训练数据。 - <strong>阶段 2 (Parallel Warmup)</strong>: 进行并行预热 (`SFT`),教授独立的计划和正确的特殊词元使用。这个结构化学习导致了短暂的性能下降(平均准确率 42.9%)。 - <strong>阶段 3 (Native-Parallel RL)</strong>: 使用原生并行 `RL` 来恢复和增强推理质量,最终结果(平均准确率 50.4%)超越了自回归基线。 - 这表明 `NPR` 并非仅仅是格式监督的结果,而是通过逐步对齐格式、并行结构和自适应策略学习而产生的。 ## 6.2. 案例研究 `NPR` 的一个关键特性是其自适应性:更具挑战性的问题会自动触发更广泛的探索,而较简单的问题则只引发少量集中的分支。模型将计算组织成并行块,其中最终块通常充当多角度验证器,对候选解决方案进行交叉检查或细化。 并行性以两种互补方式运作: 1. 它可以同时探索多个独立的解决方案策略。 2. 它可以将一个问题分解为更小的子问题并并行解决。 对于正确示例,至少有一个分支收敛到有效答案,并且验证块会保留它。错误通常源于不正确的高级计划,该计划通过多个分支传播,或源于扩展为不必要冗长、容易出错的推理链的分支。通过探索多样化轨迹并应用轻量级一致性检查,并行架构比依赖单一顺序推理路径提供了显著更高的鲁棒性。 ### 6.2.1. 案例 1:子问题分解与反思性推理 以下是原文 `Table 6` 所示的案例 1,展示了将问题分解为多个子问题以进行独立解决,随后在 $<takeaway>$ 块中进行反思性推理。 | Case #1 | :---------------------------------------------- | Problem: $f ( x ) = \frac { 2 - x } { \log ( 2 - \log ( x - 2 ) ) } .$ Express your answer in interval notation. | **NPR Generation:** | $<guideline>$ | $<plan>1: Determine the domain by identifying all values of $x$ for which the denominator is defined and non-zero, and the logarithmic expressions are valid.</plan>$ | $<plan>2: Break down the inner logarithm $\log ( x - 2 )`and the outer logarithm`\log ( 2 - \log ( x - 2 ) )$ to find the required domain constraints.</plan>$ | $<plan>3: Ensure that the argument of every logarithm is positive and that the entire denominator is not zero.</plan>$ | $</guideline>$ | $<step>1: . . . , Therefore, $x = 12$ must be excluded from the domain.</step>$ | $<step>2: . . . , So the domain is $( 2 , 102 ) \setminus \{ 12 \}`, or`( 2 , 12 ) \cup ( 12 , 102 ) .</step>$ | $<step>3: . . . , Thus, the condition $x \neq 12`does not introduce any new restriction because`x = 12`is already excluded by`\bar{x_{~<~10}}$. So no additional point needs to be removed from the domain.</step>$ | $<takeaway>. . . , which gives $x - 2 < 100`, so`x < 102`, but wait — this is not tight. Wait — re-examine: We said`\log ( x - 2 ) < 2 \Rightarrow x - 2 < 100 \Rightarrow x < 102`, which is correct. But is that the only constraint? Actually,`x - 2 > 0 $ $x > 2,`and`x < 102 \AA`, so domain is`( 2 , 102 ) , \cdots ,`But wait — what about the inner logarithm? We need`x > 2`, which is already covered. , Therefore, the domain is`( 2 , 12 ) \cup ( 12 , 102 )`-`</takeaway>` | $<guideline>$ | $<plan>1: Verify the domain by testing values within the proposed intervals.</plan>$ | $<plan>2: Confirm that all conditions (logarithm domains, non-zero denominator) are fully captured.</plan>$ | $</guideline>$ | $<step>1: . . . , ll tests confirm that the domain is $( 2 , 12 ) \cup ( 12 , 102 ) .</step>$ | $<step>2: , No other points cause issues. The logarithmic functions are defined in the intervals, and no other values make the denominator zero. Thus, the domain is fully described.</step>$ | $<takeaway>All constraints have been verified through both algebraic reasoning and numerical testing. … </takeaway>$ | The om thecon = og( is (2, 12) ∪ (12, 102) **分析**: 此案例展示了 `NPR` 如何处理一个复杂的函数定义域问题。模型首先在第一个 $<guideline>$ 块中制定了三个并行计划 ($<plan>$): 1. 确定分母定义且非零,以及对数表达式有效的所有 $x$ 值。 2. 分解内层对数和外层对数以找到所需定义域约束。 3. 确保每个对数的自变量为正,并且整个分母不为零。 随后,三个 $<step>$ 块并行执行这些计划。值得注意的是,$<step>3$ 发现了 x = 12 已经被其他条件排除,没有引入新的限制。第一个 $<takeaway>$ 块进行了反思性推理,重新检查了约束条件,并确认了定义域为 (2, 12) \cup (12, 102)。 接着,模型进入第二个 $<guideline>$ 块,制定了验证方案,即通过测试提议区间内的值和确认所有条件都被捕获。最后的 $<step>$ 块和 $<takeaway>$ 块对结果进行了验证和总结,确认了所有约束都通过代数和数值推理得到了验证。这体现了 `NPR` 利用并行性进行问题分解、多角度分析和自我修正的能力。 ### 6.2.2. 案例 2:探索不同方法与反思性交叉验证 以下是原文 `Table 7` 所示的案例 2,展示了探索解决问题的不同方法并在 $<step>$ 中进行反思性推理。 | Case #2 | :---------------------------------------------- | Problem: Altitudes AD and BE of ABC intersect at H. If ∠BAC = 54° and ∠ABC = 52°, then what is ∠AHB? NPR Generation: $<guideline>$ | $<plan>1: Calculate ∠C using the relationship involving the angles of the triangle.</plan>$ | $<plan>2: Apply the fact that in triangle ABC, with altitudes D and B intersecting at H, the quadrilateral ADHE is cyclic, and use angle chasing in this cyclic quadrilateral.</plan>$ | $<plan>3: Use the known result that ∠AHB = 180° - ∠C, where H is the orthocenter of triangle ABC.</plan>$ | $</guideline>$ | $<step>1: · . , Therefore, ∠AHB = 180° - 74° = 106°. </step>$ | $<step>2: . ., but note that ∠AED = 180° - ∠ABE = 180° - 90° + ∠ABC = 90° + 52° = 142°? Wait—better angle relationships. Alternatively, consider triangle ABC, . , then ∠AHB = 180° - 74° = 106°. </step>$ | $<step>3: · . - , Therefore, ∠AHB = 180° - ∠ACB = 180° - 74° = 106°.</step>$ | $<takeaway>All three approaches led to the same conclusion: The reasoning is consistent across different angle properties or use of the formula. All confirm the same result.</takeaway>$ | $<guideline>$ | $<plan>1: Verify the result by direct angle chasing in quadrilateral ADHE. </plan>$ | $<plan>2: Cross-check with triangle angle sum. </plan>$ | $</guideline>$ | $<step>1: Wait — actually, ∠ABD is not necessarily that. Wait: ∠ABD is part of ∠ABC = 52°. Actually, since AD is an altitude from A, ., Wait — in triangle ABC, AD ⊥ BC, so D lies on BC, BE ⊥ AC, so E lies on AC. Then quadrilateral BDHE has right angles at D and E, so BDHE is cyclic. Therefore, ∠BHD = 180° - ∠BEC? Wait. All calculations seem coherent. The orthocenter property holds. </step>$ | $<step>2: · . . , This confirms the earlier conclusion.</step>$ | $<takeaway>All lines of reasoning—whether through known orthocenter properties, cyclic quadrilateral angle chasing, or direct triangle angle sum—led to the same result: ∠AHB = 106° The result is consistent, reliable, and internally verified.</takeaway>$ | The measure of ∠AHB is 106° **分析**: 此案例是一个几何问题,模型在第一个 $<guideline>$ 块中并行地提出了三种解决策略 ($<plan>$): 1. 使用三角形内角关系计算 \angle C2.利用ADHE是一个共圆四边形的事实进行角度追踪。3.使用正交中心(orthocenter)的已知性质。 2. 利用 `ADHE` 是一个共圆四边形的事实进行角度追踪。 3. 使用正交中心 (`orthocenter`) 的已知性质 \angle AHB = 180^\circ - \angle C。 在随后的三个 $<step>$ 块中,模型并行执行这些计划。值得注意的是,$<step>2$ 中出现了“`Wait—better angle relationships`”和“`Wait`”这样的自我修正和反思,表明模型在并行探索中发现了潜在的错误并进行了调整。最终,所有三个并行路径都得出 \angle AHB = 106^\circ$$ 的相同结论。第一个 <takeaway><takeaway> 块确认了所有方法的一致性。

在第二个 <guideline><guideline> 块中,模型又提出了两个验证计划:通过直接在四边形 ADHE 中追踪角度和通过三角形内角和进行交叉检查。<step>1<step>1 再次显示了模型在验证过程中的自我修正和思考痕迹(例如“Wait — actually, ∠ABD is not necessarily that”),最终确认了正交中心性质的有效性。最终的 <takeaway><takeaway> 块总结了所有推理路径(正交中心性质、共圆四边形角度追踪、三角形内角和)都得到了相同的可靠结果,并通过内部验证确认。

这两个案例生动地展示了 NPR 如何利用并行性进行:

  • 任务分解: 将复杂问题拆解为更小的、可并行处理的子任务。

  • 策略探索: 同时尝试多种不同的解题方法或推理路径。

  • 自我修正与反思: 在并行处理过程中发现并纠正错误,或对中间结果进行重新评估和验证。

  • 结果验证: 从多个角度对最终结果进行交叉检查,提高解决方案的可靠性。

    这证明了结构化并行探索不仅能带来更快的推理,还能提高解决方案的可靠性。

6.3. 数据呈现

所有关键表格已在 6.1.16.1.26.1.36.1.4 小节中转录并分析完毕。

7. 总结与思考

7.1. 结论总结

本文提出了 Native Parallel Reasoner (NPR),一个无需教师模型的框架,旨在赋能大型语言模型 (LLM) 自主发展出真正的并行推理能力。NPR 通过一个精巧的三阶段渐进式训练范式实现这一目标:首先,通过遵循格式的强化学习 (RL) (NPR-ZERO) 诱导模型发现并行结构;其次,通过拒绝采样和并行预热 (SFT) (NPR-BETA) 稳定这些结构;最后,通过新颖的并行感知策略优化 (PAPO) 算法和鲁棒的 NPR 引擎,进一步优化和泛化模型的原生并行推理能力。

实验结果在八个推理基准测试上证明了 NPR 的卓越性能:与基线模型相比,NPR 实现了高达 24.5% 的性能提升和高达 4.6 倍的推理加速。尤其值得注意的是,NPR 实现了 100% 的真实并行执行,有效避免了其他方法常见的伪并行或退化为自回归解码的问题。分析表明,NPR 的自我蒸馏数据更有效,并行 SFTRL 阶段都带来了显著收益。定性案例研究进一步展示了 NPR 如何根据问题难度自适应地调整并行程度和风格,利用并行性进行问题分解、策略探索、自我修正和多角度验证。

这些发现确立了 NPR 作为一种高效、可扩展且真正并行的智能体式推理新标准,为 LLM 迈向更通用、更强大的智能提供了有前景的方向。

7.2. 局限性与未来工作

论文中没有明确列出局限性部分,但从“初步探索”以及研究的性质中可以推断出一些潜在的局限和未来的研究方向:

7.2.1. 潜在局限性

  1. 基础模型的依赖性: 论文指出,在 Qwen2.5 系列模型和普通的基座 LLM 上,阶段一的自我蒸馏失败严重,这表明 NPR 的成功可能依赖于一个已经具备较强指令遵循能力和基础推理能力的预训练模型 (如 Qwen3-4B-Instruct)。对于更弱的模型,可能需要额外的预训练或更复杂的引导机制。
  2. 训练成本: 尽管 NPR 实现了推理加速,但其三阶段的训练过程,特别是强化学习部分和需要稳定 NPR 引擎的大规模并行 RL 训练,可能需要显著的计算资源和时间成本。
  3. 模式通用性: NPR 依赖于明确定义的 <guideline><guideline>, <plan><plan>, <step><step>, <takeaway><takeaway> 标签来构建 Map-Process-Reduce 模式。这种结构对于数学、逻辑等结构化推理任务非常有效,但对于更开放、更具创造性或非结构化的任务,这种固定模式的适用性可能有限。模型学习出完全自适应的、非预设的并行结构的能力仍有待探索。
  4. 误差分析的深度: 案例研究指出了错误可能源于“不正确的高级计划”或“不必要冗长、容易出错的推理链”。对这些错误类型进行更深入的分类和系统性缓解策略(例如,在 PAPO 奖励中引入对规划质量的惩罚)是未来的研究方向。
  5. “思维模式”LLM 的集成: 论文明确提到避开了 Qwen 的“思维模式”变体,因为它们难以用标准 SFT 训练且 RL 先验难以修改。这表明将 NPR 的并行推理能力集成到已具备复杂内部推理机制的“思维模式” LLM 中,仍是一个未解决的挑战。

7.2.2. 未来工作

  1. 更广泛的任务泛化: 将 NPR 应用于更多样化的推理任务和领域,包括开放式问答、代码生成、科学发现等,以验证其并行机制的普适性。
  2. 动态结构学习: 探索模型能否自主学习和推断出最适合当前任务的并行结构和分解策略,而不仅仅是遵循预设的标签格式。
  3. 效率优化: 进一步优化 NPR 引擎和 PAPO 算法,以降低并行 RL 训练的计算成本,并可能将其扩展到更大的模型规模。
  4. 结合外部工具: 探索 NPR 与外部工具(如计算器、API、搜索引擎)的结合,使其并行分支能够利用这些工具来增强推理能力。
  5. 多智能体协作: 虽然 NPR 将并行性内化到单个 LLM 中,但可以进一步探索其与真正的多智能体系统进行协作,实现更高层次的并行和分布式推理。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. “无需教师模型”的范式转变: NPR 最具启发性的一点是其“无需教师模型”的策略。在 LLM 领域,我们常常看到“大模型带小模型”的蒸馏范式,但这可能限制了小模型发现新颖策略的能力。NPR 通过自我蒸馏和渐进式 RL,展示了模型如何能够从内部演化出复杂的新能力,这对于减少对昂贵外部资源(如 GPT-4 API 访问)的依赖,以及提升模型自身的创新潜力具有重要意义。
  2. 渐进式训练的优雅: NPR 的三阶段训练课程设计非常巧妙。从“冷启动”的格式引导,到 SFT 的稳定,再到 RL 的强化,这种层层递进的方法为学习复杂行为提供了稳定的路径。这提示我们,在训练 LLM 学习新能力时,可能需要精心设计的“课程学习”而非一蹴而就的训练。
  3. 工程实践的重要性: NPR 引擎的开发强调了工程实践在推动 LLM 创新中的关键作用。解决 KV-cache 管理、词元预算和非法状态等底层稳定性问题,对于大规模并行 RL 训练至关重要。这提醒我们,算法创新与工程实现必须紧密结合才能发挥最大效用。
  4. 并行推理的巨大潜力: NPR 实现了 100% 的真实并行执行,并在推理效率和准确性上带来了显著提升。这种能力对于未来的智能体 AI 至关重要,它意味着模型可以更快速、更全面地探索解决方案空间,减少“前缀陷阱”,并进行更可靠的自我验证。这为 LLM 解决现实世界复杂问题(如科学研究、工程设计)提供了新的可能。

7.3.2. 批判

  1. 模式的僵硬性: 尽管 Map-Process-Reduce 模式对于结构化任务效果显著,但其预设的 <guideline><guideline>, <plan><plan>, <step><step>, <takeaway><takeaway> 标签可能会限制模型在处理完全非结构化或高度创造性任务时的灵活性。未来的研究能否让模型自主发现最适合当前任务的并行结构,而不是被预设的模式所约束?这可能是从“原生并行”到“自适应并行”的更深层次飞跃。
  2. 奖励函数的局限: PAPO 的奖励函数主要基于格式合规性和最终答案的准确性。虽然有效,但这可能不足以引导模型生成“最优雅”、“最简洁”或“最可解释”的并行推理路径。如果能够引入更细粒度的“过程质量”奖励信号(例如,奖励那些有效利用并行性来避免冗余计算、或者生成更具洞察力中间步骤的分支),可能会进一步提升 NPR 的推理质量。
  3. 可解释性与控制: 并行推理虽然高效,但其多分支、多路径的特性可能使其内部决策过程更难追踪和解释。如何确保并行推理过程的可解释性,以及如何对并行分支的行为进行细粒度控制,是未来需要关注的问题。特别是在安全攸关的应用中,理解模型为何选择特定并行路径至关重要。
  4. 通用性与“思维模式”模型的融合挑战: 论文提到了 NPR 在基础模型选择上的局限性,特别是在弱模型和“思维模式”模型上的训练困难。如果不能推广到更广泛的 LLM 架构,其应用范围可能会受限。如何克服这些挑战,将 NPR 的优势融入更复杂的“思维模式”或混合架构 LLM,是值得深入探讨的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。