论文状态：已完成

HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation

发表：2025/10/08

大语言模型强化学习训练 (63)代理检索增强生成 (1)层次化过程奖励 (1)知识驱动的过程奖励 (1)检索决策优化 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

HiPRAG提出了一种新颖的分层过程奖励方法，解决了智能体检索增强生成中常见的过度搜索和欠搜索问题。通过将推理轨迹分解为可解析步骤，该方法实时评估每个搜索决策的必要性并提供细粒度奖励，显著提高了搜索效率和准确率。实验表明，HiPRAG在多个QA基准上超越基线模型，展示了优化推理过程的重要性。

摘要

Agentic Retrieval-Augmented Generation (RAG) is a powerful technique for incorporating external information that Large Language Models (LLMs) lack, enabling better problem solving and question answering. However, suboptimal search behaviors exist widely, such as over-search (retrieving information already known) and under-search (failing to search when necessary), which leads to unnecessary overhead and unreliable outputs. Current training methods, which typically rely on outcome-based rewards in a Reinforcement Learning (RL) framework, lack the fine-grained control needed to address these inefficiencies. To overcome this, we introduce $\textbf{Hi}$ erarchical $\textbf{P}$ rocess Rewards for Efficient agentic $\textbf{RAG}$ (HiPRAG), a novel training methodology that incorporates a fine-grained, knowledge-grounded process reward into the RL training. Our approach evaluates the necessity of each search decision on-the-fly by decomposing the agent's reasoning trajectory into discrete, parsable steps. We then apply a hierarchical reward function that provides an additional bonus based on the proportion of optimal search and non-search steps, on top of commonly used outcome and format rewards. Experiments on the Qwen2.5 and Llama-3.2 models across seven diverse QA benchmarks show that our method achieves average accuracies of 65.4% (3B) and 67.2% (7B), outperforming strong agentic RAG baselines. This is accomplished while dramatically improving search efficiency, reducing the over-search rate from over 27% in baselines to just 2.3% and concurrently lowering the under-search rate. These results demonstrate the efficacy of optimizing the reasoning process itself, not just the final outcome. Further experiments and analysis demonstrate that HiPRAG shows good generalizability across a wide range of RL algorithms, model families, sizes, and types. This work demonstrates the importance and potential of fine-grained control through RL, for improving the efficiency and optimality of reasoning for search agents. We will release our code upon acceptance.

思维导图

论文精读

中文精读约 43 分钟读完 · 28,807 字

1. 论文基本信息

1.1. 标题

HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation (HiPRAG: 用于高效智能体检索增强生成的分层过程奖励)

1.2. 作者

论文由匿名作者撰写，目前处于双盲评审阶段。

1.3. 发表期刊/会议

该论文提交至 ICLR (International Conference on Learning Representations) 进行评审。ICLR 是机器学习领域顶级的国际会议之一，以其对深度学习、表示学习以及相关领域的开创性研究的关注而闻名。在此会议上发表的论文通常代表了该领域的最先进水平。

1.4. 发表年份

2025年（根据 Published at (UTC)：2025-10-08T00:00:00.000Z 判断，这是一个未来的日期，表明该论文可能仍处于预发布或评审阶段）。

1.5. 摘要

智能体检索增强生成 (Agentic Retrieval-Augmented Generation, RAG) 是一种强大的技术，旨在将大型语言模型 (Large Language Models, LLMs) 缺乏的外部信息整合进来，以提升问题解决和问答能力。然而，现有的 RAG 系统普遍存在次优搜索行为，例如过度搜索 (over-search)（检索已知信息）和欠搜索 (under-search)（未在必要时进行搜索），这导致了不必要的开销和不可靠的输出。当前基于强化学习 (Reinforcement Learning, RL) 框架中通常依赖结果导向奖励 (outcome-based rewards) 的训练方法，缺乏解决这些低效率问题所需的细粒度控制。为了克服这一挑战，本文引入了 Hierarchical Process Rewards for Efficient agentic RAG (HiPRAG)，一种新颖的训练方法，它将细粒度、知识感知 (knowledge-grounded) 的过程奖励 (process reward) 融入 RL 训练中。该方法通过将智能体的推理轨迹 (reasoning trajectory) 分解为离散、可解析的步骤，实时评估每个搜索决策的必要性。然后，它应用一个分层奖励函数 (hierarchical reward function)，在常用的结果奖励和格式奖励 (format rewards) 的基础上，根据最优搜索和非搜索步骤的比例提供额外的奖励。在 Qwen2.5 和 Llama-3.2 模型上进行的跨七个不同 QA 基准的实验表明，HiPRAG 的平均准确率达到了 65.4% (3B) 和 67.2% (7B)，优于强大的智能体 RAG 基线模型。与此同时，该方法显著提高了搜索效率，将基线模型的过度搜索率从超过 27% 降低到仅 2.3%，并同时降低了欠搜索率。这些结果证明了优化推理过程本身而非仅仅最终结果的有效性。进一步的实验和分析表明，HiPRAG 在各种 RL 算法、模型家族、大小和类型中都显示出良好的泛化能力。这项工作展示了通过 RL 进行细粒度控制对于提高搜索智能体推理效率和最优性的重要性和潜力。代码将在论文被接受后发布。

1.6. 原文链接

https://openreview.net/pdf?id=Gt4v9WBPzm 发布状态：根据 Published at (UTC)：2025-10-08T00:00:00.000Z 判断，该论文目前为预印本（preprint）或正在评审中，尚未正式发表。

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (Large Language Models, LLMs) 在处理复杂问题和问答时，往往受限于其内部知识的范围和时效性。智能体检索增强生成 (Agentic Retrieval-Augmented Generation, RAG) 系统通过赋予 LLM 自主搜索外部信息的能力，显著提升了其问题解决能力。这种系统通常通过多步骤推理 (multi-step reasoning) 和外部知识整合来运作，并且在一些最新框架中，强化学习 (Reinforcement Learning, RL) 被用来训练 LLM 决定何时以及如何检索信息。

然而，当前的智能体 RAG 智能体普遍存在两种关键的次优搜索行为：

过度搜索 (over-search)：智能体检索了已经已知或不必要的信息，导致计算资源浪费和推理效率低下。
欠搜索 (under-search)：智能体未能在必要时检索外部知识，导致回答不准确（幻觉）或事实性错误。

这些问题削弱了智能体 RAG 系统的准确性和效率，凸显出仅仅将 LLM 与搜索工具配对是不够的，如何优化智能体使用搜索工具的方式才是关键。现有训练方法，特别是基于 RL 的方法，大多采用结果导向奖励 (outcome-based rewards)，即只根据最终答案的正确性给予奖励。这种奖励机制虽然能促进最终答案的准确性，但缺乏对中间推理过程的细粒度控制，无法有效识别和纠正上述次优搜索行为。例如，基于长度或检索次数的惩罚可能导致智能体完全避免搜索，即使搜索是必要的，从而加剧欠搜索问题；而基于模型置信度或知识感知度的奖励则可能因其不完美的代理性 (imperfect proxies) 而引入偏差或提供弱信号。

2.2. 核心贡献/主要发现

本文提出了 HiPRAG (Hierarchical Process Rewards for Efficient agentic RAG)，一个旨在解决智能体 RAG 系统效率低下问题的创新训练框架。其核心贡献和主要发现包括：

提出分层、知识感知的过程奖励机制 (Hierarchical, Knowledge-aware Process Reward Mechanism)：HiPRAG 引入了一种新颖的 RL 训练方法，通过在 RL 循环中整合细粒度、知识感知的过程奖励，为智能体的搜索行为提供了更精准的监督。这使得智能体不仅追求最终结果的正确性，还优化了中间推理步骤的效率和最优性。
高效即时次优搜索检测方法 (Efficient On-the-Fly Suboptimal Search Detection)：为了有效应用过程奖励，HiPRAG 设计了一套高效、直接的实时检测方法，用于识别过度搜索 (over-search) 和欠搜索 (under-search) 行为。这包括：
- 通过将搜索查询作为独立问题，并使用外部 LLM 判别器 (LLM judge) 评估语义等效性来检测过度搜索。
- 通过外部验证器 (verifier model) 评估非搜索步骤中推理和结论的逻辑准确性来检测欠搜索。
结构化、可解析的输出格式 (Structured, Parsable Output Format)：HiPRAG 强制智能体生成一种明确的、机器可解析的输出格式。将推理轨迹分解为离散的 $<step>$ 块，每个块明确标记为搜索步骤或非搜索步骤，从而克服了传统格式中步骤边界模糊和内部推理隐式的问题，为实时、基于规则的检测和奖励计算奠定了基础。
显著提升准确性和搜索效率 (Significant Improvements in Accuracy and Search Efficiency)：
- 在七个不同的 QA 基准测试中，HiPRAG 在 Qwen2.5 和 Llama-3.2 模型上实现了 65.4% (3B) 和 67.2% (7B) 的平均准确率，显著优于现有智能体 RAG 基线。
- 大幅提升了搜索效率，将过度搜索率 (OSR) 从基线模型的 27% 降低到仅 2.3%，同时降低了欠搜索率 (USR)。
良好的泛化能力 (Good Generalizability)：实验证明 HiPRAG 在不同模型家族 (Qwen2.5, Llama-3.2)、模型大小 (3B, 7B)、RL 算法 (PPO, GRPO) 和模型类型 (base, instruct) 上都表现出良好的泛化能力和鲁棒性。
验证过程优化而非仅结果 (Validating Process Optimization, Not Just Outcome)：这项工作有力地证明了优化智能体推理过程本身对于创建强大且高效的 LLM 搜索智能体的重要性，而不仅仅是关注最终结果。

3. 预备知识与相关工作

3.1. 基础概念

大型语言模型 (Large Language Models, LLMs)：指参数量巨大，通常通过在海量文本数据上进行自监督学习（如预测下一个词）而训练出来的深度学习模型。它们能够理解、生成和处理人类语言，执行各种自然语言处理任务，如问答、翻译、摘要等。
检索增强生成 (Retrieval-Augmented Generation, RAG)：一种结合了检索系统和生成式 LLM 的技术。当 LLM 需要回答问题或生成文本时，RAG 系统首先从一个大型知识库（如维基百科、数据库）中检索相关信息，然后将这些检索到的信息作为上下文输入给 LLM，以帮助其生成更准确、更具事实性的回答，减少“幻觉”现象。
智能体 RAG (Agentic RAG)：RAG 系统的进化版本，其中 LLM 不仅仅是被动地接收检索到的信息，而是被赋予了“智能体”的能力，能够自主地决定何时、何地以及如何进行检索。它可以在多步推理过程中，根据当前状态和信息需求，主动发出搜索查询，并整合检索结果来指导后续的推理步骤。这种能力使其能够执行更复杂的、需要多步骤规划和外部知识获取的任务。
强化学习 (Reinforcement Learning, RL)：机器学习的一个分支，智能体 (agent) 通过与环境 (environment) 交互来学习最优行为策略。智能体执行动作 (action)，环境根据动作反馈奖励 (reward) 或惩罚，智能体的目标是最大化长期累积奖励。在本文中，LLM 是智能体，其推理和搜索决策是动作，答案的正确性、搜索效率等是奖励。
奖励函数 (Reward Function)：在强化学习中，奖励函数定义了智能体在执行某个动作后从环境获得的即时反馈。它是训练智能体行为的关键，智能体通过最大化累计奖励来学习最优策略。
过程奖励 (Process Reward)：区别于传统的结果奖励 (outcome-based reward)，过程奖励关注智能体在完成任务过程中每一步决策的质量。它为中间步骤（如搜索决策）提供反馈，而不是仅仅在任务结束时对最终结果进行评估。这种细粒度的奖励有助于引导智能体学习更高效、更优化的行为路径。
过度搜索 (Over-search)：智能体在推理过程中执行了不必要或冗余的搜索操作。例如，它可能检索了其内部知识库中已经包含的信息，或者检索了与当前任务无关的信息。这导致了计算资源的浪费和推理效率的降低。
欠搜索 (Under-search)：智能体在推理过程中未能执行必要的搜索操作，导致在需要外部信息时依赖自身不准确的内部知识，从而产生幻觉或事实性错误。
Proximal Policy Optimization (PPO)：一种流行的强化学习算法，属于策略梯度方法。PPO 旨在通过限制策略更新的幅度来提高训练的稳定性和效率。它通过在一个小批量数据上进行多次迭代优化，并在每次迭代中限制新旧策略之间的差异，从而平衡探索和利用。
Group Relative Policy Optimization (GRPO)：PPO 的一个变体，通常被认为是“无 Critic (critic-free)”的方法。它通过直接优化策略相对于一组参考策略的改进来工作，有时可以提供比标准 PPO 更高的样本效率和更快的收敛速度，尤其是在 LLM 训练等复杂场景中。

3.2. 前人工作

3.2.1. 智能体 RAG 与工具使用 (Agentic RAG & Tool Use)

ReAct (Yao et al., 2023)：开创性地展示了 LLM 如何将推理 (Reasoning) 和行动 (Acting) 结合起来，自主决定何时执行搜索查询并整合结果，为智能体 RAG 系统奠定了基础。LLM 在 Thought 阶段进行推理，在 Action 阶段调用外部工具，然后观察 Observation 结果。
Chain-of-Retrieval (Wang et al., 2025b) & DeepRAG (Guan et al., 2025)：进一步细化了检索过程，将其结构化为顺序步骤，以更好地处理复杂查询。这些框架旨在通过更精细的检索编排来提升多跳推理能力。
基于 RL 的智能体 RAG (RL-Based Agentic RAG)：为了提升智能体的决策能力，越来越多的研究转向强化学习 (RL)。例如，Search-R1 (Jin et al., 2025b) 训练 LLM 学习何时以及如何与搜索引擎交互；R1-Searcher (Song et al., 2025a) 进一步激励 LLM 的搜索能力。ToolRL (Qian et al., 2025a) 和 ToRL (Li et al., 2025c) 等工作也表明，基于任务成功的奖励可以显著提升 LLM 的通用工具集成能力。

3.2.2. 高效智能体 RAG 与工具使用 (Efficient Agentic RAG & Tool Use)

自适应检索 (Adaptive Retrieval)：许多研究致力于使检索变得自适应，即只在模型内部知识不足时才触发检索。早期方法依赖启发式规则或分类器来检测不确定性 (Mallen et al., 2023; Dhole, 2025)。更复杂的方法则学习从 LLM 的内部状态评估其实时信息需求或自我意识 (Su et al., 2024; Zubkova et al., 2025)。
基于 RL 的效率优化 (RL-Based Efficiency Optimization)：RL 被广泛用于优化工具使用的效率。
- Search-efficient models (Sha et al., 2025)：通过 RL 训练更具搜索效率的模型。
- 减少不确定性 (Wu et al., 2025)：通过 RL 信号减少 LLM 的不确定性，从而缓解次优搜索行为。
- R1-Searcher++ (Song et al., 2025b) & Synergistic reasoning agents (Huang et al., 2025b)：利用 RL 激励智能体进行动态和必要的知识获取。
- ReARTeR (Sun et al., 2025)：引入了一个框架，其中包含可信赖的过程奖励模型 (process reward model) 来评估和精炼 RAG 管道中的每个步骤。
- 工具过度使用缓解 (Tool Overuse Mitigation)：在更广泛的工具使用领域，SMART (Qian et al., 2025b)、SMARTCAL (Shen et al., 2024) 和 OTC (Wang et al., 2025a) 训练智能体实现自我感知并进行最优的工具调用，通常也利用 RL。
- 可验证的逐步奖励 (Verifiable Stepwise Rewards)：Yue et al. (2025) 和 Ye et al. (2025) 也使用可验证的逐步奖励来促进更高效的通用推理路径。

3.3. 技术演进

从最初的仅生成式 LLM 到结合外部知识的 RAG，再到如今具备自主决策能力的智能体 RAG，技术演进的趋势是赋予 LLM 更多的自主性和对外部工具的灵活运用能力。RL 在这一演进中扮演了关键角色，使得 LLM 能够从简单的“生成器”转变为能够“思考”和“行动”的智能体。然而，伴随这种能力提升的是效率问题，例如过度搜索和欠搜索。因此，研究焦点逐渐从“能否使用工具”转向“如何更有效地使用工具”。本文的工作正是在这一背景下，通过引入细粒度过程奖励，进一步优化 RL 训练，以解决智能体 RAG 的效率瓶颈。

3.4. 差异化分析

HiPRAG 与现有工作的主要区别和创新点在于：

直接的即时搜索必要性评估 (Direct, On-the-fly Evaluation of Search Necessity)：与许多依赖模型置信度、知识分类器或单独训练的奖励模型作为间接代理来判断搜索必要性的方法不同，HiPRAG 引入了一种直接的、实时的方法来评估每个搜索步骤的必要性。它通过将智能体的推理轨迹分解为结构化步骤，并利用外部 LLM 判别器和验证器，对每个搜索或非搜索决策进行即时、知识感知的评估。
细粒度、分层过程奖励 (Fine-grained, Hierarchical Process Reward)：HiPRAG 的奖励函数是分层的，它不仅奖励最终答案的正确性和输出格式的遵循，还在这些基本条件满足后，额外奖励推理过程中的“最优步骤比例”。这种机制提供了比传统结果奖励或粗略惩罚更为细致和准确的训练信号，避免了过度抑制搜索能力的风险，同时直接激励智能体发展出对自身知识边界更细致的理解。
端到端优化推理过程 (End-to-End Optimization of Reasoning Process)：通过结合结构化输出格式、实时检测机制和分层过程奖励，HiPRAG 能够更全面地优化智能体的整个推理过程，而不仅仅是关注最终结果。这使得智能体能够同时提高准确性并显著改善搜索效率，有效缓解了过度搜索和欠搜索问题。

4. 方法论

本文提出的 HiPRAG 方法引入了一种细粒度的、基于过程的奖励机制，用于训练智能体检索增强生成 (Agentic RAG) 系统。该方法主要包括三个关键部分：

重新设计的结构化输出格式，支持推理步骤的基于规则的解析。
高效的即时检测方法，用于识别过度搜索 (over-search) 和欠搜索 (under-search) 行为。
分层奖励函数，动态地优先考虑答案正确性和搜索效率。

4.1. 方法原理

HiPRAG 的核心思想是，仅仅根据最终结果来训练智能体 RAG 系统是不足的，需要对智能体在多步推理过程中的每一步决策（特别是搜索决策）提供细粒度的反馈。通过将推理轨迹拆解为可解析的离散步骤，并对每个步骤的搜索行为进行实时判断，HiPRAG 能够构建一个分层的奖励信号。这个奖励信号在确保基本答案正确性和格式规范性的前提下，进一步奖励那些执行了最优搜索（既不过度搜索也不欠搜索）的步骤，从而引导智能体学习更高效、更准确的推理策略。这使得智能体能够更好地理解自身知识边界，并在需要时精确地调用外部搜索工具。

4.2. 核心方法详解

4.2.1. 分解推理轨迹为可解析步骤 (Decomposing Reasoning Trajectory into Parsable Steps)

在智能体 RAG 系统中，解析智能体的推理轨迹是实现过程奖励的首要障碍。传统的框架，例如 Search-R1 (Jin et al., 2025b)，通常在 $<think>$ XML 块内生成推理内容，并将其与搜索查询和检索信息交错。这种格式虽然流畅，但由于以下两个原因，很难隔离和评估单独的推理步骤：

模糊的步骤边界 (Ambiguous Step Boundaries)：单个 $<think>$ 块通常混合了上一个动作的结论以及当前动作的推理和规划，难以通过程序分离出自包含的步骤。
隐含的内部推理 (Implicit Internal Reasoning)：智能体依赖其参数化知识的非搜索步骤没有明确标记。它们以散文形式嵌入在 $<think>$ 块中，使得在不依赖额外的自然语言理解能力的情况下，难以将其与搜索查询之前的分析文本区分开来。

为了克服这些问题，HiPRAG 在强化学习训练期间强制执行一种结构化、机器可解析的输出格式。智能体的系统提示 (system prompt) 和 rollout 逻辑被修改，使其在单个 $<think>$ 块内生成完整的推理轨迹，该块又包含一系列离散的 $<step>$ 块。每个步骤可以是搜索步骤，也可以是非搜索步骤，通过是否存在包含搜索查询的 $<search>$ 块和包含检索信息的 $<context>$ 块来区分。

形式上，给定问题的完整推理轨迹 $T$ 是包含 $n$ 个步骤和最终答案 $a$ 的序列： $T = \{ s_1, s_2, ..., s_n, a \}$ 。每个步骤 $s_i$ （其中 $i \in [1, n]$ ）可以是：

搜索步骤 (Search Step)：表示为一个元组 $s_i^R = (r_i, q_i, c_i, o_i)$ $s_{i}^{R} = (r_{i}, q_{i}, c_{i}, o_{i})$ 。
- $r_i$ ：此步骤的推理 (reasoning) 块，包含规划和分析。
- $q_i$ ：搜索步骤中生成的搜索查询 (search query)。
- $c_i$ ：从搜索查询中检索到的上下文 (retrieved context)。
- $o_i$ ：当前步骤中获得的知识的结论或总结。
非搜索步骤 (Non-Search Step)：表示为一个元组 $s_i^{NR} = (r_i, o_i)$ $s_{i}^{NR} = (r_{i}, o_{i})$ 。
- $r_i$ ：此步骤的推理块，包含规划和分析。
- $o_i$ ：当前步骤中获得的知识的结论或总结。
  
  在附录中，图 3 展示了在相同问题下，原始 Search-R1 格式与 HiPRAG 格式的推理轨迹对比。HiPRAG 格式使用明确的 $<step>$ 标签，清晰地划分了每个逻辑推理步骤，即使是非搜索步骤也通过只包含 $<reasoning>$ 和 $<conclusion>$ 标签来明确标记。

以下是原文附录中提供的系统提示，用于强制生成可解析的输出格式： System Prompt for Parsable Output Format Answer user questions by thinking step-by-step. Your entire reasoning process must be encapsulated within a single $<think></think>$ block, which contains one or more $<step></step>$ blocks. Each step must begin with your analysis in $<reasoning>$ . If you identify a knowledge gap, you may use $<search>query</search>$ to query a search engine; search results will then be provided in a $<context>$ tag. Every step must end with a $<conclusion>$ summarizing what you learned in that step. After your thinking process is complete, provide the final, conclusive answer inside an $<answer>$ tag placed immediately after the closing $</think>$ tag. You can use as many steps as you need. Ensure all XML tags are properly formed and nested.

## Output Format Specification Your output must follow this overall structure. The $<think>$ block contains all the steps, and the $<answer>$ block follows it.

<think>
<step>
...
</step>
...
<step>
...
</step>
</think>
<answer>Your final, conclusive answer to the user's question.</answer>

# Step Formats (to be used inside $<think>$ ) Format 1: Step with a Search

<step>
<reasoning>Your detailed analysis...</reasoning>
<search>The precise search query...</search>
<context>[Provided by system]</context>
<conclusion>Your conclusion for this step.</conclusion>
</step>

Format 2: Step without a Search (Internal Reasoning)

<step>
<reasoning>Your detailed analysis...</reasoning>
<conclusion>Your conclusion for this step.</conclusion>
</step>

系统通过两种并行方法确保对该模式的遵守：

智能体的系统提示用明确的指令和少量示例进行更新，演示了所有 XML 标签的正确用法。
如第 3.3 节所述，RL 框架对正确输出应用正向奖励，从而激励模型持续生成可解析的轨迹。

下图（原文 Figure 3）对比了两种推理轨迹格式，以更好地理解 HiPRAG 格式的优势：

该图像是图表，展示了两种不同推理轨迹格式的比较，针对相同的多步问题进行分析。左侧为原始搜索格式，右侧为 HiPRAG 可解析格式。每个逻辑步骤以一致的颜色高亮，显示各格式之间的对应关系。为了提高可读性，实际检索的文档被其总结文本所替代。

图 3: 相同多跳问题下的推理轨迹格式比较。每个逻辑步骤在两种格式中都用一致的颜色高亮显示，以展示其对应关系。为了提高可读性，此处实际检索的文档被其摘要替代。

此外，附录 C 中的算法 1、2 和 3 分别详细说明了使用可解析步骤进行推理的算法 (Inference with Parsable Steps)、格式检查器 (Format Checker F(T)) 以及步骤验证器 (VALIDATESTEP)。F(T) 函数用于判断轨迹是否遵循所需格式，而 VALIDATESTEP 则确保每个步骤严格符合两种预定义的模式（带搜索或不带搜索）。

4.2.2. 即时检测次优搜索 (On-the-Fly Detection of Suboptimal Searches)

在将轨迹分割为离散步骤后，HiPRAG 可以在 RL 训练阶段对过度搜索和欠搜索进行高效检查。

4.2.2.1. 过度搜索检测 (Over-search Detection)

以往的过度搜索检测方法涉及复杂的重新生成 (regeneration) 管道，即移除搜索上下文，并附加固定指令提示模型依赖其内部知识 (Wu et al., 2025)。这种方法不稳定，因为附加指令可能与智能体的原始推理流程冲突，产生不自然、低质量的输出。如果搜索出现在漫长推理轨迹的末尾，重新生成也将耗费大量计算资源。

HiPRAG 提出了一种更直接和鲁棒的方法：对于每个搜索步骤 $s_i^R = (r_i, q_i, c_i, o_i)$ ，将其搜索查询 $q_i$ 作为独立问题。然后获得一个重新生成的答案 $o_i'$ 。一个外部 LLM 判别器 (LLM judge) 被用来评估原始步骤的结论 $o_i$ 和重新生成的答案 $o_i'$ 的语义等效性。如果它们在语义上等效，则表明该搜索是冗余的，该步骤被标记为过度搜索。这种方法不仅更快，而且通过隔离查询所需的核心知识提供了更可靠的信号。

以下是原文附录中提供的用于过度搜索检测的外部 LLM 判别器提示： Prompt for Over-search Detection You are an expert in Natural Language Understanding and Semantic Analysis. Your goal is to determine if these two statements are semantically equivalent—that is, if they mean the same thing and convey the same core information. Provide your answers with a single boolean value "True" or "False" in the tag $<answer></answer>$ (e.g., $<answer>True</answer>$ or $<answer>False</answer>$ ).

4.2.2.2. 欠搜索检测 (Under-search Detection)

对于每个非搜索步骤 $s_i^{NR} = (r_i, o_i)$ ，通过提示一个外部验证器模型 (external verifier model) 来评估其推理 $r_i$ 和结论 $o_i$ 的实际逻辑准确性。如果内容被发现不正确，则该步骤被标记为欠搜索，因为智能体未能利用搜索工具检索必要信息，导致幻觉或事实性错误。

以下是原文附录中提供的用于欠搜索检测的外部验证器模型提示： Prompt for Under-search Detection You are reviewing a step from an AI agent. This step was generated without using a search tool. Your goal is to determine if the agent made a mistake by not searching, based only on the information within this single step and your own general knowledge. Analyze the provided step by asking two questions:

Factual Accuracy: Is the statement in the $<reasoning></reasoning>$ and $<conclusion></conclusion>$ factually correct?
Internal Logic: Does the $<conclusion></conclusion>$ logically follow from the $<reasoning></reasoning>$ provided within this same step? If both questions are answered correctly, provide your answers with a single boolean value "True" or "False" in the tag $<answer></answer>$ (e.g., $<answer>True</answer>$ or $<answer>False</answer>$ ).

在实际实现中，两种检测方法可以并发工作以提高检测速度。在 RL rollout 阶段对一批数据进行过度搜索检测时，重新生成步骤可以单独通过批处理生成执行，然后再使用外部 LLM 判别器，以进一步提高训练速度。

4.2.3. 分层过程奖励计算 (Hierarchical Process Reward Calculation)

一个简单的基于长度或置信度的惩罚搜索的奖励函数可能会过度抑制智能体的检索能力，导致在知识密集型任务上表现不佳。HiPRAG 的目标是激励最优搜索行为，以提高性能和效率，同时保持使用搜索工具进行推理的基本能力。为了实现这一点，奖励需要动态地侧重于在 RL 训练早期阶段激励格式和最终答案的正确性，而在基本搜索能力建立后，通过提供更高的奖励，将其重点转向推理效率和最优性。

为此，HiPRAG 设计了一个分层奖励函数，它优先考虑正确性和格式遵循，然后再奖励过程的最优性，并在推理能力建立后，将其重点转向过程最优性，同时保留 Search-R1 奖励中结果和格式奖励的组合 (Jin et al., 2025a)。

4.2.3.1. 分层过程奖励 (Hierarchical Process Reward)

定义 $A(a) \in \{0, 1\}$ 表示轨迹 $T$ 的最终答案 $a$ 的正确性（这里使用“覆盖精确匹配 Cover Exact Match”，详见 4.1 节）， $F(T) \in \{0, 1\}$ 表示轨迹是否遵循所需格式（F(T) 的实现示例可在算法 2 和 3 中找到）。

定义 N(T) 为轨迹 $T$ 中的步骤总数， $N_{\mathrm{corr}}(T)$ 为轨迹中最优（既不过度搜索也不欠搜索）步骤的数量，计算如下： $N_{\mathrm{corr}}(T) = \left| \{ s^R \in (T) : \neg \mathsf{Over}(s^R) \} \right| + \left| \{ s^{NR} \in (T) : \neg \mathsf{Under}(s^{NR}) \} \right|$ 其中， $\mathsf{Over}(\cdot)$ 和 $\mathsf{Under}(\cdot)$ 是第 3.2 节中介绍的检测器函数。

$s^R \in (T)$ 表示轨迹 $T$ 中的一个搜索步骤。
$s^{NR} \in (T)$ 表示轨迹 $T$ 中的一个非搜索步骤。
$\neg \mathsf{Over}(s^R)$ 表示搜索步骤 $s^R$ 未被检测为过度搜索（即为最优搜索步骤）。
$\neg \mathsf{Under}(s^{NR})$ 表示非搜索步骤 $s^{NR}$ 未被检测为欠搜索（即为最优非搜索步骤）。
$|\cdot|$ 表示集合的势，即集合中元素的数量。因此， $N_{\mathrm{corr}}(T)$ 是所有未被标记为过度搜索的搜索步骤数量与所有未被标记为欠搜索的非搜索步骤数量的总和。

给定格式权重 $\lambda_f \in [0, 1]$ 和过程奖励系数 $\lambda_p \geq 0$ ，最终的合并奖励 R(T) 定义为： $R(T) = A(T) \bigl( 1 - \lambda_f \bigr) + \lambda_f F(T) + \lambda_p A(T) F(T) \frac{N_{\mathrm{corr}}(T)}{N(T)}$

A(T)：表示最终答案是否正确（1 表示正确，0 表示不正确）。
F(T)：表示推理轨迹是否遵循所需的输出格式（1 表示遵循，0 表示不遵循）。
$\lambda_f$ ：格式奖励的权重，用于平衡最终答案正确性和格式遵循的重要性。
$\lambda_p$ ：过程奖励的系数，决定了过程最优性对总奖励的贡献程度。
$\frac{N_{\mathrm{corr}}(T)}{N(T)}$ ：轨迹中“最优步骤”的比例，衡量了推理过程的效率和质量。

这个表达式在 $\lambda_p = 0$ 时等价于现有工作中使用的标准结果 + 格式奖励。它仅在答案和格式都正确时才添加一个门控过程奖励，即当 $A(T) = F(T) = 1$ 时，奖励变为 $R(T) = 1 + \lambda_p \frac{N_{\mathrm{corr}}(T)}{N(T)}$ 。

这种分层结构确保智能体首先被激励生成格式良好且答案正确的推理轨迹。只有当它达到这个主要目标后，才能获得额外的奖励，以奖励其推理路径的效率和有效性。这避免了过度抑制的陷阱，同时直接鼓励模型对其自身知识边界形成更细致的理解。

下图（原文 Figure 1）概述了 HiPRAG 的训练工作流程：

Figure 1: A general overview of the HiPRAG training workflow. The policy model generates a multi-step reasoning trajectory, and each step is evaluated on-the-fly to detect suboptimal search behaviors. A final hierarchical reward is then computed by combining a process bonus for step optimality with rewards for the final answer's correctness and proper formatting. 该图像是HiPRAG训练工作流程的示意图。该流程展示了策略模型生成多步骤推理轨迹的过程，并对每个步骤进行即时评价，以发现潜在的搜索行为不当情况。最后，结合步骤优化性的过程奖励和最终答案的正确性及格式化奖励，计算最终的层级奖励。

图 1: HiPRAG 训练工作流程的总体概述。策略模型生成多步骤推理轨迹，并实时评估每个步骤以检测次优搜索行为。然后，通过结合步骤最优性的过程奖励与最终答案正确性和格式化奖励，计算最终的分层奖励。

5. 实验设置

本节详细介绍了用于评估 HiPRAG 的实验框架，包括数据集、评估指标、模型和训练程序，以确保结果的可复现性并提供清晰的背景信息。

5.1. 数据集

实验数据涵盖了单跳和多跳问答 (Question Answering, QA) 样本，以确保与先前工作 (Search-R1) 进行公平直接的比较。

训练集 (Training Set)：
- 来自 NQ (Natural Questions, Kwiatkowski et al., 2019) 和 HotpotQA (Yang et al., 2018) 的官方训练集。
- 特点：这种组合创建了一个多样化的语料库，用于训练智能体进行单事实检索和多跳推理，这对于学习高效推理至关重要。
测试集 (Test Set)：
- 由七个 QA 数据集的开发集或测试集组成，用于评估域内 (in-domain) 和域外 (out-of-domain) 泛化能力。
- 包括：
  - NQ
  - PopQA (Mallen et al., 2023)
  - TriviaQA (Joshi et al., 2017)
  - 2WikiMultiHopQA (Ho et al., 2020)
  - Bamboogle (Press et al., 2023)
  - HotpotQA
  - Musique (Trivedi et al., 2022)

5.2. 评估指标

所有评估指标都旨在衡量模型的性能和效率。

5.2.1. 覆盖精确匹配 (Cover Exact Match, CEM)

概念定义 (Conceptual Definition)：CEM 是评估模型回答正确性的主要指标。它通过检查真实标注答案字符串是否包含在模型生成的答案中来判断正确性。这个指标被选择而不是严格的精确匹配 (Exact Match)，因为现代 LLM 通常会生成更长、解释性更强的回答。严格匹配会惩罚那些包含在更冗长文本中的有效答案，可能无法准确反映模型的实际能力。
数学公式 (Mathematical Formula)：原文未提供 CEM 的具体计算公式，但根据其定义，可以理解为：对于每个问题，如果模型生成的答案中包含真实标注答案字符串，则该问题被视为正确回答。CEM 是正确回答问题数量占总问题数量的比例。 $\mathrm{CEM} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{ground\_truth\_answer}_i \subseteq \text{generated\_answer}_i)}{N}$
符号解释 (Symbol Explanation)：
- $N$ : 测试集中的问题总数。
- $\mathbb{I}(\cdot)$ : 指示函数，当括号内的条件为真时返回 1，否则返回 0。
- $\text{ground\_truth\_answer}_i$ : 第 $i$ 个问题的真实标注答案字符串。
- $\text{generated\_answer}_i$ : 模型为第 $i$ 个问题生成的答案字符串。
- $\subseteq$ : 字符串包含操作符，表示左侧字符串是右侧字符串的子串。

5.2.2. 过搜索率 (Over-search Rate, OSR)

概念定义 (Conceptual Definition)：OSR 衡量了模型在推理过程中执行不必要或冗余搜索的频率。它被定义为在所有可识别的搜索步骤中，被标记为过度搜索的步骤所占的比例。较低的 OSR 表示模型在搜索决策上更有效率。
数学公式 (Mathematical Formula)： $\mathrm{OSR} = \frac{\sum_{T \in \mathcal{D}_{\mathrm{test}}} \left| \left\{ s^R \in T : \mathrm{Over}(s^R) \right\} \right|}{\sum_{T \in \mathcal{D}_{\mathrm{test}}} \left| \left\{ s^R \in T \right\} \right|}$
符号解释 (Symbol Explanation)：
- $\mathcal{D}_{\mathrm{test}}$ : 测试样本的集合。
- $T$ : 集合 $\mathcal{D}_{\mathrm{test}}$ 中的一个推理轨迹。
- $s^R$ : 轨迹 $T$ 中的一个搜索步骤。
- $\mathrm{Over}(s^R)$ : 一个指示函数，当搜索步骤 $s^R$ 被检测为过度搜索时返回 1，否则返回 0。
- $|\cdot|$ : 集合的势，表示集合中元素的数量。
- 分子：所有测试轨迹中被标记为过度搜索的搜索步骤总数。
- 分母：所有测试轨迹中所有可识别的搜索步骤总数。

5.2.3. 欠搜索率 (Under-search Rate, USR)

概念定义 (Conceptual Definition)：USR 衡量了模型在需要外部信息时未能执行搜索操作的频率，这通常会导致幻觉或事实性错误。它被定义为在所有可识别的非搜索步骤中，被标记为欠搜索的步骤所占的比例。较低的 USR 表示模型在识别知识空白和必要时调用搜索工具方面做得更好。
数学公式 (Mathematical Formula)： $\mathrm{USR} = \frac{\sum_{T \in \mathcal{D}_{\mathrm{test}}} \left| \left\{ s^{NR} \in T : \mathrm{Under}(s^{NR}) \right\} \right|}{\sum_{T \in \mathcal{D}_{\mathrm{test}}} \left| \left\{ s^{NR} \in T \right\} \right|}$
符号解释 (Symbol Explanation)：
- $\mathcal{D}_{\mathrm{test}}$ : 测试样本的集合。
- $T$ : 集合 $\mathcal{D}_{\mathrm{test}}$ 中的一个推理轨迹。
- $s^{NR}$ : 轨迹 $T$ 中的一个非搜索步骤。
- $\mathrm{Under}(s^{NR})$ : 一个指示函数，当非搜索步骤 $s^{NR}$ 被检测为欠搜索时返回 1，否则返回 0。
- $|\cdot|$ : 集合的势，表示集合中元素的数量。
- 分子：所有测试轨迹中被标记为欠搜索的非搜索步骤总数。
- 分母：所有测试轨迹中所有可识别的非搜索步骤总数。

5.3. 对比基线

为了全面评估 HiPRAG，论文将其与代表不同检索增强生成范式的基线方法进行了比较：

直接推理 (Direct Inference)：LLM 不进行任何检索机制的直接生成。
标准 RAG (Standard RAG)：传统的 RAG 设置，基于初始查询进行一次检索。
基于提示的智能体 RAG (Prompt-Based Agentic RAG)：依赖复杂提示工程来实现多步推理和搜索的方法。
- IRCoT (Trivedi et al., 2023)：交错检索与思维链推理。
- Search-o1 (Li et al., 2025b)：智能体搜索增强的大型推理模型。
基于 RL 的智能体 RAG (RL-Based Agentic RAG)：使用强化学习训练搜索智能体的最先进方法。
- Search-R1 (Jin et al., 2025b)：通过强化学习训练 LLM 进行推理和利用搜索引擎。
- R1-Searcher (Song et al., 2025a)：通过强化学习激励 LLM 的搜索能力。
- R1-Searcher++ (Song et al., 2025b)：通过强化学习激励 LLM 动态知识获取。
- $\beta$ -GRPO (Wu et al., 2025)：通过减少不确定性来缓解次优智能体搜索。

5.4. 训练细节

硬件：所有基于 RL 的模型均使用四块 NVIDIA A100 80GB GPU 进行训练。
训练过程：训练总共进行 400 步，每 50 步保存一次检查点 (checkpoint)。
评估检查点策略：
- 如果训练过程稳定完成，使用最终保存的检查点进行测试。
- 如果训练奖励崩溃，使用崩溃前保存的最后一个稳定检查点，以确保对模型最佳学习状态的公平评估。
模型：
- 主要实验：Qwen2.5-(3B/7B)-Instruct 模型 (Qwen et al., 2025)。
- 泛化性分析：Llama3.2-3B-Instruct (Grattafiori et al., 2024) 和 Qwen2.5-3B。
检测器模型：
- 过度搜索检测：gpt-4.1-mini (OpenAI, 2025a)，一种小型专有模型，推理速度快且性能足够。
- 欠搜索检测：gpt-5-mini (OpenAI, 2025b)，一种小型专有模型。
强化学习算法：
- 核心算法：Proximal Policy Optimization (PPO) (Schulman et al., 2017)，因其在复杂 LLM 微调场景中（尤其是在搜索智能体开发领域）的训练稳定性而被选择。
- 影响评估：Group Relative Policy Optimization (GRPO) (Shao et al., 2024)，使用与 PPO 相同的训练参数，组大小为 5。
检索环境：
- 遵循 Search-R1 设置。
- 知识源：2018 年维基百科转储 (Karpukhin et al., 2020)。
- 检索器 (retriever)：E5-base (Wang et al., 2024)。
- 每个搜索步骤返回最相关的 3 个段落 (top-3 relevant passages)。
推理参数：
- rollout 阶段：temperature 和 $top_p$ 均设置为 1，以确保生成所需推理轨迹的可能性较高。
- 测试阶段：temperature 和 $top_p$ 设置为模型的默认值。
奖励函数超参数：
- $\lambda_f = 0.2$ (格式权重)。
- $\lambda_p = 0.4$ (过程奖励系数)，在 5.3 节中也探索了不同 $\lambda_p$ 值下的结果。

6. 实验结果与分析

本节对 HiPRAG 进行了全面的分析，评估了其与最先进基线模型的性能，并详细研究了模型大小、模型家族、强化学习算法以及消融实验的影响，最后通过案例研究进行了定性分析。

6.1. 核心结果分析

论文将 HiPRAG 与一套强大的基线方法在七个问答基准上进行了比较。

以下是原文 Table 1 的结果，展示了 CEM (Cover Exact Match) 评分（百分比，越高越好）:

Method	General QA			Multi-Hop QA			Bamboogle	Avg.
Method	NQ	TriviaQA	PopQA	HotpotQA	2Wiki	Musique	Bamboogle	Avg.
Direct Inference	27.0	26.8	40.1	58.7	16.0	7.9	15.9	31.8
Standard RAG	51.2	54.7	65.7	56.9	21.6	18.5	18.6	45.3
IRCoT	27.5	36.0	42.5	51.4	37.6	19.4	20.6	36.4
Search-o1	40.2	42.2	58.5	56.1	45.6	15.1	19.3	43.9
R1-Searcher	60.0	73.0	58.2	60.4	60.3	32.9	55.8	60.6
R1-Searcher++	61.0	73.5	59.0	64.2	63.2	32.3	58.7	62.1
Search-R1	61.2	73.6	56.5	54.0	63.6	24.8	48.4	60.3
Search-R1-step*	62.4	74.4	57.3	54.8	64.2	25.3	49.6	61.2
β-GRPO	65.0	75.0	60.0	53.0	66.0	24.0	52.0	62.5
β-GRPO-step*	62.4	73.9	61.3	52.1	66.0	22.8	54.4	62.1
HiPRAG-3B	68.7	75.5	66.3	57.4	67.4	24.1	41.6	65.4
HiPRAG-7B	71.2	76.3	63.2	62.4	71.7	34.1	52.8	67.2

表 1: 七个 QA 基准测试上的 CEM (Cover Exact Match) 主要结果（百分比，越高越好）。整体平均得分最高和次高者分别用粗体和下划线标出。Search-R1-step* 指的是使用 Search-R1 v0.3 输出+格式奖励，并采用 HiPRAG 输出格式训练的模型。 $\beta$ -GRPO-step* $\text{指的是使用}$ \beta-GRPO 奖励，并采用 HiPRAG 输出格式训练的模型。这里的 HiPRAG-3B 和 HiPRAG-7B 指的是所有训练过的 HiPRAG 模型中平均 CEM 得分最高的模型。

分析：

显著的性能提升：HiPRAG 模型（3B 和 7B）在所有基线模型中表现最佳。HiPRAG-7B 模型实现了 67.2% 的平均 CEM 分数，显著优于次优基线 R1-Searcher++ (62.1%)，提高了 5.1 个百分点。HiPRAG-3B 模型也达到了 65.4% 的平均 CEM，甚至超过了大多数 7B 基线模型。这表明 HiPRAG 的细粒度、基于过程的奖励机制有效地指导智能体开发出更健壮、更准确的推理轨迹。
效率提升：虽然表格 1 主要展示准确性，但摘要中提到 HiPRAG 在效率方面也取得了前所未有的提升，将基线模型的过度搜索率从 27% 降低到仅 2.3%，并同时降低了欠搜索率。这印证了优化推理过程本身而非仅仅最终结果的有效性。
在多跳 QA 上的表现：HiPRAG-7B 在 2Wiki (71.7%) 和 HotpotQA (62.4%) 等多跳 QA 数据集上表现尤其突出，展现了其处理复杂知识整合任务的强大能力。虽然在 Musique (34.1%) 上的表现仍有提升空间，但它已是该数据集上的最佳表现。
模型大小与性能：7B 模型通常优于 3B 模型，这与 LLM 的普遍趋势一致，即更大的模型通常具有更强的推理能力。

6.2. 数据呈现 (表格)

以下是原文 Table 2 的结果，总结了 HiPRAG 模型在不同参数下的平均 CEM、OSR 和 USR（百分比）：

Base Model	RL Algo.	Method	Avg. CEM	Avg. OSR	Avg. USR
Llama-3.2-3B-Instruct	PPO	baseline	56.4	7.3	57.6
Llama-3.2-3B-Instruct	PPO	HiPRAG	64.8	6.0	49.7
Qwen2.5-3B-Instruct	GRPO	baseline	58.5	8.4	52.1
Qwen2.5-3B-Instruct	GRPO	HiPRAG	64.4	4.1	33.2
Qwen2.5-3B	PPO	baseline	60.3	3.8	44.0
Qwen2.5-3B	PPO	HiPRAG	65.4	3.2	41.9
Qwen2.5-3B-Instruct	PPO	baseline	59.3	6.1	47.5
Qwen2.5-3B-Instruct	PPO	HiPRAG	64.1	4.9	38.1
Qwen2.5-7B-Instruct	GRPO	baseline	61.2	5.2	43.3
Qwen2.5-7B-Instruct	GRPO	HiPRAG	67.2	4.3	32.6
Qwen2.5-7B-Instruct	PPO	baseline	53.3	7.6	29.0
Qwen2.5-7B-Instruct	PPO	HiPRAG	64.5	6.2	33.9
Qwen2.5-3B-Instruct	PPO	HiPRAG (over-search only)	58.8	4.9	52.7
Qwen2.5-3B-Instruct	PPO	HiPRAG (under-search only)	63.3	6.6	16.9
Qwen2.5-3B-Instruct	PPO	HiPRAG (λp = 0.2)	59.6	5.5	44.5
Qwen2.5-3B-Instruct	PPO	HiPRAG (λp = 0.6)	62.5	5.2	39.0

表 2: HiPRAG 模型在不同参数下训练的平均 CEM（越高越好）、OSR（越低越好）和 USR（越低越好）百分比得分总结。每个指标的最佳和次佳值已用粗体和下划线标出。这里的“baseline”指的是过程奖励被禁用 ( $\lambda_p = 0$ ) 的奖励。附录 E 中提供了每个数据集的详细报告。

6.3. 消融实验/参数分析

6.3.1. 单个参数分析

模型大小的影响 (Influence of Model Size)：
- HiPRAG 训练的 7B 模型始终优于 3B 模型，这证实了更大模型通常具有更强推理能力的趋势。
- 然而，HiPRAG 的过程奖励方法使小模型也能实现显著性能。例如，基于 Qwen2.5-3B-Instruct + GRPO 训练的 HiPRAG 模型 (64.4% Avg. CEM) 不仅超过了 R1-Searcher++ 等强大的外部 7B 基线 (62.1% Avg. CEM)，甚至优于使用基线奖励训练的 7B 模型 (61.2% Avg. CEM)。这表明 HiPRAG 训练方法比单纯通过传统奖励扩展模型大小更能有效提高性能。
- 较大的模型通常能做出更高效的搜索决策。GRPO 训练的 7B 模型不仅准确率更高，而且效率也更高 (2.3% Avg. OSR, 32.6% Avg. USR)，优于 3B 模型 (4.1% Avg. OSR, 33.2% Avg. USR)。
模型家族的影响 (Influence of Model Family)：
- HiPRAG 在 Qwen2.5-3B-Instruct 和 Llama-3.2-3B-Instruct 模型上都进行了训练。尽管两个模型在 HiPRAG 训练后都达到了可比的峰值准确率，但其底层行为和效率有所不同。
- Llama-3B 模型最初表现出更高的依赖其参数化知识的倾向，非搜索步骤更多，导致欠搜索率较高。
- 训练后，Qwen-3B 模型以较低的次优搜索率 (4.9% Avg. OSR, 39.1% Avg. USR) 实现了 64.1% 的高平均 CEM，而 Llama-3B 模型则为 6.0% Avg. OSR 和 49.7% Avg. USR。这表明 HiPRAG 在不同模型家族中都有效，但基础模型的固有倾向会影响最终的搜索效率。
- 下图（原文 Figure 2b）展示了不同模型家族的搜索步骤比例曲线：
  
  该图像是一个折线图，展示了在不同步骤下，Llama-3.2-3B-Instruct 和 Qwen2.5-3B-Instruct 模型的搜索步骤比例变化。可以看到，Llama-3.2-3B-Instruct 模型的搜索步骤比例在一定步数内保持在较高的水平，最终接近 0.9，而 Qwen2.5-3B-Instruct 的比例则相对较低，波动在 0.4 到 0.9 之间。
  
  图 2b: Qwen2.5-3B-Instruct 和 Llama3.2-3B-Instruct 模型在所有推理步骤中搜索比例的曲线。
RL 算法的影响 (Influence of RL Algorithm)：
- 实验比较了 PPO 和 GRPO 算法在 Qwen2.5-3B/7B-Instruct 模型上的效果。PPO 提供了更好的训练稳定性，通常能完成整个训练过程而不会出现奖励崩溃；而 GRPO 则有潜力实现更高的最终性能，并且收敛更快。
- 如表 2 所示，GRPO 在 3B (64.4% vs. 64.1%) 和 7B (67.2% vs. 64.5%) 模型上都产生了更高的平均 CEM，并带来了更高效的搜索行为（例如，7B-GRPO 的 OSR 为 2.3%，而 7B-PPO 为 6.2%）。这与相关文献中的发现一致，即 GRPO 的无 Critic 方法通常在 LLM 训练中具有更高的样本效率，但代价是训练稳定性较低。
- 下图（原文 Figure 2a）展示了 Qwen2.5-3B-Instruct 模型在 PPO/GRPO + HiPRAG 训练步骤下的奖励曲线：
  
  该图像是一个示意图，展示了在不同训练方法下，Qwen2.5-3B模型的平均奖励随步骤变化的情况。图中包含了HiPRAG和GRPO两种训练方法的表现，显示了奖励值在约200步时出现显著差异。
  
  图 2a: Qwen2.5-3B-Instruct 模型在 PPO/GRPO + HiPRAG 训练步骤下的奖励曲线。
指令微调对基础模型的影响 (Influence of Instruction Tuning on Base Model)：
- 比较了 HiPRAG 在基础模型 (Qwen2.5-3B) 和其指令微调版本 (Qwen2.5-3B-Instruct) 上的性能。
- 指令微调模型表现出更高的初始奖励，因为其预训练使其更擅长遵循框架所需的结构化输出格式。HiPRAG 的分层奖励机制（在答案和格式都正确之前门控过程奖励）有利于快速学习这种结构的模型。
- 然而，基础模型最终赶上并收敛到相似的奖励水平。有趣的是，基础模型在完全训练后可能实现略高的平均 CEM (64.5% vs. 64.1%) 和更低的平均 OSR (3.2% vs. 4.9%)。这可能因为它更纯粹地从 RL 目标中学习推理和搜索行为，而没有指令微调阶段引入的潜在偏差。

6.3.2. 消融研究 (Ablation Studies)

输出格式的影响 (Influence on Output Format)：
- 为了分离格式和奖励变化的影响，训练了一个名为 Search-R1-step* 的模型变体。该模型使用与原始 Search-R1 v0.3 模型相同的输出+格式奖励，但强制使用 HiPRAG 的可解析输出格式。
- 此外，也将格式变化应用于 $\beta$ -GRPO $\text{并训练了}$ \beta-GRPO-step*。
- 表 1 中的结果显示，结构化格式保持了性能，并在某些数据集上略有提高。这证实了新的可解析输出格式是一个稳健的基础，并且 HiPRAG 完整方法的显著性能提升归因于它所启用的基于过程的奖励机制，而不仅仅是格式变化。
过程奖励系数 $\lambda_p$ 的影响 (Influence of Process Bonus Coefficient)：
- 使用不同的过程奖励系数 $\lambda_p$ 值测试了分层奖励，该系数决定了步骤正确性比例的权重。
- 如表 2 所示，系数 0.4 提供了最佳平衡，产生了最高性能 (64.1% Avg. CEM)。
- 较低的值 0.2 表现类似于仅结果奖励，未能充分激励效率 (59.6% Avg. CEM)，其更高的平均 OSR (5.5%) 和平均 USR (44.5%) 反映了这一点。
- 较高的值 0.6 过度优先考虑步骤纯度，牺牲了最终答案的正确性，导致性能略有下降 (62.5% Avg. CEM)。
- 最优的 $\lambda_p = 0.4$ 实现了最佳权衡，具有较低的 4.9% 平均 OSR 和 39.1% 平均 USR。
仅训练过度搜索或欠搜索 (Training with Over-search or Under-search Only)：
- 通过仅对过度搜索或仅对欠搜索进行惩罚来隔离过程奖励的组件。
- 如表 2 所示，仅训练以减少过度搜索是不足的，产生了较低的平均 CEM (58.8%)。尽管这种方法成功地将平均 OSR 降低到 4.9%，但它使模型过于犹豫搜索，导致非常高的平均 USR (52.7%)。
- 仅针对欠搜索更有效 (63.3% Avg. CEM)，这强调了防止幻觉比提高效率更重要。这种方法显著降低了平均 USR 到 16.9%，但使智能体过度依赖其搜索工具，略微增加了平均 OSR 到 6.6%。
- 然而，最佳性能只有在同时惩罚两种次优行为时才能实现 (64.1% Avg. CEM)，证实了搜索优化需要采取整体方法。

6.3.3. 附加分析 (Additional Analysis)

格式正确性百分比分析 (Format Correctness Percentage Analysis)：
- 对所有由最终 HiPRAG 训练模型生成的测试样本的格式正确性进行了分析。
- 分析显示，96.3% 的生成轨迹成功遵循了所需格式。这证实模型有效地学习了生成结构化输出，这是成功应用即时过程奖励机制的关键先决条件。
过度搜索与欠搜索检测的有效性 (Efficacy Of Over-search & Under-search Detection)：
- 手动检查了来自测试集评估的 200 个随机选择的推理轨迹的检测结果。
- 手动审计显示过度搜索检测的准确率为 98.3%，欠搜索检测的准确率为 95.6%。这些高准确率数字证实了基于 LLM 的即时判别器为 RL 训练期间识别次优搜索行为提供了可靠且有效的信号。
CEM 指标的有效性 (Efficacy of CEM Metric)：
- 手动检查了 100 个随机抽样的问答对的 CEM 指标判断。
- 结果发现 CEM 指标对正确性的评估与人类判断在 98% 的情况下一致。这证实了 CEM 对于此任务是一个稳健的指标，能够妥善处理嵌入在现代 LLM 典型冗长解释性回答中的有效答案，从而避免不公平地惩罚模型的冗余。

6.4. 案例研究

为了说明 HiPRAG 框架的实际益处，论文通过一个具体的案例进行了定性分析，其中基线模型由于效率低下的推理而失败，而 HiPRAG 训练的智能体则成功了。所使用的模型基于 Qwen2.5-3B-Instruct 训练。

问题：“Slow Down (Lacy J. Dalton Song) 这首歌的表演者出生地在哪里？”

基线模型推理轨迹（原文 Figure 7）：
- 基线模型忽略了关键的括号信息 "(Lacy J. Dalton Song)"，而是对歌曲 "Slow Down" 进行了广泛搜索。
- 这导致了一个不必要的五步过程，模型识别出三位不同的艺术家都有一首同名歌曲，然后分别搜索每个人的出生地。
- 此外，通过过度搜索检测，最终搜索步骤中关于赛琳娜·戈麦斯出生地的查询答案被正确回答，并且与推理轨迹中的原始答案“Grand Prairie, Texas”等效。
- 基线模型的最终答案由于不必要的搜索中断而导致不正确。这是一个经典的过度搜索示例，智能体执行了冗余且不相关的查找，最终未能提供一个单一的正确答案。
  
  该图像是图表，展示了基线模型在推理过程中的不高效决策。模型通过五个冗余的搜索步骤（过度搜索）尝试寻找歌手的出生地，最终得出的答案模糊而不准确。
图 7: 案例研究：基线推理轨迹。该模型有五个不必要的搜索步骤（过度搜索）和一个不正确、模糊的最终答案。
HiPRAG 训练模型推理轨迹（原文 Figure 8）：
- HiPRAG 训练的智能体在第一个非搜索步骤中正确解析了整个问题，将 Lacy J. Dalton 识别为指定的表演者。
- 然后，它执行了一次有针对性的搜索，查找她的出生地。
- 这个两步最优推理路径——一个内部推理步骤，随后是一个必要的搜索——避免了基线模型的低效率，直接导向了正确答案。
  
  该图像是一个示意图，展示了HiPRAG训练的推理轨迹。模型首先在非搜索步骤中正确识别关键实体，然后进行一次有针对性的搜索，最终有效地找到正确答案。
图 8: 案例研究：HiPRAG 训练的推理轨迹。该模型在非搜索步骤中正确识别关键实体，然后执行一次有针对性的搜索，以高效地找到正确答案。

分析：这个案例清楚地表明，HiPRAG 以过程为导向的奖励机制如何培养出一种更细致、更高效的推理策略，从而提高了准确性和搜索经济性。

6.5. 详细的 CEM, OSR 和 USR 报告 (附录 E)

为了完整性，以下是原文附录 E 中的详细表格，展示了 HiPRAG 模型在不同参数下训练的 CEM、OSR 和 USR 在七个 QA 基准上的详细结果。

以下是原文 Table 4 的结果，展示了 CEM (Cover Exact Match) 评分（百分比，越高越好）:

Base Model	RL Algo. + Method	General QA			Multi-Hop QA			Bamboogle	Avg.
Base Model	RL Algo. + Method	NQ	TriviaQA	PopQA	HotpotQA	2Wiki	Musique	Bamboogle	Avg.
Llama-3.2-3B-Instruct	PPO + baseline	65.2	74.5	55.1	47.0	52.3	18.7	36.0	56.4
Llama-3.2-3B-Instruct	PPO + HiPRAG	71.6	77.2	61.0	57.7	67.9	25.7	43.2	64.8
Qwen2.5-3B-Instruct	GRPO + baseline	59.6	69.1	57.3	52.4	61.4	20.6	24.8	58.5
Qwen2.5-3B-Instruct	GRPO + HiPRAG	68.5	74.2	60.6	59.2	69.1	27.9	38.4	64.4
Qwen2.5-3B	PPO + baseline	60.6	71.7	55.8	54.3	65.7	24.1	40.8	60.3
Qwen2.5-3B	PPO + HiPRAG	68.7	75.5	66.3	57.4	67.4	24.1	41.6	65.4
Qwen2.5-3B-Instruct	PPO + baseline	60.9	70.1	57.0	52.0	63.0	24.3	37.6	59.3
Qwen2.5-3B-Instruct	PPO + HiPRAG	65.6	73.9	62.1	55.6	69.6	26.0	32.8	64.1
Qwen2.5-7B-Instruct	GRPO + baseline	62.4	74.4	57.3	54.8	64.2	25.3	49.6	61.2
Qwen2.5-7B-Instruct	GRPO + HiPRAG	71.2	76.3	63.2	62.4	71.7	34.1	52.8	67.2
Qwen2.5-7B-Instruct	PPO + baseline	55.6	67.5	43.5	49.4	58.5	26.6	44.0	53.3
Qwen2.5-7B-Instruct	PPO + HiPRAG	66.2	75.7	58.4	59.9	66.2	34.3	52.0	64.5
Qwen2.5-3B-Instruct	PPO + HiPRAG (over-search only)	61.9	66.9	54.9	52.2	65.4	25.5	39.2	58.8
Qwen2.5-3B-Instruct	PPO + HiPRAG (under-search only)	63.7	74.1	60.6	55.9	67.9	28.4	40.8	63.3
Qwen2.5-3B-Instruct	PPO + HiPRAG (λp = 0.2)	61.9	71.2	56.8	53.7	62.2	25.4	31.2	59.6
Qwen2.5-3B-Instruct	PPO + HiPRAG (λp = 0.6)	66.6	74.4	60.5	55.5	64.4	25.6	38.4	62.5

表 4: HiPRAG 模型在不同参数下在七个 QA 基准上的覆盖精确匹配 (CEM) 百分比。每个数据集的最佳和次佳结果已用粗体和下划线标出。这里的“baseline”指的是过程奖励被禁用 ( $\lambda_p = 0$ ) 的奖励。

以下是原文 Table 5 的结果，展示了 OSR (Over-search Rate) 评分（百分比，越低越好）:

Base Model	RL Algo. + Method	NQ	General QA		Multi-Hop QA				Avg.
Base Model	RL Algo. + Method	NQ		TriviaQA	PopQA	HotpotQA		2Wiki	Avg.	Musique	Bamboogle
Llama-3.2-3B-Instruct	PPO + baseline	12.5	15.4	5.0	4.8	3.7	2.7	8.7	7.3
Llama-3.2-3B-Instruct	PPO + HiPRAG	11.9	13.3	4.5	4.6	1.8	3.1	5.0	6.0
Qwen2.5-3B-Instruct	GRPO + baseline	8.4	17.0	5.6	7.2	4.3	5.0	10.3	8.4
Qwen2.5-3B-Instruct	GRPO + HiPRAG	4.4	9.8	2.2	3.0	2.9	1.4	3.9	4.1
Qwen2.5-3B	PPO + baseline	6.4	9.0	2.6	2.9	1.5	1.7	4.3	3.8
Qwen2.5-3B	PPO + HiPRAG	5.1	6.9	2.2	2.3	1.4	1.2	3.4	3.2
Qwen2.5-3B-Instruct	PPO + baseline	8.6	13.5	5.6	4.2	1.8	3.9	12.8	6.1
Qwen2.5-3B-Instruct	PPO + HiPRAG	6.0	11.0	3.9	4.5	2.5	2.8	11.5	4.9
Qwen2.5-7B-Instruct	GRPO + baseline	5.3	7.4	2.0	3.5	0.9	3.6	8.7	5.2
Qwen2.5-7B-Instruct	GRPO + HiPRAG	4.1	5.4	1.3	1.8	0.3	1.5	4.8	4.3
Qwen2.5-7B-Instruct	PPO + baseline	11.6	19.8	6.1	7.4	2.7	8.5	19.6	7.6
Qwen2.5-7B-Instruct	PPO + HiPRAG	10.4	14.5	4.6	5.6	2.1	5.9	13.4	6.2
Qwen2.5-3B-Instruct	PPO + HiPRAG (over-search only)	6.0	11.0	3.9	4.5	2.5	2.8	11.5	4.9
Qwen2.5-3B-Instruct	PPO + HiPRAG (under-search only)	8.2	15.6	5.9	5.3	2.7	3.1	6.4	6.6
Qwen2.5-3B-Instruct	PPO + HiPRAG (λp = 0.2)	7.4	11.4	3.7	4.4	2.3	3.3	12.1	5.5
Qwen2.5-3B-Instruct	PPO + HiPRAG (λp = 0.6)	9.3	13.1	4.1	3.3	1.3	2.2	6.3	5.2

表 5: 七个 QA 基准上的过搜索率 (OSR) 百分比（越低越好）。每个数据集的最佳和次佳值已用粗体和下划线标出。这里的“baseline”指的是过程奖励被禁用 ( $\lambda_p = 0$ ) 的奖励。

以下是原文 Table 6 的结果，展示了 USR (Under-search Rate) 评分（百分比，越低越好）:

Base Model	RL Algo. + Method	General QA			Multi-Hop QA			Avg.
Base Model	RL Algo. + Method	NQ	TriviaQA	PopQA	HotpotQA	2Wiki	Musique	Avg.	Bamboogle
Llama-3.2-3B-Instruct	PPO + baseline	67.1	75.0	66.7	52.6	59.3	50.0	20.0	57.6
Llama-3.2-3B-Instruct	PPO + HiPRAG	35.3	48.4	31.7	50.8	55.3	64.3	10.3	49.7
Qwen2.5-3B-Instruct	GRPO + baseline	61.9	63.9	59.6	46.1	49.1	61.9	22.3	52.1
Qwen2.5-3B-Instruct	GRPO + HiPRAG	52.9	34.9	35.2	29.2	25.0	45.5	21.2	33.2
Qwen2.5-3B	PPO + baseline	33.3	66.7	30.8	38.5	47.5	66.7	0.0	44.0
Qwen2.5-3B	PPO + HiPRAG	43.9	36.4	42.3	41.9	42.6	56.8	16.7	41.9
Qwen2.5-3B-Instruct	PPO + baseline	47.1	33.2	48.8	39.0	52.9	70.0	32.2	47.5
Qwen2.5-3B-Instruct	PPO + HiPRAG	11.1	44.4	61.9	25.0	32.0	10.1	8.7	38.1
Qwen2.5-7B-Instruct	GRPO + baseline	40.5	34.3	43.8	40.9	45.0	56.2	20.0	43.3
Qwen2.5-7B-Instruct	GRPO + HiPRAG	30.2	34.9	34.9	40.5	24.4	37.3	41.7	32.6
Qwen2.5-7B-Instruct	PPO + baseline	33.4	13.9	17.5	40.3	33.4	50.0	13.2	29.0
Qwen2.5-7B-Instruct	PPO + HiPRAG	57.1	44.9	25.5	20.0	34.6	57.1	1.6	33.9
Qwen2.5-3B-Instruct	PPO + HiPRAG (over-search only)	54.5	55.2	48.9	44.7	53.7	78.3	20.0	52.7
Qwen2.5-3B-Instruct	PPO + HiPRAG (under-search only)	14.0	20.4	13.6	25.6	13.2	30.8	16.9	16.9
Qwen2.5-3B-Instruct	PPO + HiPRAG (λp = 0.2)	24.0	39.5	55.8	41.3	45.5	80.1	30.1	44.5
Qwen2.5-3B-Instruct	PPO + HiPRAG (λp = 0.6)	27.2	34.1	33.6	60.6	51.2	53.3	1.6	39.0

表 6: 七个 QA 基准上的欠搜索率 (USR) 百分比（越低越好）。每个数据集的最佳和次佳结果已用粗体和下划线标出。这里的“baseline”指的是过程奖励被禁用 ( $\lambda_p = 0$ ) 的奖励。

7. 总结与思考

7.1. 结论总结

本文提出了 HiPRAG，一种新颖的强化学习训练方法，旨在解决智能体检索增强生成 (Agentic RAG) 系统中普遍存在的效率低下问题，即过度搜索 (over-search) 和欠搜索 (under-search)。通过引入一种细粒度、知识感知的层次过程奖励机制，HiPRAG 能够实时评估智能体推理轨迹中每个搜索决策的必要性。具体而言，它通过强制执行结构化、可解析的输出格式，并结合外部 LLM 判别器和验证器进行即时次优搜索检测，从而在确保最终答案正确性和格式规范性的前提下，额外奖励最优推理步骤。

实验结果表明，HiPRAG 在多个 QA 基准测试中取得了显著的性能提升，不仅在 3B 和 7B 模型上实现了最先进的准确率，而且大幅提高了搜索效率，将过度搜索率从基线模型的 27% 降低到仅 2.3%，并同时降低了欠搜索率。此外，HiPRAG 展示了在不同 RL 算法、模型家族、大小和类型上的良好泛化能力。这项研究有力地验证了优化智能体推理过程本身，而不仅仅是关注最终结果，对于创建强大且高效的 LLM 搜索智能体至关重要。

7.2. 局限性与未来工作

论文中未明确设置“局限性与未来工作”的独立章节，但可以从其背景和伦理声明中推断出一些潜在的考量：

对外部 LLM 判别器的依赖 (Reliance on External LLM Judges)：HiPRAG 的核心机制依赖于 gpt-4.1-mini 和 gpt-5-mini 等专有 LLM 作为判别器和验证器来实时检测次优搜索。虽然这些模型在实验中表现出高准确率，但这种依赖性引入了额外的成本、延迟和对第三方 API 的潜在可用性风险。未来工作可以探索如何用自监督或更轻量级的模型替代这些外部 LLM 判别器，以降低成本并提高训练效率。
模型训练与推理成本 (Training and Inference Costs)：强化学习训练本身就对计算资源要求很高，而 HiPRAG 额外引入了实时检测和奖励计算的开销（包括外部 LLM 调用）。虽然通过批处理等方式提高了检测速度，但在超大规模模型和任务上，如何进一步优化其训练和部署成本仍是一个挑战。
模型偏差的继承 (Inheritance of Model Biases)：论文的伦理声明中指出，系统可能从其底层数据（维基百科）和基础模型中继承偏差。尽管 HiPRAG 旨在通过惩罚事实错误来提高可靠性，但其检测机制本身可能也受到判别器模型固有偏差的影响。
奖励函数的复杂性与超参数调优 (Complexity of Reward Function and Hyperparameter Tuning)：分层奖励函数引入了 $\lambda_f$ 和 $\lambda_p$ 等超参数，它们的调优对最终性能至关重要。虽然论文进行了消融实验来探索不同 $\lambda_p$ 值的影响，但在更广泛的任务和模型上，这些超参数的鲁棒性和泛化性仍需进一步研究。
更复杂的推理模式 (More Complex Reasoning Patterns)：虽然 HiPRAG 在多跳 QA 任务上表现良好，但对于需要更抽象、更长链条推理或非线性搜索策略的问题，其效果可能仍有提升空间。未来的工作可以探索如何激励智能体学习更高级的规划和元推理 (meta-reasoning) 能力。

7.3. 个人启发与批判

这篇论文提供了一个非常重要的启发：在训练基于 LLM 的智能体时，仅仅关注最终的结果是不够的，对中间过程进行细粒度的监督和奖励能够带来显著的性能和效率提升。

过程奖励的重要性：HiPRAG 强调了过程奖励 (process reward) 相对于结果奖励 (outcome-based reward) 的巨大优势。传统的 RL 训练往往只关注“做对了什么”，而忽略了“如何做对”以及“如何避免做错”。通过直接惩罚过度搜索和欠搜索这两种具体的次优行为，模型能更深入地理解任务，并发展出更具自我意识的推理策略。这对于任何复杂的、多步骤的智能体行为学习都具有借鉴意义，例如代码生成、机器人规划等。
结构化输出的价值：论文通过强制执行结构化、机器可解析的输出格式，为细粒度过程奖励的实现奠定了基础。这表明在设计 LLM 交互时，明确的结构和规范不仅能提高可控性，还能为更高级的自动化评估和优化提供可能。
通用性与迁移性：HiPRAG 在不同模型家族、大小和 RL 算法上的良好泛化能力，预示着其方法论具有广泛的适用性。未来，这种过程优化思想可能被迁移到其他 LLM 工具调用、规划和决策任务中，以提高智能体的整体表现和资源效率。
对外部 LLM 依赖的批判性思考：尽管外部 LLM 判别器在当前阶段表现出色，但其高成本和潜在的黑盒性质是值得深思的局限。一个值得探索的未来方向是研究如何使智能体“自监督”地进行过度搜索和欠搜索检测，即让智能体在训练过程中学习构建自己的内部置信度或知识状态，从而在没有外部 LLM 干预的情况下进行自我修正。这可能涉及知识蒸馏、更智能的自举 (bootstrapping) 机制或利用 LLM 内部表示来推断信息需求。

总而言之，HiPRAG 为优化 LLM 智能体的推理效率和可靠性提供了一个强有力的框架，并为未来在更复杂、更开放的环境中构建真正智能且高效的 LLM 智能体指明了方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。