论文状态:已完成

MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning

发表:2025/10/08
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 7 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出MA-RAG,一种多智能体框架,用于检索增强生成(RAG),解决复杂信息检索中的模糊性和推理挑战。MA-RAG通过协调规划、步骤定义、提取和问答智能体,分解任务,确保高效的动态工作流,而无须模型微调。实验结果显示,其性能优于最先进的基线模型,验证了协作推理的有效性。

摘要

We present MA-RAG, a Multi-Agent framework for Retrieval-Augmented Generation (RAG) that addresses the inherent ambiguities and reasoning challenges in complex information-seeking tasks. Unlike conventional RAG methods that rely on either end-to-end fine-tuning or isolated component enhancements, MA-RAG orchestrates a collaborative set of specialized AI agents: Planner, Step Definer, Extractor, and QA Agents, to tackle each stage of the RAG pipeline with task-aware reasoning. Ambiguities may arise from underspecified queries, sparse or indirect evidence in retrieved documents, or the need to integrate information scattered across multiple sources. MA-RAG mitigates these challenges by decomposing the problem into subtasks, such as query disambiguation, evidence extraction, and answer synthesis, and dispatching them to dedicated agents equipped with chain-of-thought prompting. These agents communicate intermediate reasoning and progressively refine the retrieval and synthesis process. Our design allows fine-grained control over information flow without any model fine-tuning. Crucially, agents are invoked on demand, enabling a dynamic and efficient workflow that avoids unnecessary computation. This modular and reasoning-driven architecture enables MA-RAG to deliver robust, interpretable results. Experiments on multi-hop and ambiguous QA benchmarks demonstrate that MA-RAG outperforms state-of-the-art training-free baselines and rivals fine-tuned systems, validating the effectiveness of collaborative agent-based reasoning in RAG.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning

1.2. 作者

论文作者信息未在提供的摘要和正文开头部分明确列出,仅显示为 "Anonymous authors Paper under double-blind review" (匿名作者,双盲评审论文)。

1.3. 发表期刊/会议

根据提供的信息,该论文目前处于双盲评审阶段,具体发表期刊或会议尚未确定。

1.4. 发表年份

2025 年。

1.5. 摘要

本文提出了 MA-RAG,一个用于检索增强生成 (Retrieval-Augmented Generation, RAG) 的多智能体 (Multi-Agent) 框架,旨在解决复杂信息检索任务中固有的模糊性和推理挑战。与依赖端到端微调或独立组件优化的传统 RAG 方法不同,MA-RAG 通过协调一组专业化的人工智能智能体——规划智能体 (Planner)、步骤定义智能体 (Step Definer)、提取智能体 (Extractor) 和问答智能体 (QA Agents)——以任务感知推理的方式处理 RAG 管道的每个阶段。该框架通过将问题分解为子任务(如查询消歧、证据提取和答案合成),并将这些子任务分配给配备思维链 (Chain-of-Thought) 提示的专用智能体来缓解挑战。这些智能体之间通过交流中间推理结果,逐步完善检索和合成过程。MA-RAG 的设计允许在不进行任何模型微调的情况下,对信息流进行细粒度控制。关键在于,智能体是按需调用的,实现了动态高效的工作流,避免了不必要的计算。这种模块化、推理驱动的架构使 MA-RAG 能够提供稳健、可解释的结果。在多跳 (multi-hop) 和模糊问答基准测试上的实验表明,MA-RAG 优于最先进的免训练基线模型,并与经过微调的系统相媲美,验证了协作式智能体推理在 RAG 中的有效性。

1.6. 原文链接

https://openreview.net/pdf?id=Yc9LTfD7DY (发布状态:预印本,于 2025-10-08T00:00:00.000Z 发布)

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么? 传统的检索增强生成 (RAG) 模型在处理复杂信息检索任务时面临固有的模糊性和推理挑战。具体来说,这些挑战包括:

  1. 查询模糊性 (Underspecified Queries):用户查询可能不够明确,导致检索到的文档不相关或信息不足。
  2. 证据稀疏性或间接性 (Sparse or Indirect Evidence):检索到的文档可能只包含稀疏或间接的证据,难以直接回答问题。
  3. 信息分散 (Scattered Information):回答问题所需的信息可能分散在多个文档中,需要复杂的整合和推理。
  4. 组件隔离 (Isolated Components):现有 RAG 方法通常将检索、增强和生成等组件视为独立的,无法有效解决跨越多个阶段的模糊性和推理鸿沟。
  5. 模型黑盒性 (Lack of Transparency):传统 RAG 方法往往缺乏可解释性,难以理解模型是如何得出答案的。

为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白? 随着大语言模型 (Large Language Models, LLMs) 的发展,RAG 已成为增强 LLMs 事实准确性、时效性和领域适应性的重要技术。然而,现有 RAG 方法存在以下具体挑战或空白:

  • 局限性 (Limitations of LLMs):LLMs 自身存在知识过时、在特定领域泛化能力差等问题,RAG 旨在弥补这些不足。
  • 传统 RAG 的不足 (Shortcomings of Conventional RAG)
    • 朴素 RAG (Naive RAG):一次性检索后直接生成答案,无法处理复杂查询。
    • 增强型 RAG (Enhanced RAG):虽引入了后处理(如重排序、摘要),但仍可能引入噪声或未能过滤不相关信息。
    • 迭代式 RAG (Iterative RAG):通过查询重写等实现迭代检索,但通常假设输入查询是明确的,缺乏显式的模块化和规划能力。
  • 上下文利用效率低 (Context Inefficiency):简单地将所有检索到的片段附加到 LLM 输入中会增加输入长度和计算成本,且不能保证所有信息都相关,甚至可能引入“中间遗失 (lost-in-the-middle)”问题。
  • 训练成本高 (High Training Cost):一些先进的 RAG 方法需要进行端到端微调,这增加了部署的复杂性和成本。

这篇论文的切入点或创新思路是什么? MA-RAG 的创新之处在于将 RAG 过程视为一个协作式多智能体系统 (collaborative multi-agent system)。它通过以下方式切入并解决上述问题:

  1. 任务分解与专业化智能体 (Task Decomposition and Specialized Agents):将复杂的 RAG 任务分解为更小的、可管理的子任务,并为每个子任务分配一个专门的智能体。
  2. 思维链推理 (Chain-of-Thought Reasoning):每个智能体都通过思维链提示进行引导,使其能够执行显式的中间推理,从而提高可解释性和任务对齐。
  3. 按需调用 (On-Demand Invocation):智能体不是固定管道执行,而是根据任务的复杂性和当前步骤的模糊性按需动态调用,提高了效率。
  4. 训练无关 (Training-Free):整个框架无需对底层 LLMs 进行微调,使其具有高度的通用性和适应性。
  5. 模块化设计 (Modular Design):允许对信息流进行细粒度控制,且提高了系统的可解释性和鲁棒性。

2.2. 核心贡献/主要发现

论文最主要的贡献是什么?

  • 提出了 MA-RAG 框架 (Introduced MA-RAG Framework):一个模块化、多智能体的 RAG 框架,通过智能体之间的结构化协作,实现推理驱动的 RAG,从而能细粒度地处理模糊查询和复杂查询。
  • 实现了免训练解决方案 (Achieved Training-Free Solution):MA-RAG 完全无需模型微调,提供了一个通用且适应性强的解决方案,在多个问答数据集和 LLM 后端上超越或匹配了强大的基线模型。
  • 提供了可解释的推理步骤 (Provided Interpretable Reasoning Steps):通过智能体特定的思维链推理,MA-RAG 提供了可解释的中间步骤,并展示了对生物医学问答等专业领域的强大泛化能力,而无需进行领域特定的微调。

论文得出了哪些关键的结论或发现?

  • 显著优于独立 LLMs 和现有 RAG 方法 (Significantly Outperforms Standalone LLMs and Existing RAG Methods):MA-RAG 在多个开放域问答基准测试 (NQ, HotpotQA, TriviaQA, 2WikimQA) 上取得了最先进的性能。即使是小型 LLM (LLaMA3-8B) 配合 MA-RAG 也能超越更大的独立 LLMs。
  • 多跳推理和模糊查询处理能力强 (Strong Multi-Hop Reasoning and Ambiguous Query Handling):MA-RAG 在处理多跳和长尾数据集(如 HotpotQA 和 2WikimQA)时表现出显著优势,这得益于其细粒度的查询分解和精准的段落提取能力。
  • 规划智能体和提取智能体的关键作用 (Critical Role of Planner and Extractor Agents):消融实验表明,规划智能体对于多跳推理至关重要,而提取智能体则通过过滤无关内容显著改善了答案的接地性 (grounding)。
  • 模型规模对智能体的不同影响 (Varying Impact of Model Scale on Agents):模型规模对问答智能体 (QA Agent) 的影响最大,表明高质量的答案生成需要高容量的模型。而步骤定义智能体 (Step Definer) 对模型容量的依赖性较低,允许在实践中进行更高效的资源分配。
  • 强大的领域泛化能力 (Strong Domain Generalization):MA-RAG 在医疗问答等专业领域也表现出色,甚至无需领域特定的微调,性能可与领域专用模型或更强大的 GPT-4 相媲美。
  • 可解释性 (Interpretability):MA-RAG 的模块化、多智能体设计提供了可解释的中间推理步骤,有助于理解其决策过程。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 MA-RAG,我们需要先了解以下几个核心概念:

3.1.1. 检索增强生成 (Retrieval-Augmented Generation, RAG)

概念定义: RAG 是一种结合了信息检索和文本生成的技术。它通过从大型外部知识库(如维基百科、专业文档库)中检索相关信息,然后将这些信息作为上下文输入给大语言模型 (LLM),以生成更准确、更具事实依据和更少幻觉的答案。其核心思想是让 LLM 能够动态访问和利用外部知识,而不是仅仅依赖其在训练过程中学到的静态知识。

数学公式: 在标准 RAG 管道中,给定一个查询 qq 和一个语料库 C\mathcal{C},密集检索器 R\mathcal{R} 会检索出前 kk 个相关上下文 Cq={c1,...,ck}C_q = \{c_1, ..., c_k\}。大语言模型 (LLM) 根据包含查询和检索到的文档的提示 (prompt) 来生成答案: y=LLM(Promptgen(q,Cq)) y = \mathrm { L L M } ( \operatorname { P r o m p t } _ { \mathrm { gen } } ( q , C _ { q } ) ) 符号解释:

  • yy: 最终生成的答案。
  • LLM\mathrm{LLM}: 大语言模型。
  • Promptgen()\operatorname { P r o m p t } _ { \mathrm { gen } } (\cdot): 一个提示模板,用于构造输入给 LLM 的指令和结构。
  • qq: 用户输入的查询(问题)。
  • CqC_q: 检索到的与查询 qq 相关的上下文文档集合,通常包含 kk 个文档。

3.1.2. 大语言模型 (Large Language Models, LLMs)

概念定义: LLMs 是指具有数亿到数万亿参数的深度学习模型,通常基于 Transformer 架构。它们通过在海量文本数据上进行自监督预训练,学习到丰富的语言模式、世界知识和推理能力。LLMs 可以执行多种自然语言处理任务,如文本生成、问答、摘要、翻译等。GPT-3、GPT-4、LLaMA 系列、Mistral 等都是典型的 LLMs。

3.1.3. 思维链 (Chain-of-Thought, CoT) 提示

概念定义: 思维链提示是一种提高 LLM 复杂推理能力的技术。它不是直接要求 LLM 输出最终答案,而是通过在提示中引导 LLM 逐步思考,生成一系列中间推理步骤,最终得出结论。这些中间步骤就像人类解决问题时的思考过程,有助于提高 LLM 解决多步骤推理任务的准确性和可解释性。例如,当遇到一个数学问题时,LLM 会先列出解决问题的步骤,然后一步步计算,最后给出答案。

3.1.4. 多智能体系统 (Multi-Agent Systems)

概念定义: 在人工智能领域,多智能体系统是指由多个交互的、具有一定自主性和目标导向性的智能体组成的系统。每个智能体可能具有特定的能力和角色,并通过协作、竞争或协商来共同完成一个复杂的任务。在 LLM 语境下,多智能体系统通常指多个 LLM 实例扮演不同角色(如规划者、执行者、评论者),通过相互交流和协调来解决问题。

3.2. 前人工作

论文在“相关工作”部分提及了多个与 RAG 和智能体系统相关的关键前人研究:

3.2.1. 大语言模型 (LLMs) 发展

  • Transformer 架构 (Vaswani et al., 2017):现代 LLMs 的基础架构。
  • GPT 系列 (Radford et al., 2018; 2019; Brown et al., 2020; OpenAI, 2024):从 GPT-1 到 GPT-4,不断提升文本理解和生成能力。
  • 其他 LLMs (Jiang et al., 2023a; Gemini Team, 2023; Touvron et al., 2023a, 2023b):如 Mistral、Gemini、LLaMA 系列等,在问答、实体识别等任务上表现出色。
  • LLM 训练技术 (Houlsby et al., 2019a; Lester et al., 2021; Li & Liang, 2021; Hu et al., 2022):包括参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)、基于提示学习 (prompt-based learning)、适配器 (adapters) 和重参数化方法。
  • LLMs 评估 (Wei et al., 2024; Java et al., 2025):强调事实性和检索效率的评估。

3.2.2. 检索增强生成 (RAG) 演进

  • 早期 RAG (Lewis et al., 2020; Guu et al., 2020):将外部知识集成到 LLMs 中,以提高事实准确性和上下文相关性。
  • 组件优化 (Gao et al., 2024; Fan et al., 2024):集中优化检索、增强和生成三个核心组件。
    • 检索策略 (Jones, 1972; Robertson & Zaragoza, 2009; Reimers & Gurevych, 2019; Karpukhin et al., 2020):包括稀疏方法(如 BM25)和密集检索。
    • 增强方法 (Chen et al., 2020; Glass et al., 2022; Ma et al., 2024):检索后处理,如重排序、文档摘要,但可能增加延迟或未能过滤无关信息。
    • 迭代检索/查询重写 (Jiang et al., 2023b; Asai et al., 2024):在检索和推理之间交替进行,通过重写查询来优化检索。
  • 结构化检索 (Gutiérrez et al., 2024):如 HippoRAG 利用知识图谱进行检索。
  • 紧密结合检索与推理 (Lin et al., 2024; Wang et al., 2025; Li et al., 2025b; Leemann et al., 2025):如 RA-DIT 独立优化 LLM 上下文使用和检索器相关性,Speculative RAG 使用专业 LLM 起草答案并由通用 LLM 验证。
  • 图基方法 (Ma et al., 2025; Li et al., 2025a):如 ToG-2 和 SubgraphRAG 利用子图结构增强检索。
  • 强化学习优化 RAG (Shinn et al., 2023; Kulkarni et al., 2024; Menick et al., 2022; Asai et al., 2024; Zhou et al., 2023; Gao et al., 2025):通过经验记忆、策略优化、证据引用和反射式细化等方式优化检索和生成。

3.2.3. 基于 LLM 的智能体系统 (LLM-based Agentic Systems)

  • 多智能体协作 (Guo et al., 2024):通过结构化交互协调多个专业智能体解决复杂任务。
  • 智能体环境 (Hong et al., 2024; Mao et al., 2025; Park et al., 2023):智能体在沙盒、物理或抽象环境中操作。
  • 智能体角色 (Du et al., 2024; Xiong et al., 2023):预定义、涌现或数据驱动的角色。
  • 智能体通信 (Liu et al., 2024c; Hong et al., 2024):合作、竞争或辩论范式,通过集中或去中心化渠道。
  • 智能体能力发展 (Wang et al., 2023; 2024; do Nascimento et al., 2023; Zhang et al., 2023a; Chen et al., 2024a, b):通过环境反馈、记忆检索或自我进化。
  • 智能体 RAG (Ravuru et al., 2024; Schneider et al., 2025):如 Agentic RAG for time series 使用分层智能体路由,CollEX 实现多模态检索。
  • 开源智能体检索框架 (Alzubi et al., 2025a):如 Open Deep Search 展示了轻量级推理智能体在结构化搜索中的潜力。

3.3. 技术演进

LLM 领域的技术演进经历了从早期的基于循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 的模型,到 Transformer 架构的出现,再到参数规模不断扩大的预训练语言模型(如 GPT 系列、BERT 系列、LLaMA 系列)。RAG 作为一种弥补 LLMs 知识局限性的技术,也从最初的简单检索后生成,发展到引入后处理、迭代检索、查询重写等更复杂的机制。近年来,随着 LLMs 推理能力的增强(例如通过思维链提示),结合多智能体系统来模拟复杂任务分解和协作推理成为了一个新的方向。

本文的工作 MA-RAG 正是处于这一技术演进的最新阶段:它利用了 LLMs 强大的推理能力(通过 CoT 提示),并结合了多智能体协作范式来优化 RAG 流程,从而实现更精细、更可解释、更高效的知识密集型问答。

3.4. 差异化分析

MA-RAG 与相关工作中的主要方法相比,其核心区别和创新点在于:

  • 多智能体协作与动态按需调用 (Multi-Agent Collaboration with Dynamic, On-Demand Invocation)
    • 区别于传统 RAG (Naive/Enhanced RAG):传统 RAG 通常是固定管道,一次性检索,可能引入大量噪音或忽略复杂推理需求。MA-RAG 将整个 RAG 过程分解为多个专业智能体之间的协作,每个智能体负责特定子任务,并且是按需调用的,而非固定顺序执行。
    • 区别于迭代式 RAG (Iterative RAG):虽然迭代式 RAG 也涉及多步,但通常通过查询重写等方式进行,缺乏显式的模块化和规划机制。MA-RAG 有明确的规划智能体来分解任务,并由不同的智能体执行,提供了更细粒度的控制和可解释性。
    • 区别于其他智能体 RAG (Other Agent-based RAG):MA-RAG 强调使用轻量级、专业化的智能体,通过思维链推理进行协作,目标是提高复杂问答场景下的透明度和性能,并且无需微调。
  • 训练无关 (Training-Free)
    • 区别于端到端微调的 RAG 方法 (End-to-end Fine-tuned RAG):许多高性能 RAG 模型需要进行端到端微调,例如 Atlas (Izacard et al., 2023) 或 RA-DIT (Lin et al., 2024),这增加了部署成本和通用性限制。MA-RAG 完全不依赖于模型微调,使其更具通用性和适应性,可以方便地与各种 LLM 后端集成。
  • 细粒度信息流控制与可解释性 (Fine-grained Information Flow Control and Interpretability)
    • 区别于缺乏模块化的方法 (Methods Lacking Modularity):大多数现有方法将组件视为孤立的,难以解决跨阶段的模糊性和推理鸿沟。MA-RAG 的模块化设计允许对信息流进行精细控制,并且由于每个智能体都使用思维链提示,中间推理步骤清晰可见,极大地增强了系统的可解释性。
  • 上下文效率 (Context Efficiency)
    • 区别于简单拼接上下文 (Naïve Context Appending):MA-RAG 的提取智能体 (Extractor Agent) 负责过滤噪音,只保留与当前子查询最相关的内容,避免了“中间遗失”问题,并提高了上下文利用效率。

4. 方法论

4.1. 方法原理

MA-RAG 的核心思想是将复杂的检索增强生成 (RAG) 任务分解为一系列结构化的推理步骤,并由多个专门的 AI 智能体 (AI agents) 协同完成。每个智能体都专注于 RAG 管道中的特定子任务,通过思维链 (Chain-of-Thought) 提示进行引导,并动态地按需调用。这种设计旨在解决传统 RAG 方法中存在的查询模糊性、证据稀疏性、信息分散以及组件之间缺乏协作等问题,从而提高答案的准确性、可解释性和鲁棒性。

MA-RAG 将整个 RAG 过程视为一个复杂的、知识密集型推理的管道,而非仅仅是生成能力的改进。它通过以下方式改进传统的 RAG 范式:

  1. 任务分解 (Task Decomposition):将一个复杂的查询分解为一系列更简单、更具目标性的子任务或子查询。
  2. 专业化 (Specialization):每个智能体都拥有特定的功能和职责,例如规划、查询细化、证据检索、信息提取和答案合成。
  3. 协作与通信 (Collaboration and Communication):智能体之间通过共享状态和中间推理结果进行通信,逐步完善整个过程。
  4. 动态执行 (Dynamic Execution):智能体并非固定管道式执行,而是根据当前任务的复杂性和需求动态激活,避免不必要的计算。

4.2. 核心方法详解

MA-RAG 框架包含四个核心智能体和一个检索模块,它们协同工作以完成复杂的问答任务。整个流程是迭代的,通过 LangChain 和 LangGraph 实现,其中智能体通过结构化的 JSON 消息进行通信。

下图(原文 Figure 2)展示了 MA-RAG 的整体工作流程:

Figure 2: Overview of MA-RAG. MA-RAG is a training-free, multi-agent RAG framework that decomposes complex queries into interpretable steps through collaborative reasoning. The left panel shows individual components and their I/O interfaces; the right panel illustrates the overall iterative workflow. A Planner Agent first breaks down the input query into a high-level reasoning plan. For each step, a Step Definer Agent generates a detailed subquery based on the step goal, original question, and prior outputs. This subquery is processed by the Retrieval Tool to fetch top-ranked documents, which are then refined by the Extractor Agent to retain only step-relevant content. The QA Agent synthesizes the final answer for each step using the filtered evidence and subquery. MA-RAG iterates through these steps until the full reasoning path is complete. 该图像是图示图,展示了 MA-RAG 的工作流程。它通过四个专门的代理(规划者、步骤定义者、提取器和问答代理)将复杂查询分解为可解释的步骤。流程从规划者开始,生成高层推理计划,然后由步骤定义者生成具体子查询,接着使用检索工具获取相关文档,最后由提取器和问答代理合成最终答案,直至完成整个推理过程。

Figure 2: Overview of MA-RAG. MA-RAG is a training-free, multi-agent RAG framework that decomposes complex queries into interpretable steps through collaborative reasoning. The left panel shows individual components and their I/O interfaces; the right panel illustrates the overall iterative workflow. A Planner Agent first breaks down the input query into a high-level reasoning plan. For each step, a Step Definer Agent generates a detailed subquery based on the step goal, original question, and prior outputs. This subquery is processed by the Retrieval Tool to fetch top-ranked documents, which are then refined by the Extractor Agent to retain only step-relevant content. The QA Agent synthesizes the final answer for each step using the filtered evidence and subquery. MA-RAG iterates through these steps until the full reasoning path is complete.

MA-RAG 的迭代工作流程如下:

  1. 初始规划阶段:

    • 规划智能体 (Planner Agent):在接收到用户输入查询 qq 后,首先由规划智能体对其进行分析。
      • 功能: 执行查询消歧 (query disambiguation) 和任务分解 (task decomposition)。它识别查询中模糊或未明确的元素,并在必要时将其重构为更清晰的子问题。
      • 对于复杂或多跳 (multi-hop) 查询: 规划智能体会生成一个结构化的计划 P={s1,s2,...,sn}P = \{s_1, s_2, ..., s_n\},其中每个 sis_i 代表一个推理子任务。计划中推理步骤的数量由规划智能体动态确定。
      • 引导方式: 规划智能体通过思维链 (Chain-of-Thought) 提示和少量示例进行引导,确保分解过程是可解释的,并支持后续模块的接地推理。
      • 输出: 一个包含多个推理子任务的计划列表。该智能体在整个 RAG 流程开始时只调用一次。
  2. 迭代执行阶段 (Retrieve-Answer RAG process for each step):对于计划中的每一个推理子任务 sis_i,系统都会执行一个“检索-回答”的 RAG 过程:

    • 步骤定义智能体 (Step Definer Agent):将抽象的推理子任务 sis_i 转换为可执行的详细子查询。

      • 功能: 根据原始查询 qq、整个计划 PP、当前步骤 sis_i 以及之前累积的历史信息 Hˉi1={(s1,a1),,(si1,ai1)}\bar{H}_{i-1} = \{(s_1, a_1), \dotsc, (s_{i-1}, a_{i-1})\}(其中 aja_j 是前一步骤的答案),生成一个专门用于检索的详细子查询。
      • 作用: 连接了高级意图和低级执行,确保检索到的文档具有精确的相关性。
      • 输出: 一个详细的检索子查询。
    • 检索工具 (Retrieval Tool):接收步骤定义智能体生成的子查询,并从外部语料库中检索相关文档。

      • 实现: 基于 FAISS (Johnson et al., 2021) 构建的密集检索模块。
      • 工作原理: 文本被预处理并分块,然后使用预训练的编码器进行嵌入。在推理时,子查询被编码成向量,并通过内积匹配与索引中的文档。
      • 输出: 前 kk 个最相关的段落。这实现了每一步动态、按需的知识增强。
    • 提取智能体 (Extractor Agent):对检索工具返回的文档进行精炼,提取与当前子查询最相关的内容。

      • 功能: 检索到的段落通常包含冗余或不相关的信息。提取智能体不是简单地附加整个文档块,而是选择并聚合与当前子查询直接对齐的句子或片段。
      • 作用: 过滤噪音,缓解“中间遗失 (lost-in-the-middle)”问题 (Liu et al., 2024a),并通过组合来自多个源的补充信息,形成一个简洁的证据集 (evidence set) 供问答智能体使用。
      • 上下文管理: 为避免多跳查询中的上下文溢出,提取智能体在每一步都会总结相关内容,并且只有包含提取摘要或答案的步骤级查询会被传递给下一步。这在保持连续性的同时,使上下文保持简洁高效。
      • 输出: 一个简洁的、与当前子查询强相关的证据集。
    • 问答智能体 (Question Answering Agent):利用提取智能体提供的证据和当前子查询,合成该步骤的答案。

      • 功能: 根据步骤特定的查询和过滤后的证据,使用上下文学习 (in-context learning) 来生成答案。
      • 输出: 为每个步骤 sis_i 生成一个答案 aia_i。这个答案 aia_i 会被添加到历史记录 HiH_i 中,并传递给下一个迭代。
  3. 最终答案合成: 当所有计划中的步骤都完成后,问答智能体将整合所有步骤的答案,形成最终的答案并返回给用户。

    动态和模块化 (Dynamic and Modular Invocation): MA-RAG 的一个关键特点是其智能体的动态和模块化调用。系统根据推理计划的结构按需协调智能体,而不是执行固定的管道。规划智能体在开始时被调用一次以生成高级计划。随后,对于每个步骤 sis_i,系统依次触发步骤定义智能体、检索工具和提取智能体。提取的证据被发送给问答智能体,后者返回答案 aia_i。这个答案被添加到历史记录 HiH_i 中,并开始下一个迭代。系统在整个推理过程中保持一个持续的推理轨迹,允许每个智能体根据不断演变的上下文进行条件判断。这种模块化设计使得灵活的、逐步的执行成为可能,并支持对复杂、多跳查询的自适应推理,而无需所有智能体同时活跃。

与传统 RAG 范式的联系: MA-RAG 从传统 RAG 范式出发,通过引入智能体协作来增强其能力。传统的 RAG 可以概括为: y=LLM(Promptgen(q,Cq)) y = \mathrm { L L M } ( \operatorname { P r o m p t } _ { \mathrm { gen } } ( q , C _ { q } ) ) 在 MA-RAG 中,这个公式被分解并扩展。原始查询 qq 不再直接传入 Promptgen\operatorname { P r o m p t } _ { \mathrm { gen } },而是首先由规划智能体分解。CqC_q 的获取和精炼也由步骤定义智能体检索工具提取智能体协同完成,确保 CqC_q 是针对当前子任务高度相关的局部上下文。最终的 yy问答智能体在精炼的 CqC_q 和子查询上逐步合成。

4.3. LangChain/LangGraph 实现细节

MA-RAG 使用 LangChain 和 LangGraph 实现,其中智能体之间的通信通过结构化的 JSON 消息进行。每个智能体在图中表示为一个节点,边根据任务结果或状态决定下一个要执行的智能体。

下图(原文 Figure 4)展示了 MA-RAG 在 LangChain 中的图表示:

Figure 4: MA-RAG graph representations in Langchain. 该图像是MA-RAG框架的三种图形表示,包括(a) MA-RAG图,(b) 计划-执行-节点图,以及(c) 单任务-执行图。图形展示了多代理在信息检索增强生成过程中的协作方式,其结构清晰地说明了每个代理在不同阶段的作用和任务流。

Figure 4: MA-RAG graph representations in Langchain.

MA-RAG 定义了多个 GraphState 模式(使用 Python 的 TypedDict),以确保智能体之间通信的一致性和清晰性。每个子状态对应管道中的一个关键阶段:

  • QAAnswerState: 存储问答智能体为每个子任务生成的输出。
    class QAAnswerState(TypedDict):
        analysis: str
        answer: str
        success: str
        rating: int
    
  • PlanState: 表示规划智能体的输出计划和推理。
    class PlanState(TypedDict):
        analysis: str
        step: List[str]
    
  • StepTaskState: 编码单个子任务的详细指令。
    class StepTaskState(TypedDict):
        type: str
        # ... more fields for specific task details
    
  • PlanSummaryState: 总结计划执行后的结果。
    class PlanSummaryState(TypedDict):
        output: str
        answer: str
        score: int
    
  • PlanExecState: 捕获执行计划的完整状态,包括输入、中间输出和备注。
    class PlanExecState(TypedDict):
        original_question: str
        plan: List[str]
        step_question: Annotated[List[StepTaskState], operator.add]
        step_output: Annotated[List[QAAnswerState], operator.add]
        step_docs_ids: Annotated[List[List[str]], operator.add]
        step_notes: Annotated[List[List[str]], operator.add]
        plan_summary: PlanSummaryState
        stop: bool = False
    
  • RagState: 管理单步 RAG 执行期间的状态。
    class RagState(TypedDict):
        question: str
        documents: List[str]
        doc_ids: List[str]
        notes: List[str]
        final_raw_answer: QAAnswerState
    
  • GraphState: 协调 MA-RAG 管道的顶级状态对象。
    class GraphState(TypedDict):
        original_question: str
        plan: List[str]
        past_exp: Annotated[List[PlanExecState], operator.add]
        final_answer: str
    

每个智能体都从这些结构化状态的特定字段读取信息,并向其中写入信息。例如,规划智能体设置 plan,步骤定义智能体附加到 step_question,提取智能体填充 step_notes,问答智能体写入 step_output。这种模块化设计实现了可解释的多智能体推理和整个管道的无缝通信。

5. 实验设置

5.1. 数据集

论文在开放域问答 (Open-domain Question Answering, Open-domain QA) 和事实核查 (Fact Verification) 任务上评估了 MA-RAG。

5.1.1. 开放域问答数据集

  • Natural Questions (NQ) (Kwiatkowski et al., 2019)
    • 特点: 由来自 Google 搜索的真实用户查询组成,答案是维基百科文章中的短语。
    • 规模: 使用 KILT 基准 (Petroni et al., 2021) 中的 2837 个开发集问题进行评估。
    • 领域: 开放域,主要为单跳 (single-hop) 问题。
  • TriviaQA (Joshi et al., 2017)
    • 特点: 由问答爱好者编写的具有挑战性的琐事问题,配有独立收集的证据文档。
    • 规模: 使用 KILT 基准中的 5359 个开发集问题进行评估。
    • 领域: 开放域,通常不需要外部知识检索,主要为单跳问题。
  • HotpotQA (Yang et al., 2018)
    • 特点: 一个多跳 QA 数据集,需要模型跨越多个维基百科文章进行推理才能回答复杂问题。
    • 规模: 使用 KILT 基准中的 5600 个开发集问题进行评估。
    • 领域: 开放域,多跳推理。
  • 2WikimQA (Ho et al., 2020)
    • 特点: 一个多跳数据集,问题基于两个不同的维基百科实体,旨在评估模型跨多个来源检索和推理的能力。
    • 领域: 开放域,多跳推理。

5.1.2. 事实核查数据集

  • FEVER (Thorne et al., 2018)
    • 特点: 一个事实核查基准,模型必须根据从维基百科检索到的证据判断一个声明是“支持”、“反驳”还是“无法验证”。
    • 规模: 使用 KILT 基准中的 10444 个开发集问题进行评估。
    • 领域: 事实核查,问题通常不需要外部知识检索。

5.1.3. 医疗领域数据集 (用于领域泛化测试)

  • MedMCQA (Pal et al., 2022)
    • 特点: 一个多选题 QA 数据集,基于印度医学入学考试。
    • 规模: 使用其 4183 个问题的开发集进行评估。
    • 领域: 医疗领域。
  • PubmedQA (Jin et al., 2019)
    • 特点: 一个生物医学 QA 数据集,包含 1000 个基于 PubMed 摘要的“是/否/可能”问题。
    • 领域: 医疗领域。

5.1.4. 互联网接入评估数据集

  • SimpleQA (Wei et al., 2024)
    • 特点: 旨在评估前沿模型在没有网络访问权限情况下的事实问答能力。问题通常需要最新或冷门的知识。

    • 领域: 开放域事实问答,需要实时网络搜索。

      数据集选择理由: NQ 和 TriviaQA 主要测试单跳能力,HotpotQA 和 2WikimQA 旨在评估更复杂的、多跳推理能力。FEVER 测试事实核查。医疗领域数据集则用于验证 MA-RAG 在不进行领域特定微调情况下的泛化能力。SimpleQA 进一步测试了结合网络搜索的能力。

5.2. 评估指标

论文使用了以下评估指标:

5.2.1. 精确匹配 (Exact Match, EM)

  • 概念定义: 精确匹配 (EM) 是评估问答系统性能的严格指标。它衡量模型生成的答案与参考答案(真值)是否完全一致。如果生成的答案与参考答案在字符串级别上完全相同(忽略大小写和标点符号的一些标准化),则记为 1,否则记为 0。EM 通常用于评估那些答案是短文本片段或特定实体的问答任务。
  • 数学公式: EM=1Ni=1NI(predicted_answeri=ground_truth_answeri) \mathrm{EM} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(\text{predicted\_answer}_i = \text{ground\_truth\_answer}_i)
  • 符号解释:
    • NN: 问答数据集中的问题总数。
    • predicted_answeri\text{predicted\_answer}_i: 模型为第 ii 个问题生成的答案。
    • ground_truth_answeri\text{ground\_truth\_answer}_i: 第 ii 个问题的真实参考答案。
    • I()\mathbb{I}(\cdot): 指示函数,当括号内的条件为真时取 1,否则取 0。
    • EM\mathrm{EM}: 精确匹配得分,表示完全正确答案的比例。

5.2.2. 准确率 (Accuracy, Acc)

  • 概念定义: 准确率 (Acc) 是一个常见的分类任务评估指标,衡量模型正确分类的样本比例。在事实核查任务中,它表示模型正确判断声明为“支持”、“反驳”或“无法验证”的比例。
  • 数学公式: Acc=Number of Correct PredictionsTotal Number of Predictions \mathrm{Acc} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}
  • 符号解释:
    • Number of Correct Predictions\text{Number of Correct Predictions}: 模型正确分类或判断的样本数量。
    • Total Number of Predictions\text{Total Number of Predictions}: 样本总数。
    • Acc\mathrm{Acc}: 准确率得分。

5.3. 对比基线

论文将 MA-RAG 与多种基线模型进行了比较,包括独立 LLMs (Without Retrieval-augmented Generation) 和各种 RAG 方法 (With Retrieval-augmented Generation)。

5.3.1. 无检索增强生成 (Without Retrieval-augmented Generation)

  • LLaMA3-Instruct 8B (Meta, 2024):8 亿参数的 LLaMA3 指令微调模型。
  • LLaMA3-Instruct 70B (Meta, 2024):70 亿参数的 LLaMA3 指令微调模型。
  • GPT-3.5-turbo-1106 (OpenAI, 2022):OpenAI 的 GPT-3.5 系列模型。
  • GPT-4-0613 (OpenAI, 2024):OpenAI 的 GPT-4 系列模型。 这些基线代表了 LLM 在没有外部知识检索情况下的性能,主要依赖其内部预训练知识。

5.3.2. 有检索增强生成 (With Retrieval-augmented Generation)

  • SmartRAG 7B (Gao et al., 2025):一个与环境反馈联合学习 RAG 相关任务的模型。
  • Atlas 11B (Izacard et al., 2023):一个使用检索增强的少样本学习语言模型。
  • RECOMP 20B (Xu et al., 2024):通过上下文压缩和选择性增强改进 RAG 的模型。
  • REPLUG 65B (Shi et al., 2024):检索增强的黑盒语言模型。
  • RA-DIT 65B (Lin et al., 2024):检索增强双指令微调模型。
  • Self-RAG 8B (Asai et al., 2024):通过自我反思学习检索、生成和批评的 RAG 模型。
  • ChatQA-1.5 8B/70B (Liu et al., 2024b):一个在对话式问答和 RAG 方面超越 GPT-4 的模型。
  • RankRAG 8B/70B (Yu et al., 2024):一个将上下文排序与 RAG 统一的模型。
  • ReAct (70B) (Yao et al., 2023):一个在语言模型中协同推理和行动的模型。
  • Adaptive-RAG (GPT-3.5) (Jeong et al., 2024):一个学习根据问题复杂性调整 RAG 的模型。
  • Self-Ask (GPT-3) (Press et al., 2023):一个通过生成子问题来回答问题的模型。 这些基线代表了当前各种先进的 RAG 方法,包括不同模型规模和不同优化策略。

5.3.3. 医疗领域基线

  • Mixtral 8*7B (Jiang et al., 2024)
  • Llama2 70B (Touvron et al., 2023b)
  • Meditron 70B (Chen et al., 2023):领域特定模型。
  • PMC-Llama 13B (Wu et al., 2024):领域特定模型。
  • ChatQA-1.5 8B/70B (Liu et al., 2024b)
  • RankRAG 8B/70B (Yu et al., 2024)
  • GPT-3.5 (OpenAI, 2022)
  • GPT-4-0613 (OpenAI, 2024)

5.3.4. 互联网接入基线

  • Qwen 2.5

  • Llama3.1-70B

  • Claude 3.5 Sonnet

  • GPT-40

  • DeepSeek-R1

  • Perplexity Deep Research* (带星号表示允许访问互联网)

  • ODS-v1+Llama3.1-70B* (Open Deep Search)

  • ODS-v2+DeepSeek-R1*

  • ODS-v1+DeepSeek-R1*

    实施细节:

  • 语料库 (Corpus):对于 NQ, HotpotQA, TriviaQA 和 FEVER,使用 Karpukhin et al. (2020) 预处理的维基百科语料库。对于医疗领域,使用 MedCorp (Xiong et al., 2024) 作为语料库。

  • 检索模型 (Retrieval Model):使用 gte-multilingual (Zhang et al., 2024b) 作为通用检索模型。对于医疗领域,使用 MedCPT (Jin et al., 2023) 作为检索模型。

  • LLMs 后端 (LLM Backends):使用 LLaMA3 (8B 和 70B) 和 GPT-4o-mini (OpenAI, 2024) 作为 MA-RAG 的 LLM 后端。

  • 硬件: 使用 8 块 NVIDIA A6000 GPU 进行 LLM 推理,并采用 vLLM (Kwon et al., 2023) 实现高效生成。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. MA-RAG 性能概览

下图(原文 Figure 3)提供了 MA-RAG 和几个基线模型在 NQ、HotpotQA 和 2WikimQA 数据集上的视觉比较。

Figure 3: Exact Match (EM) performance of MA-RAG and baseline methods on NQ, HotpotQA, and 2WikimQA. The green star indicates MA-RAG with LLaMA3-8B, the blue star indicates MA-RAG with LLaMA3-70B, and the red star indicates MA-RAG with GPT-4o-mini. Across all datasets, MA-RAG consistently outperforms baseline methods using the same model size, demonstrating the effectiveness of our multi-agent reasoning approach. 该图像是图表,展示了MA-RAG及基线方法在NQ、HotpotQA和2WikimQA数据集上的准确匹配(EM)性能。绿色星标代表MA-RAG与LLaMA3-8B, 蓝色星标代表与LLaMA3-70B,红色星标代表与GPT-4o-mini。结果显示,MA-RAG在所有数据集上均优于相同模型大小的基线方法,证明了其多智能体推理方法的有效性。

Figure 3: Exact Match (EM) performance of MA-RAG and baseline methods on NQ, HotpotQA, and 2WikimQA. The green star indicates MA-RAG with LLaMA3-8B, the blue star indicates MA-RAG with LLaMA3-70B, and the red star indicates MA-RAG with GPT-4o-mini. Across all datasets, MA-RAG consistently outperforms baseline methods using the same model size, demonstrating the effectiveness of our multi-agent reasoning approach.

主要观察结果:

  • MA-RAG 优于无检索的独立 LLMs:

    • 例如,在 NQ 数据集上,独立的 LLaMA3-70B 和 GPT-4 的准确率分别为 42.7 和 40.3。而配备 MA-RAG 的 LLaMA3-8B 已经超过这些模型,达到 52.5 的分数,配备 GPT-4o-mini 的 MA-RAG 甚至达到了 59.5。
    • 在 HotpotQA 和 2WikimQA 等其他数据集上也观察到类似的改进,MA-RAG 在处理复杂、知识密集型问题时显示出显著优势。这表明检索增强推理,在多智能体框架支持下,优于仅依赖内部知识库的独立 LLMs。
  • MA-RAG 优于现有 RAG 模型:

    • 在 8B 模型规模下,MA-RAG (LLaMA3-8B) 持续优于 ChatQA-1.5 8B 和 RankRAG 8B 等多个强大基线模型,在 NQ、HotpotQA 和 2WikimQA 上取得了更高的精确匹配 (EM) 分数。
    • 即使与 RA-DIT 65B 和 REPLUG 65B 等更大的检索模型相比,MA-RAG (8B) 在所有任务上都表现出始终如一的更好性能。
    • 当扩展到更大的模型时,MA-RAG (LLaMA3-70B 和 GPT-4o-mini) 优于最强的 70B 规模模型,如 ChatQA-1.5 70B 和 RankRAG 70B,在多个基准测试上创造了新的最先进结果。
    • 特别是在更具挑战性的多跳和长尾数据集如 HotpotQA (52.1) 和 2WikimQA (47.5) 上,MA-RAG 相较于以前的方法有显著的提升。这表明 MA-RAG 固有的细粒度查询分解和段落提取能力在处理复杂检索条件方面特别有利。
  • 动态步数与效率: MA-RAG 的模块化设计的一个关键优势是步数由规划智能体根据问题复杂性动态确定。例如,在 HotpotQA 上,MA-RAG 平均每个问题需要 2.3 步,而在大部分是单跳问题的 NQ 上,平均每个问题只需 1.4 步。这些结果强调了多智能体协作在提高开放域问答性能方面的关键作用,并指出专门智能体在不同推理步骤中的集成导致了更有效和高效地利用外部知识来源。

    以下是原文 Table 5 的结果,展示了 MA-RAG 和基线在不同数据集上的完整性能对比。

    Task NQ TriviaQA HotpotQA 2WikimQA FEVER
    EM EM EM EM Acc
    Without Retrieval-augmented Generation
    Llama3-Instruct 8B (2024) 30.9 70.7 26.0 9.6 88.9
    Llama3-Instruct 70B (2024) 42.7 82.4 35.5 13.5 91.4
    GPT-3.5-turbo-1106 (2022) 38.6 82.9 29.9 23.9 82.7
    GPT-4-0613 (2024) 40.3 84.8 34.5 29.8 87.7
    With Retrieval-augmented Generation
    SmartRAG 7B (2025) 26.7 56.9 26.0 77.0
    Atlas 11B (2023) 37.0 59.0 34.7
    RECOMP 20B (2024) 28.8 72.6 30.4 -
    REPLUG 65B (2024) 35.2 75.4 32.0 39.7 73.3
    RA-DIT 65B (2024) - 80.7
    Self-RAG 8B (2024) 39.6 78.2 24.3 25.1 -
    ChatQA-1.5 8B (2024b) 42.4 81.0 33.4 26.8 90.9
    ChatQA-1.5 70B (2024b) 47.0 85.6 42.2 34.9 92.7
    RankRAG 8B (2024) 50.6 82.9 35.3 31.4 92.0
    RankRAG 70B (2024) 54.2 86.5 42.7 38.2 93.8
    ReAct (70B) (2023) 43.9 84.5 39.2 32.6 92.0
    Adaptive-RAG (GPT-3.5) (2024) 36.8 - 40.4 46.6
    Self-Ask (GPT-3) (2023) - 40.1 -
    Ours
    MA-RAG (Llama3-8B) 52.5 82.6 40.3 31.8 91.4
    MA-RAG (Llama3-70B) 58.1 85.4 50.7 43.1 93.1
    MA-RAG (GPT-4o-mini) 59.5 87.2 52.1 47.5 93.3

以下是原文 Table 5 的结果:MA-RAG 和基线方法在不同数据集上的结果。公共报告中不可用的结果标记为 ""。NQ、TriviaQA、HotpotQA 和 FEVER 使用 KILT 基准 (Petroni et al., 2021) 的数据。FEVER 数据集报告准确率,其他报告精确匹配 (EM)。

关于 TriviaQA 和 FEVER 的注意事项: MA-RAG 在 TriviaQA 和 FEVER 上也取得了有竞争力的性能,GPT-4o-mini 分别达到了 87.2 EM 和 93.3 准确率,与 RankRAG 等强大的微调基线模型相当或超越。值得注意的是,与这些方法不同,MA-RAG 是完全免训练的,仅依靠基于智能体的推理和思维链提示,而无需对底层 LLMs 进行任何基于梯度的更新。然而,论文提醒,这些基准可能未能完全反映检索增强方法的优势,因为像 GPT-4 这样的强大 LLMs 在没有外部检索的情况下也表现良好(例如,TriviaQA 上的 84.8 EM 和 FEVER 上的 87.7 准确率),这很可能是因为许多问题要么是单跳的,要么已经与模型的预训练数据对齐。论文包含这些结果是为了完整性,但强调更复杂的多跳数据集更能检验检索和推理能力。

6.1.2. 医疗领域泛化能力

以下是原文 Table 3 的结果,展示了 MA-RAG 和基线在医疗基准数据集上的准确率。

Method PubmedQA MedMCQA
Mixtral 8*7B (2024) 67.6 56.4
Llama2 70B (2023b) 50.4 43.1
Meditron 70B (2023) 56.4 52.7
PMC-llama 13B (2024) 42.6 65.2
ChatQA-1.5 8B (2024b) 66.4 46.9
ChatQA-1.5 70B (2024b) 74.8 62.5
RankRAG 8B (2024) 65.0 56.9
RankRAG 70B (2024) 79.8 69.1
GPT-3.5 (2022) 67.4 66.7
GPT-4-0613 (2024) 70.6 66.7
MA-RAG (Llama3-8B) 66.7 56.5
MA-RAG (Llama3-70B) 78.9 67.9
MA-RAG (GPT-4o-mini) 80.2 69.8

以下是原文 Table 3 的结果:MA-RAG 和基线方法在医疗基准数据集上的准确率。所有基线都在相同设置下使用检索。基线结果来自公共报告 (Xiong et al., 2024)。

主要发现:

  • MA-RAG 在医疗领域也表现出强大的性能,尽管没有在生物医学数据上进行微调。
  • MA-RAG (LLaMA3-70B) 甚至超越了 Meditron 70B 和 PMC-LLaMA 13B 等领域专用模型,达到了与 GPT-4 相当的性能。
  • 当使用 GPT-4o-mini 时,MA-RAG 甚至超越了包括 GPT-4-0613 和 RankRAG 70B 在内的所有基线。
  • 这些结果强调了 MA-RAG 通过模块化推理和思维链协调,即使无需领域特定微调,也能泛化到专业领域。

6.1.3. 互联网接入性能

以下是原文 Table 6 的结果,展示了 MA-RAG 结合实时网络搜索在 SimpleQA 数据集上的准确率。

Method SimpleQA (%)
Qwen 2.5 9.1
Llama3.1-70B 20.4
Claude 3.5 Sonnet 28.9
GPT-40 40.1
DeepSeek-R1 82.4
Perplexity Deep Research* 93.9
ODS-v1+Llama3.1-70B* 83.4
ODS-v2+DeepSeek-R1* 88.3
ODS-v1+DeepSeek-R1* 87.7
MA-RAG (GPT-4o-mini, web)* 86.4

以下是原文 Table 6 的结果:SimpleQA 结果(准确率),针对近期系统。带 * 表示允许访问互联网的模型。

主要发现:

  • MA-RAG 结合 Google Search 作为检索引擎,在 SimpleQA 上取得了 86.4% 的准确率,相较于没有网络访问的 GPT-40 (40.1%) 和 GPT-4o-mini 基线有显著提升。
  • MA-RAG 的性能与 DeepSeek-R1 (82.4%) 相比表现更好,并且超过了 ODS-v1+Llama3.1-70B (83.4%)。
  • 这表明 MA-RAG 的多智能体推理与网络集成相结合,在开放域事实问答中也高效。

6.2. 消融实验/参数分析

6.2.1. 智能体影响

以下是原文 Table 1 的结果,展示了 MA-RAG 在去除提取智能体或规划智能体后的性能影响。

Task NQ TriviaQA HotpotQA 2WikimQA FEVER
MA-RAG (Llama3-70B) 58.1 85.4 50.7 43.1 93.1
- w/o Extractor 53.4 82.1 43.4 38.2 89.2
- w/o Planner 57.9 80.3 36.2 26.4 91.3

以下是原文 Table 1 的结果:使用 70B LLM 的 MA-RAG 消融研究:评估规划智能体和提取智能体对 MA-RAG 在单跳和多跳 QA 基准测试上的性能影响。

主要发现:

  • 移除提取智能体 (- w/o Extractor):导致性能持续下降。这强调了提取智能体在精炼输入和接地响应方面的作用。当没有提取智能体时,检索到的文档会直接输入到提示中,导致噪声增加和相关性降低。
  • 移除规划智能体 (- w/o Planner):将 MA-RAG 简化为一个带有文档过滤但没有查询分解的单轮 RAG 系统。虽然在简单的单跳数据集上(如 NQ,性能从 58.1 降至 57.9,影响较小)表现尚可,但在需要结构化推理的多跳问题上(如 HotpotQA 和 2WikimQA,性能分别从 50.7 降至 36.2 和从 43.1 降至 26.4)则表现不佳。这突出了规划智能体在指导复杂推理方面的重要性。
  • 结论: 规划智能体和提取智能体都至关重要:提取智能体提高了精度,而规划智能体则实现了对各种问题类型的有效推理。

6.2.2. LLMs 规模影响

以下是原文 Table 2 的结果,展示了在多跳问答任务中,用 LLaMA3-8B 替换 MA-RAG (70B) 系统中单个智能体时的性能影响。

Planner Step definer Extractor QA HotpotQA 2WikimQA
Llama3-70B Llama3-70B Llama3-70B Llama3-70B 50.7 43.1
Llama3-70B Llama3-70B Llama3-70B Llama3-8B 49.7 34.5
Llama3-70B Llama3-70B Llama3-8B Llama3-70B 49.4 39.8
Llama3-70B Llama3-8B Llama3-70B Llama3-70B 49.9 42.5
Llama3-8B Llama3-70B Llama3-70B Llama3-70B 49.2 39.1

以下是原文 Table 2 的结果:LLMs 规模的消融研究:评估在 70B 为基础的 MA-RAG 系统中,用 LLaMA3-8B 替换单个智能体对多跳 QA 性能的影响。

主要发现:

  • 问答智能体 (QA agent):替换 QA 智能体导致最大的性能下降,尤其是在 2WikimQA 上(从 43.1 降至 34.5)。这表明高容量模型对于最终答案的生成至关重要。
  • 规划智能体 (Planner) 和提取智能体 (Extractor):替换规划智能体 (从 43.1 降至 39.1) 或提取智能体 (从 43.1 降至 39.8) 也会导致明显的性能下降,这表明它们的能力(生成有效的推理计划和识别相关证据)对模型容量敏感。
  • 步骤定义智能体 (Step Definer):降低步骤定义智能体的模型容量 (从 43.1 降至 42.5) 仅产生边际影响。这表明其结构化角色对大型模型的依赖性较小。
  • 结论: 在多跳 QA 任务中,将更大的模型分配给 QA、规划和提取智能体对于保持性能至关重要。较小的模型可以用于步骤定义智能体,且性能损失最小,从而在实践中实现更有效的资源分配。

6.3. 案例研究

论文提供了两个案例研究,分别来自 2WikimQA 和 HotpotQA 数据集,以直观展示 MA-RAG 的多智能体协作推理过程。

6.3.1. 2WikimQA 案例研究

以下是原文 Table 4 的结果,展示了 2WikimQA 数据集上的一个案例研究。

Query: Who is Edward De Vere, 17th Earl of Oxford's paternal grandfather? (Correct Answer: John de Vere, 15th Earl of Oxford)
MA-RAG 70B
Step 1 (Identify Edward De Vere, 17th Earl of Oxford's father)
Step query: Who is Edward De Vere, 17th Earl of Oxford's father?
Retrieved DocIDs: 129772, 6127861, 129773, 14010350, 12540430
Extracted Evidence: [Edward de Vere was the son of John de Vere, 16th Earl of Oxford, and Margery Golding.]
Step Answer: John de Vere, 16th Earl of Oxford
Step 2 (Identify John de Vere, 16th Earl of Oxford's father to find the paternal grandfather)
Step query: Who was the father of John de Vere, 16th Earl of Oxford?
Retrieved DocIDs: 6127862, 6127858, 17870603, 12540430, 14010350
Extracted Evidence: [John de Vere, 16th Earl of Oxford, was the son of John de Vere, 15th Earl of Oxford, and Elizabeth Trussell.]
Step Answer: John de Vere, 15th Earl of Oxford
Final Answer: John de Vere, 15th Earl of Oxford
Llama3-70B Answer: Edward De Vere, 17th Earl of Oxford's paternal grandfather is John De Vere, 13th Earl of Oxford.
ChatQA 70B
Query: Who is Edward De Vere, 17Th Earl Of Oxford's paternal grandfather?
Retrieved Docs: [Doc-0: Vere ...Oxford, he was buried in Castle Hedingham, Essex, on 31 August 1562.…. Earl of Oxford, Lord Great Chamberlain of England, and heir to an estate whose annual income .…], [Doc-1: ...after the death of his father in 1562, he became a ward of Queen Elizabeth and was sent to ...]
Answer: John de Vere, 16th Earl of Oxford
ReAct (70B)
Query: Who is Edward De Vere, 17Th Earl Of Oxford's paternal grandfather?
AI Messages: Retrieve(query=paternal grandfather of Edward De Vere, 17th Earl of Oxford)
Retrieve documents: [Doc-0: Oxford, he was buried in Castle Hedingham, Essex, on 31 August 1562. The Earl was known as a sportsman, ...], [Doc-1: Vere... Golding. After the death of his father in 1562, he became a ward of Queen Elizabeth and was sent to …]
Answer: John de Vere, 16th Earl of Oxford, was the paternal grandfather of Edward De Vere, 17th Earl of Oxford.

以下是原文 Table 4 的结果:2WikiMQA 数据集上的一个案例研究。蓝色文本代表真值答案或正确输出,红色文本代表干扰项或错误输出,绿色文本代表证据。请注意,检索到的文档中没有直接包含正确答案。所有实验在相同设置下进行,使用相同的语料库 (Karpukhin et al., 2020) 和相同的检索模型 (Zhang et al., 2024b)。

分析:

  • 问题类型: 这是一个典型的多跳问题,需要首先找到“Edward De Vere, 17th Earl of Oxford”的父亲,然后找到其父亲的父亲(即祖父)。
  • MA-RAG 的推理过程:
    1. 规划智能体将原始查询分解为两步:
      • 步骤 1:识别“Edward De Vere, 17th Earl of Oxford”的父亲。
      • 步骤 2:识别步骤 1 找到人物的父亲。
    2. 步骤定义智能体为每一步生成精确的子查询。
    3. 检索工具提取智能体为每一步检索并精炼证据。即使检索到的原始文档可能包含噪音,提取智能体也能选择性地保留相关信息。
    4. 问答智能体逐步合成答案,最终得出正确的“John de Vere, 15th Earl of Oxford”。
  • 基线对比:
    • Llama3-70B (无 RAG):直接给出了错误的答案“John De Vere, 13th Earl of Oxford.”,表明其内部知识无法准确回答此类复杂的多跳问题。
    • ChatQA 70B 和 ReAct (70B):虽然使用了 RAG,但它们未能正确分解和推理。它们直接尝试回答“祖父”问题,导致检索到不相关的文档,或错误地将“John de Vere, 16th Earl of Oxford”识别为祖父,这是不正确的。
  • 结论: MA-RAG 通过其结构化的任务分解和智能体协作,即使在检索到的文档本身不直接包含最终答案,且可能存在噪音的情况下,也能通过多步推理得出正确答案,这显示了其在处理复杂问答方面的优势。

6.3.2. HotpotQA 案例研究

以下是原文 Table 7 的结果,展示了 HotpotQA 数据集上的一个案例研究。

Query: What role did Thomas Doherty play in sitcom based on the Israeli series "North Star"? Correct Answer: Sean
MA-RAG 70B
Step 1 (Identify the sitcom based on the Israeli series North Star.)
Step query: What is the name of the sitcom that is based on the Israeli series 'North Star'?
Retrieved DocIDs: 19587422, 19587424, 14539692, 19587423, 17716638
Extracted Evidence: [Doc-19587422: The Lodge is a musical drama television series produced by Walt Disney Television. The series is based on the Israeli series 'North Star'.]
Step Answer: The Lodge
Step 2 (Determine the character role played by Thomas Doherty in that sitcom.)
Step query: What character role does Thomas Doherty play in the sitcom 'The Lodge'?
Retrieved DocIDs: 20322850, 19608218, 20322852, 20322851, 19608221
Extracted Evidence: [Doc-20322850: Thomas Doherty is a Scottish actor and singer. He is best known for his roles as Sean in The Lodge, Harry Hook in the Descendants film franchise, and Sebastian in Legacies.]
Step Answer: Sean
Final Answer: Sean
Llama3-70B Answer: Thomas Doherty played the role of Harry Hook in the sitcom based on the Israeli series North Star.
ChatQA 70B
Query: What role did Thomas Doherty play in sitcom based on the Israeli series "North Star"?
Retrieved Docs: [Doc-0: Thomas Doherty is a Scottish actor and singer. He is best known for his roles as Sean in The Lodge, Harry Hook in the Descendants film franchise, and Sebastian in Legacies.], [Doc-1: ...Disney's Aladdin. Doherty attended Royal High School in Edinburgh. ...], [Doc-2: ...reasons a deal was never agreed. ...], [Doc-3: ...starring role in the holiday film. ...], [Doc-4: ...Pony". Doherty also performed with the New Mamas and the Papas (see Publishers, ultimately owned by the Macmillan Publishers.]
Answer: Thomas Doherty played the role of Harry Hook in the sitcom based on the Israeli series North Star.
ReAct (70B)
Query: What role did Thomas Doherty play in sitcom based on the Israeli series "North Star"?
AI Messages: Retrieve(query="Thomas Doherty sitcom North Star role")
Retrieve documents: [Doc-0: Thomas Doherty is a Scottish actor and singer. He is best known for his roles as Sean in The Lodge, Harry Hook in the Descendants film franchise, and Sebastian in Legacies.], [Doc-1: ...Disney's Aladdin. Doherty attended Royal High School in Edinburgh. ...], [Doc-2: ...Pony". Doherty also performed with the New Mamas and the Papas (see ...], [Doc-3: ...reasons a deal was never agreed. ...], [Doc-4: ...the Bomp?" One of his last appearances was in the Canadian TV series]
Answer: John d ere, 16th Ear of Oxford, was the pateral grandfather of Edward De Vere, 17th Ear of Oxord. (Note: The answer from ReAct is incorrect and seems to be a copy-paste error from the 2WikimQA case study, likely in the original paper's table.)

以下是原文 Table 7 的结果:HotpotQA 数据集上的一个案例研究。蓝色文本代表真值答案或正确输出,红色文本代表干扰项或错误输出,绿色文本代表证据。请注意,检索到的文档中没有直接包含正确答案。所有实验在相同设置下进行,使用相同的语料库 (Karpukhin et al., 2020) 和相同的检索模型 (Zhang et al., 2024b)。

分析:

  • 问题类型: 这是一个典型的多跳问题,需要首先识别“基于以色列系列剧《北极星》的情景喜剧”是什么,然后在这个情景喜剧中找到“Thomas Doherty”扮演的角色。
  • MA-RAG 的推理过程:
    1. 规划智能体将原始查询分解为两步:
      • 步骤 1:识别基于以色列系列剧《北极星》的情景喜剧名称。
      • 步骤 2:确定 Thomas Doherty 在该情景喜剧中扮演的角色。
    2. 步骤定义智能体为每一步生成精确的子查询。
    3. 检索工具提取智能体分步执行,先找到情景喜剧名称“The Lodge”,然后以“The Lodge”为背景检索 Thomas Doherty 的角色信息,并准确提取出“Sean”。
    4. 问答智能体最终合成正确答案“Sean”。
  • 基线对比:
    • Llama3-70B (无 RAG):直接给出了错误的答案“Harry Hook”,这是 Thomas Doherty 在其他作品中的角色,而非《The Lodge》。这再次表明独立 LLM 在处理需要特定外部知识的多跳问题时的局限性。
    • ChatQA 70B 和 ReAct (70B):虽然也使用了 RAG,但它们的检索未能有效聚焦。它们检索到的文档可能包含 Thomas Doherty 的多个角色信息(例如“Sean”和“Harry Hook”),但由于缺乏多步推理和精细的证据提取,它们错误地选择了“Harry Hook”。ReAct 的答案似乎还出现了复制粘贴错误,进一步说明其未能正确处理此查询。
  • 结论: MA-RAG 的分步规划和提取机制使其能够准确地将信息碎片整合起来,即使在存在多个潜在答案实体的情况下,也能正确地将演员与特定作品中的角色匹配。

7. 总结与思考

7.1. 结论总结

本文提出了 MA-RAG,一个创新的多智能体框架,重新定义了检索增强生成 (RAG) 管道为专业智能体之间协调的推理过程。每个智能体(规划、检索、提取和生成)都利用思维链 (Chain-of-Thought) 提示,实现结构化和上下文敏感的查询解析。与侧重于调优单个组件或需要监督训练的现有工作不同,MA-RAG 是完全免训练的,并且在各种领域和问题类型上都具有良好的泛化能力。在五个开放域和多跳问答基准测试上的实验结果表明,MA-RAG 优于强大的 LLMs 和最先进的 RAG 基线模型,并在多个数据集上取得了新的最佳结果。消融研究证实了规划智能体和提取智能体的关键作用:前者分解复杂查询,后者提高了检索精度。对模型容量的战略性分配进一步提升了性能和效率。总而言之,这些发现强调了模块化、基于智能体的推理在改进检索增强生成方面的潜力,为该领域提供了一种可扩展且适应性强的方法。

7.2. 局限性与未来工作

局限性:

  • 运行时和令牌开销 (Runtime and Token Overhead):MA-RAG 的多智能体设计虽然提高了推理和可解释性,但也引入了额外的运行时和令牌开销。每次智能体调用都涉及独立的提示和响应,对于需要多个推理步骤的复杂查询,可能会增加延迟和推理成本。

    • 在单跳数据集上,MA-RAG (GPT-4o-mini) 的平均响应时间约为 2.2 秒。
    • 在多跳问题上,响应时间增加到约 4.1 秒。
  • 资源密集度 (Resource Intensity):尽管智能体是按需调用的以减少不必要的计算,但其工作流仍然比单次通过或独立 RAG 系统更耗费资源。

    未来工作:

  • 资源高效智能体分配 (Resource-Efficient Agent Allocation):消融研究表明并非所有智能体都需要大型模型,这暗示了将资源高效的智能体分配给不同子任务是一个有前景的方向,可以进一步优化资源利用。

  • 持续优化延迟和成本 (Further Optimizing Latency and Cost):虽然目前的延迟对于实际应用是可接受的,但仍有空间通过更智能的调度、更紧凑的智能体设计或优化提示工程来降低计算成本和响应时间。

  • 探索更复杂的协作模式 (Exploring More Complex Collaboration Patterns):当前是顺序协作,未来可以探索更复杂的并行或协商机制,以处理更高阶的推理。

  • 提升鲁棒性 (Enhancing Robustness):在极端模糊或对抗性查询场景下,进一步提升 MA-RAG 的鲁棒性。

  • 用户界面与交互 (User Interface and Interaction):利用其可解释性特点,开发更友好的用户界面,展示中间推理步骤,增强用户信任和理解。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 分治策略的有效性 (Effectiveness of Divide and Conquer):MA-RAG 再次证明了将复杂问题分解为更小的、可管理子任务的“分治”策略在 AI 系统设计中的强大力量。这不仅简化了每个子任务的执行,也提高了整体系统的可控性和可解释性。对于任何复杂的 AI 应用开发,这都是一个值得借鉴的通用原则。
  2. 智能体协作的潜力 (Potential of Agent Collaboration):通过赋予不同 LLM 实例以特定角色和职责,并让它们通过结构化通信协作,可以有效模拟人类团队解决问题的方式。这种范式对于解决需要多方面技能和知识整合的任务(如复杂编程、科学研究辅助)具有巨大的潜力。
  3. 免训练的通用性 (Generality of Training-Free Approach):MA-RAG 成功地在不进行微调的情况下取得了 SOTA 性能,这对于 LLM 应用的推广至关重要。它意味着开发者可以利用现有的强大 LLM 作为“大脑”,通过智能体编排来快速构建各种高性能应用,而无需承担高昂的训练成本和数据收集难度。这降低了 LLM 应用的门槛,促进了创新。
  4. 可解释性是关键 (Interpretability as a Key Feature):通过思维链提示和模块化智能体,MA-RAG 提供了清晰的中间推理步骤。这对于高风险领域(如医疗、法律)的 AI 应用至关重要,用户可以追踪和理解 AI 的决策过程,增强信任并发现潜在错误。

7.3.2. 批判与改进

  1. 效率与成本的平衡 (Balancing Efficiency and Cost):尽管论文指出其延迟可接受,但多智能体、多轮次调用 LLM 必然带来比单次调用更高的计算成本和延迟。在实际部署中,尤其是在高并发、低延迟要求的场景下,如何进一步优化其效率(例如,通过剪枝不必要的步骤、并行化某些步骤、智能地选择不同大小的 LLM 进行不同任务)将是关键挑战。

  2. 智能体鲁棒性与失败模式 (Agent Robustness and Failure Modes):当某个智能体(例如规划智能体或提取智能体)出现错误时,整个推理链条可能会受到影响。如何设计容错机制,例如让其他智能体进行验证或提供反馈,或者在必要时回溯和修正计划,是提高系统鲁棒性的重要方向。

  3. 动态规划的复杂度 (Complexity of Dynamic Planning):规划智能体动态确定推理步骤数量的机制,在处理极其复杂或模糊的查询时,其规划质量可能成为瓶颈。如果初始规划不佳,即使后续智能体表现出色,也可能导致次优或错误的结果。如何通过更先进的规划算法或强化学习来优化规划智能体,使其能更好地适应各种查询复杂性,是一个值得探索的方向。

  4. 检索质量的依赖性 (Reliance on Retrieval Quality):MA-RAG 尽管有提取智能体来精炼文档,但其性能仍然高度依赖于底层检索工具的质量。如果检索器未能找到任何相关文档,或提供了误导性文档,再优秀的推理链也无济于事。未来的工作可以探索如何让智能体本身具备更强的检索策略自适应能力,甚至能够动态选择不同的检索源。

  5. 知识表示的局限 (Limitations of Knowledge Representation):当前的 RAG 主要是基于非结构化文本的检索。如果问题需要复杂的结构化知识推理(例如,跨多个知识图谱节点进行推理),单纯的文本片段检索可能不足。结合结构化知识库(如知识图谱)与多智能体推理,可能会进一步提升其在特定复杂场景下的能力。

    总的来说,MA-RAG 提供了一个优雅且强大的范式来解决 RAG 中的核心挑战。它的模块化、可解释性和免训练特性使其成为未来 LLM 应用开发的重要方向。同时,对效率、鲁棒性和更复杂规划能力的进一步探索将是其迈向更广泛实际应用的关键。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。