AiPaper
论文状态:已完成

PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation

发表:2025/01/20
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出PIKE-RAG框架,通过知识原子化和任务分解,增强检索增强生成系统对专业知识的提取与推理能力。基于任务复杂性分类策略,系统评估与逐步引导大语言模型生成准确响应,显著提升工业应用适应性与性能。

摘要

Despite notable advancements in Retrieval-Augmented Generation (RAG) systems that expand large language model (LLM) capabilities through external retrieval, these systems often struggle to meet the complex and diverse needs of real-world industrial applications. The reliance on retrieval alone proves insufficient for extracting deep, domain-specific knowledge performing in logical reasoning from specialized corpora. To address this, we introduce sPecIalized KnowledgE and Rationale Augmentation Generation (PIKE-RAG), focusing on extracting, understanding, and applying specialized knowledge, while constructing coherent rationale to incrementally steer LLMs toward accurate responses. Recognizing the diverse challenges of industrial tasks, we introduce a new paradigm that classifies tasks based on their complexity in knowledge extraction and application, allowing for a systematic evaluation of RAG systems' problem-solving capabilities. This strategic approach offers a roadmap for the phased development and enhancement of RAG systems, tailored to meet the evolving demands of industrial applications. Furthermore, we propose knowledge atomizing and knowledge-aware task decomposition to effectively extract multifaceted knowledge from the data chunks and iteratively construct the rationale based on original query and the accumulated knowledge, respectively, showcasing exceptional performance across various benchmarks.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation

1.2. 作者

论文作者包括:Jinyu Wang, Jingjing Fu, Rui Wang, Lei Song, Jiang Bian。 他们的研究背景和隶属机构均为 Microsoft Research Asia (微软亚洲研究院)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台。

1.4. 发表年份

2025年1月20日(UTC)。

1.5. 摘要

尽管 检索增强生成 (Retrieval-Augmented Generation, RAG) 系统在通过外部检索扩展 大语言模型 (Large Language Model, LLM) 能力方面取得了显著进展,但这些系统往往难以满足现实世界工业应用的复杂多样需求。仅依赖检索不足以从专业语料库中提取深层、领域特定知识并进行逻辑推理。为解决这一问题,本文引入了 sPecIalized KnowledgE and Rationale Augmentation Generation (PIKE-RAG) 框架,专注于提取、理解和应用专业知识,同时构建连贯的推理过程以逐步引导 LLM 给出准确的响应。 考虑到工业任务的各种挑战,论文提出了一种新的范式,根据任务在知识提取和应用方面的复杂性对其进行分类,从而系统地评估 RAG 系统的解决问题能力。这种战略性方法为 RAG 系统的分阶段开发和增强提供了路线图,以满足工业应用不断变化的需求。 此外,论文提出了 知识原子化 (knowledge atomizing)知识感知任务分解 (knowledge-aware task decomposition) 技术,分别用于从数据块中有效提取多方面知识,并基于原始查询和累积知识迭代地构建推理过程,在各种基准测试中展现出卓越性能。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

当前,大语言模型 (Large Language Model, LLM) 虽然在自然语言处理领域取得了革命性进展,能够生成连贯和上下文相关的文本,但在应对专业领域的复杂查询时,仍然面临显著挑战。这些挑战主要包括:

  • 领域专业知识稀缺 (Domain-specific knowledge scarcity): LLM 训练数据中缺乏领域专业知识和推理过程,导致在专业领域的响应可能不准确、缺乏细节和精确性。

  • 幻觉现象 (Hallucination phenomenon): 模型可能生成与事实不符或不基于实际数据的信息。

  • 知识时效性 (Temporal stasis): LLM 的知识库是静态的,在上次更新后就固定不变,无法反映最新信息。

  • 长上下文理解 (Long-context comprehension) 困难: LLM 在处理长上下文时难以保持对任务定义的理解,性能会显著下降。

    为了解决这些问题,检索增强生成 (Retrieval-Augmented Generation, RAG) 被提出,它将 LLM 的生成能力与检索机制相结合,通过引入外部相关信息来增强生成文本的准确性和可靠性。然而,现有 RAG 方法仍主要依赖于文本检索和 LLM 的理解能力,在提取、理解和利用多样化源数据中的深层知识方面存在不足,尤其是在需要专业知识和问题解决推理的工业应用中。

论文总结了当前 RAG 在工业应用中面临的主要挑战:

  • 知识来源多样性 (Knowledge source diversity): 工业 RAG 系统需要处理来自各种文件格式(如扫描图像、数字文本、网页数据、专业数据库)和多模态内容(表格、图表、图像)的复杂语料库。现有基准数据集通常简化了语料库,无法捕捉这些复杂性。
  • 领域专业知识不足 (Domain specialization deficit): 现有 RAG 方法在通用知识数据集上表现良好,但在专业领域(如半导体设计)中,LLM 难以提取、理解和组织领域特定的术语、专业知识和逻辑框架,导致生成不完整或不准确的响应。
  • “一刀切”策略 (One-size-fits-all strategy): 现有 RAG 方法通常采用“一刀切”策略,未能根据不同应用场景和问题复杂度的差异调整其能力,导致解决方案无法满足实际应用所需的综合准确性标准。

2.2. 核心贡献/主要发现

本文的核心贡献在于提出了 sPecIalized KnowledgE and Rationale Augmented Generation (PIKE-RAG) 框架,旨在通过以下几点解决上述挑战:

  1. 提出新的任务分类范式和 RAG 系统分级 (New task classification and RAG system levels): 论文根据任务在知识提取、理解和利用方面的难度,将任务分为事实型问题 (Factual Questions)、可关联推理型问题 (Linkable-Reasoning Questions)、预测型问题 (Predictive Questions) 和创造型问题 (Creative Questions) 四类。并相应地将 RAG 系统分为 L1 到 L4 四个能力级别,为 RAG 系统的分阶段开发和演进提供了指导方针。
  2. 引入 PIKE-RAG 框架 (PIKE-RAG framework): PIKE-RAG 框架专注于专业知识的提取和推理过程的构建,通过有效提取、理解和组织专业知识和推理过程来增强系统能力。该框架具有卓越的通用性,可以根据不同的能力需求定制系统框架,支持分阶段的系统开发和部署。
  3. 提出知识原子化和知识感知任务分解 (Knowledge atomizing and knowledge-aware task decomposition):
    • 知识原子化 (Knowledge Atomizing): 旨在从文档块中充分挖掘内在知识,将文档块中的多方面知识分解为原子级别的知识点,并用问题作为知识索引。
    • 知识感知任务分解 (Knowledge-Aware Task Decomposition): 管理多原子知识的检索和组织,以迭代地构建连贯的推理过程来解决复杂问题(如多跳查询)。
  4. 引入可训练的知识感知分解器 (Trainable knowledge-aware decomposer): 该分解器通过收集理由驱动的数据并进行微调,将领域特定推理整合到任务分解和结果寻求过程中。
  5. 卓越的实验性能 (Exceptional experimental performance): PIKE-RAG 在开放领域和法律领域的多个基准测试中展现出显著的性能提升,尤其是在处理超过两跳的复杂多跳推理场景中。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 PIKE-RAG 框架,我们首先解释一些核心的基础概念。

3.1.1. 大语言模型 (Large Language Model, LLM)

大语言模型 (Large Language Model, LLM) 是一种基于深度学习的自然语言处理模型,通常采用 Transformer 架构 (Transformer architecture)。它们在海量的文本数据上进行预训练,学习语言的统计规律、语法、语义和部分世界知识。LLM 能够执行广泛的语言任务,如文本生成、翻译、摘要、问答等。然而,它们的知识受限于训练数据的时间点,且在处理特定领域专业知识时常有不足,并可能产生“幻觉”,即生成看似合理但实际错误的信息。

3.1.2. 检索增强生成 (Retrieval-Augmented Generation, RAG)

检索增强生成 (Retrieval-Augmented Generation, RAG) 是一种结合了检索机制和生成模型的技术。它通过在生成答案之前从外部知识库中检索相关信息来增强 LLM 的能力。其基本思想是,当接收到查询时,RAG 系统首先从一个大规模文档集合中检索出最相关的文本片段,然后将这些检索到的信息与原始查询一起作为上下文输入给 LLM,LLM 再基于这些增强的上下文生成回答。这有助于减少 LLM 的“幻觉”,提高答案的准确性和时效性,尤其是在需要最新或领域特定知识的场景。

3.1.3. 幻觉 (Hallucination)

大语言模型 (LLM) 的背景下,幻觉 (Hallucination) 指的是模型生成的信息看似合理、流畅,但实际上与事实不符、没有根据或违背常识的现象。这种现象是 LLM 的一个主要局限性,尤其是在需要高准确性和可靠性的应用中。RAG 系统通过提供外部事实依据,旨在减轻 LLM 的幻觉问题。

3.1.4. 多跳问答 (Multi-hop Question Answering, MHQA)

多跳问答 (Multi-hop Question Answering, MHQA) 是一种复杂的问答任务,它要求模型从多个文档或信息片段中检索信息,然后将这些分散的信息进行整合和推理,才能得出最终答案。与单跳问答不同,MHQA 不能通过直接查找一个信息片段来解决,需要模型进行多步骤的逻辑推理。例如,回答“某位科学家出生在哪座城市,该城市以什么著名?”就需要先找到科学家的出生地,再找到该城市的著名之处。

3.1.5. 知识图谱 (Knowledge Graph, KG)

知识图谱 (Knowledge Graph, KG) 是一种结构化的知识表示方法,它以图的形式存储实体(entity)及其之间的关系(relation)。在知识图谱中,实体是图的节点,关系是连接这些节点的边。例如,“爱因斯坦”是一个实体,“出生地”是一种关系,“乌尔姆”是另一个实体,它们可以构成一个三元组(Einstein, born_in, Ulm)。知识图谱能够清晰地表示复杂的语义关系,有助于机器理解和推理知识。

3.2. 前人工作

论文在“相关工作”章节回顾了 RAG 领域及其相关技术的发展,主要包括以下几个方面:

3.2.1. RAG 范式演进

  • 早期 RAG (Initial RAG): 早期,检索增强技术 (retrieval-augmented techniques) 被引入以提升预训练语言模型在知识密集型任务上的表现。这包括将检索到的信息作为额外输入,帮助模型更好地生成内容。
  • 传统 RAG (Naive RAG): 随着 大语言模型 (LLM) 的兴起,RAG 范式演变为:首先从外部数据源检索相关信息,然后将其作为补充知识整合到查询提示的上下文中,以引导生成。通常做法是将原始数据转换为纯文本,分段成小块(chunks),编码成向量空间,然后进行基于查询的检索,将最相关的 kk 个块用于扩展提示上下文进行生成。
  • 高级 RAG (Advanced RAG): 为了提高传统 RAG 的检索质量,高级 RAG 方法在检索前 (pre-retrieval)、检索 (retrieval) 和检索后 (post-retrieval) 过程中引入了增强功能,例如:
    • 查询优化 (Query optimization): 改进查询以更好地匹配相关信息。
    • 多粒度分块 (Multi-granularity chunking): 将文档分块成不同大小或粒度,以适应不同查询需求。
    • 混合检索和分块重排序 (Mixed retrieval and chunk re-ranking): 结合多种检索方法并对检索到的块进行重新排序以提高相关性。
  • 模块化 RAG 系统 (Modular RAG Systems): 进一步发展为模块化系统,引入了更复杂的增强功能。这些系统能够处理更多样化的源数据,将原始信息转换为结构化数据乃至知识。例如,索引和检索模块通过多粒度 (multi-granularity) 和多架构 (multi-architecture) 方法进行优化。此外,还提出了多种检索前和检索后功能,以增强检索效率和生成质量。
  • 迭代 RAG 管道 (Loop-based RAG Pipelines): 认识到传统 RAG 难以处理复杂任务(如摘要和多跳推理),最新的研究侧重于开发高级协调方案。例如:
    • ITERRETGENDSP: 采用检索-读取迭代机制,利用生成的响应作为下一轮检索的上下文。
    • FLARE: 提出一种基于置信度 (confidence-based) 的主动检索机制,根据重生成句子中低置信度(low-confidence)的词元(token)动态调整查询。 这些循环型 RAG 管道能够逐步收敛到正确答案,并为 RAG 系统在处理多样化需求方面提供了增强的灵活性。

3.2.2. 用于 RAG 的知识库

在传统 RAG 方法中,源数据通常被转换为纯文本并进行分块以供检索。然而,随着 RAG 应用的扩展和多样性需求的增长,基于纯文本的检索变得不足,原因如下:

  1. 文本信息通常冗余且嘈杂,降低了检索质量。

  2. 复杂问题需要整合多个数据源,而纯文本无法充分表示对象之间复杂的关联。

    因此,研究人员正在探索多样化的数据源来丰富语料库,包括搜索引擎、数据库、知识图谱 (Knowledge Graph) 和多模态语料库。同时,人们也强调开发高效的知识表示方法来增强知识检索。

  • 图作为知识表示 (Graphs as Knowledge Representation): 图被认为是一种强大的知识表示方式,因为它能够直观地建模复杂关系。
    • GraphRAG: 结合知识图谱生成和以查询为中心的摘要 (query-focused summarization) 与 RAG,以解决局部和全局问题。
    • HOLMES: 构建超关系知识图谱 (hyper-relational KGs) 并将其剪枝为精炼图 (distilled graphs),作为 LLM 进行多跳问答的输入。 然而,知识图谱的构建非常耗费资源,其成本随着语料库规模的增加而显著上升。

3.2.3. 多跳问答 (Multi-hop QA, MHQA)

多跳问答 (MHQA) 需要模型对多条信息进行推理,这些信息通常分散在不同文档或段落中。这不仅需要检索相关信息,还需要有效地组合这些信息进行推理以得出正确答案。

  • 传统图基方法 (Traditional Graph-based Methods): 通过构建图并在图神经网络 (GNN) 上进行推理来预测答案。
  • LLM 增强的图基方法 (LLM-enhanced Graph-based Methods): 随着 LLM 的发展,最近的图基方法演变为构建知识图谱用于检索,并通过 LLM 生成响应。
  • 动态分解方法 (Dynamic Decomposition Methods): 另一类方法将多跳问题动态地分解为一系列子查询,通过基于先前答案生成后续问题。子查询指导顺序检索,检索结果反过来用于改进推理。
    • ITERRETGENDSP: 上述提及的循环型 RAG 管道。
    • Self-RAG: 作为一个监督问题,训练 LLM 学习检索、生成和评价文本段落。
    • beam-retrieval: 以端到端的方式建模多跳检索过程,通过联合优化编码器和所有跳的分类头。
    • Self-Ask: 通过在回答初始问题之前明确地向自身提出后续问题来改进 思维链 (Chain-of-Thought, CoT)。这种方法能够自动分解问题,并可以与检索机制无缝集成以解决多跳问答。

3.3. 差异化分析

PIKE-RAG 与现有 RAG 方法的主要区别和创新点在于:

  • 超越传统检索,聚焦专业知识与推理 (Beyond traditional retrieval, focusing on specialized knowledge and rationale): 现有的 RAG 主要关注文本检索和 LLM 理解能力,而 PIKE-RAG 强调从多样化来源中提取、理解和应用深层领域特定知识,并构建连贯的推理过程。

  • 系统化的任务分类与分级 (Systematic task classification and leveling): 首次提出了基于知识提取、理解和利用难度的任务分类范式(事实型、可关联推理型、预测型、创造型问题),并对应地定义了 RAG 系统的 L1-L4 能力级别,为 RAG 系统的分阶段发展提供了清晰的路线图。这与现有“一刀切”的方法形成对比。

  • 多层异构知识库 (Multi-layer heterogeneous knowledge base): 采用多层异构图来表示知识,包含了信息源层、语料层和提炼知识层,能够更有效地处理多模态内容和复杂的实体关系,而传统的 RAG 更多是基于扁平化的文本块。

  • 知识原子化与知识感知任务分解 (Knowledge atomizing and knowledge-aware task decomposition):

    • 知识原子化: 将文档块中的知识分解为更细粒度的“原子知识”,并以问题作为索引,解决了传统分块可能导致语义不连贯或检索不精确的问题。这比简单的文本分块或三元组抽取更具灵活性。
    • 知识感知任务分解: 引入了对可用知识的感知能力进行任务分解,使分解策略能够根据知识库的实际内容进行调整,从而避免了 Self-Ask 等方法可能因生成错误子问题或知识库表达方式不匹配而导致的问题。
  • 可训练的知识感知分解器 (Trainable knowledge-aware decomposer): 引入了通过数据收集和微调来训练分解器的方法,使其能够捕获领域特定的分解规则,从而提高了在复杂场景下生成高质量推理轨迹的能力。

    总结来说,PIKE-RAG 不仅在检索和生成之间建立联系,更在知识的“提取、理解、组织、应用”以及“推理过程的构建”上进行了深度创新,以适应工业应用中日益增长的复杂性和专业性需求。

4. 方法论

4.1. 方法原理

PIKE-RAG 的核心思想是,检索增强生成 (RAG) 的基础应从传统的简单检索扩展到对专业知识 (specialized knowledge) 的有效提取、理解和应用,以及构建适当的推理过程 (reasoning logic)。为了实现这一目标,PIKE-RAG 提出了一个分阶段、可扩展的框架,并引入了多项创新技术。

其方法原理主要体现在以下几个方面:

  1. 知识为基石 (Knowledge as Foundation): 认识到工业应用中专业知识的复杂性和多样性,PIKE-RAG 将知识库的构建作为 L0 阶段,并采用多层异构图来表示和组织知识,以捕捉不同粒度和抽象级别的关系。

  2. 任务分级与系统演进 (Task Classification and System Evolution): 针对不同复杂度的任务,PIKE-RAG 提出了一种任务分类范式(事实型、可关联推理型、预测型、创造型),并据此将 RAG 系统的能力划分为 L1 到 L4 四个级别。这使得系统能够根据任务需求进行模块调整和迭代优化,实现分阶段发展。

  3. 迭代检索-生成与知识感知分解 (Iterative Retrieval-Generation with Knowledge-Aware Decomposition): 面对复杂问题,单一的检索和生成过程往往不足。PIKE-RAG 引入了由任务分解与协调 (task decomposition and coordination) 模块监督的迭代检索-生成机制。这意味着,系统会根据问题的进展和已获取的知识,动态地分解任务、检索信息,并逐步构建推理过程,直到得出最终答案。这种方法能够更灵活、更准确地处理多步推理任务。

  4. 原子化知识与索引 (Atomic Knowledge and Indexing): 考虑到文档块中包含多方面信息,PIKE-RAG 提出了知识原子化 (knowledge atomizing),将文档块分解为更细粒度的原子知识点,并以问题形式作为索引。这缩小了存储知识与用户查询之间的语义鸿沟,提高了检索的精确性。

  5. 可学习的分解策略 (Learnable Decomposition Strategy): 任务分解并非一成不变,而是可以根据领域知识进行学习和优化的。PIKE-RAG 提出了训练知识感知分解器 (knowledge-aware decomposer) 的方法,使其能够根据具体领域的需求,生成更有效的分解轨迹和检索策略。

    总之,PIKE-RAG 的方法原理在于,通过深度理解和结构化专业知识,配合智能化的任务分解和迭代推理机制,实现 RAG 系统在处理工业级复杂、专业和多变任务时的卓越性能。

4.2. 核心方法详解 (逐层深入)

4.2.1. 问题定义与系统视图

论文首先从三个关键视角对 检索增强生成 (RAG) 框架进行了概念化:知识库 (knowledge base)、任务分类 (task classification) 和系统开发 (system development)。

  • 知识库 (Knowledge Base): 被视为 RAG 的基础,支撑所有的检索和生成过程。
  • 任务分类 (Task Classification): RAG 任务的复杂性和难度差异很大,取决于所需的生成能力和支持语料库的可用性。通过对任务进行分级,可以将 RAG 系统分为不同的能力级别。
  • 系统开发 (System Development): 基于任务分类,RAG 系统可以实现分阶段开发,逐步增强能力。

4.2.2. 知识库构建 (L0)

这是 PIKE-RAG 的基础阶段,专注于构建一个健壮且全面的知识库。

  • 文件解析 (File Parsing): 负责处理各种格式的领域特定文档,将其转换为机器可读格式。

    • 利用 LangChain 等框架提供的工具进行文本文档解析和信息提取。
    • 结合深度学习工具(如 OCR)和商业云 API(如 Textract)进行图像文档的鲁棒 光学字符识别 (Optical Character Recognition, OCR) 和准确的表格提取。
    • 关键创新: 提出对复杂文件进行布局分析 (layout analysis),并保留多模态元素(如图表、图像)。布局信息有助于分块操作,保持文本的完整性;图表和图像则可以通过 视觉-语言模型 (Vision-Language Models, VLMs) 进行描述,以辅助知识检索。
  • 知识组织 (Knowledge Organization): 将解析后的信息组织成一个多层异构图 (multi-layer heterogeneous graph),表示不同粒度和抽象级别的信息。

    • 该图由节点 (nodes) 和边 (edges) 组成,节点可以包括文档、章节、数据块 (chunks)、图表、表格以及从提炼知识中定制的节点。边表示这些节点之间的关系。
    • 信息资源层 (Information Resource Layer, GiG_i): 捕获多样化的信息源,将其作为源节点,并用边表示它们之间的引用关系(referential relationships)。这有助于跨引用和上下文化知识。
    • 语料层 (Corpus Layer, GcG_c): 将解析后的信息组织成章节和数据块,同时保留文档的原始层次结构。多模态内容(如表格和图表)通过 LLM 进行总结,并作为数据块节点集成,确保多模态知识可用于检索。
    • 提炼知识层 (Distilled Knowledge Layer, GdkG_{dk}): 包含从语料库中提炼出的结构化知识(如知识图谱、原子知识、表格知识)。这个过程由 命名实体识别 (Named Entity Recognition, NER)关系抽取 (relationship extraction) 等技术驱动,确保提炼出的知识捕捉关键的逻辑关系和实体。
    • 知识蒸馏过程 (Knowledge Distillation Process, 图像 13):
      • 知识图谱 (Knowledge Graph): 使用 LLM 从语料库文本中提取实体及其关系,生成“节点-边-节点”形式的知识单元,然后集成构建图。
      • 原子知识 (Atomic Knowledge): 将语料库文本分割成一系列原子语句,作为知识单元。结合这些原子语句与语料节点之间的关系,生成原子知识。
      • 表格知识 (Tabular Knowledge): 从语料库文本中提取具有指定类型和关系实体对,作为知识单元,并组合构建表格知识。

4.2.3. 任务分类与系统分级

论文根据知识提取、理解和利用的难度,将问题分为四类,并定义了相应的 RAG 系统能力级别 (Table 1)。

任务分类

  • 事实型问题 (Factual Questions):
    • 定义: 寻求明确呈现在原始语料库中的具体、明确的信息。
    • 特点: 答案可以直接从检索到的相关事实中获得。
    • 示例 (图像 1): “Abrilada 是一种可互换的生物仿制药产品吗?”
  • 可关联推理型问题 (Linkable-Reasoning Questions):
    • 定义: 需要从不同来源收集相关信息并/或执行多步骤推理。答案可能隐含在多个文本中。
    • 特点: 根据关联和推理过程的不同,分为四种子类别:
      • 桥接问题 (Bridging Questions): 涉及顺序连接多个实体以得出答案。
      • 定量问题 (Quantitative Questions): 需要基于检索到的数据进行统计分析。
      • 比较问题 (Comparative Questions): 侧重于比较两个实体的特定属性。
      • 摘要问题 (Summarizing Questions): 需要将多个来源或大量文本信息提炼或综合成简洁、连贯的摘要。
    • 示例 (图像 1): “已成功获得批准的用于 HUMIRA 的生物仿制药产品应用的 BLA ID 是什么?”
  • 预测型问题 (Predictive Questions):
    • 定义: 答案不直接存在于原始文本中,可能不是纯粹的事实,需要基于现有事实进行归纳推理和预测。
    • 特点: 需要收集和组织相关知识以生成结构化数据进行进一步分析,答案可能不唯一。
    • 示例 (图像 1): “请提供一个近似预测:2024 年预计将有多少生物仿制药产品获批?”
  • 创造型问题 (Creative Questions):
    • 定义: 需要基于事实信息和对底层原则、规则的理解进行创造性思考,提出新颖的视角来创新和改进现有解决方案。
    • 特点: 目标是激发专家产生创新想法,而不是提供即用型解决方案。
    • 示例 (图像 1): “假设以 Humira 为参考的生物仿制药候选产品,如何准备 BLA 以最大程度地缩短申请时间?”

RAG 系统级别 (Table 1)

  • L1 系统: 旨在为事实型问题提供准确可靠的答案,为基本信息检索奠定坚实基础。
  • L2 系统: 扩展其功能,以处理事实型问题可关联推理型问题,实现更复杂的多步骤检索和推理任务。
  • L3 系统: 进一步增强其能力,为预测型问题提供合理的预测,同时保持对事实型问题和可关联推理型问题回答的准确性和可靠性。
  • L4 系统: 能够为创造型问题提出充分理由的计划或解决方案,并保留对预测型问题的合理预测以及对事实型和可关联推理型问题的准确可靠答案。

4.2.4. 框架总览与分阶段开发

PIKE-RAG 框架由多个基本模块组成,包括文件解析 (file parsing)、知识提取 (knowledge extraction)、知识存储 (knowledge storage)、知识检索 (knowledge retrieval)、知识组织 (knowledge organization)、知识中心推理 (knowledge-centric reasoning) 以及任务分解与协调 (task decomposition and coordination)。

  • 工作流 (图像 11):

    1. 文件解析 (File Parsing): 将不同格式的领域特定文档转换为机器可读格式,生成文件单元以构建信息源层中的图。
    2. 知识提取 (Knowledge Extraction): 对文本进行分块,生成语料和知识单元,以构建语料层和提炼知识层中的图。
    3. 知识存储 (Knowledge Storage): 将提取的知识存储为多种结构化格式。
    4. 知识库 (Knowledge Base): 上述构建的异构图作为知识库,不仅是知识的来源,也受益于反馈循环(通过组织和验证的知识进行改进)。
    5. 迭代检索-生成机制 (Iterative Retrieval-Generation Mechanism):任务分解与协调 (Task Decomposition and Coordination) 模块监督。
      • 工业应用中的问题输入到任务分解模块 (Task Decomposition Module),生成初步的分解方案 (preliminary decomposition scheme),其中包含检索步骤、推理步骤和其他必要操作。
      • 知识检索模块 (Knowledge Retrieval Module) 遵循这些指令检索相关信息。
      • 知识组织模块 (Knowledge Organization Module) 对信息进行处理和组织。
      • 知识中心推理模块 (Knowledge-Centric Reasoning Module) 基于组织好的知识执行推理,得出中间答案。
      • 反馈循环: 任务分解模块根据更新的相关信息和中间答案,重新生成下一轮迭代的方案。这个迭代过程能够逐步收集相关信息,并对增量上下文进行推理,以确保更准确和全面的响应。
  • 分阶段系统开发 (Phased System Development, Table 2): 从 L0 到 L4,高级别的系统可以继承低级别的模块,并增加新模块来增强系统能力。

    • L0 (知识库构建): 关注文件解析、知识提取、知识存储。
    • L1 (事实型问题): 引入知识检索、知识组织。
    • L2 (可关联推理型问题): 引入任务分解与协调,更高级的知识提取模块(如提炼知识生成),更强的知识组织(如知识重排序和聚合),以及多跳推理、比较推理、摘要推理等知识中心推理子模块。
    • L3 (预测型问题): 增强知识组织模块(如知识结构化、知识归纳),知识中心推理模块增加预测子模块。
    • L4 (创造型问题): 引入多智能体规划模块,以实现多视角思考。

4.2.5. L1: 事实型问题 RAG 系统

L1 系统在 L0 基础上构建,引入知识检索和知识组织。主要解决语义对齐 (semantic alignment)分块 (chunking) 挑战。

  • 增强分块 (Enhanced Chunking, 图像 14):

    • 目标是打破大文本语料库为更小、更易管理的数据块,同时保留上下文并为每个块生成有效的摘要。
    • 递归文本拆分算法 (Recurrent Text Splitting Algorithm):
      1. 迭代地将文本拆分为块。
      2. 第一次迭代时,生成初始块的前向摘要 (forward summary),为后续块的摘要提供上下文,保持叙事连贯性。
      3. 每个块使用预定义提示模板(包含前向摘要和当前块)进行摘要,摘要与块一起存储。
      4. 算法调整文本,移除已处理块,并用当前块的摘要更新前向摘要,为下一次迭代做准备。
      5. 可根据文本内容和结构动态调整块大小。
    • 每个块具有双重目的:
      1. 被向量化并存储在数据库中用于检索。
      2. 作为进一步知识提取和信息摘要的来源。
  • 自动标签 (Auto-tagging, 图像 16):

    • 解决领域特定 RAG 中语料库(专业术语)与查询(日常语言)之间的领域差距 (domain gap)。
    • 工作流程:
      1. 利用 LLM 识别语料库块中的关键因素,总结这些因素,并将其泛化为“标签类别 (tag classes)”。
      2. 基于标签类别生成语义标签提取提示。
      3. 仅语料库可用时: 使用 LLM 提取语料库的语义标签,形成语料库标签集合。
      4. QA 样本可用时: 对查询和相应检索到的答案块进行语义标签提取。
      5. 使用提取的标签集,LLM 用于映射跨领域语义标签并生成标签对集合 (tag pair collection)
      6. 检索前,从查询中提取标签,并使用语料库标签集合或标签对集合识别相应的映射标签,用于查询重写或关键词检索,从而提高检索的召回率和精确率。
  • 多粒度检索 (Multi-Granularity Retrieval, 图像 17):

    • L1 系统在异构知识图上实现多层、多粒度检索,该图在 L0 系统中构建。
    • 工作流程:
      1. 图的每一层(信息源层 II、语料层 CC、提炼知识层 DD)代表不同抽象和粒度的知识。
      2. 将查询 QQ 和图节点转换为高维向量嵌入,计算相似度 g()g(*)
      3. 相似度分数在图的层级中传播和聚合 f()f'(*)
        • I, C, D 表示信息源层、语料层和提炼知识层中的节点集。
        • g()g(*) 表示相似度评估操作。
        • f()f'(*) 表示传播和聚合操作。
      4. 通过聚合和传播的组合生成最终的块相似度分数 SS
      5. 检索过程可以是迭代的,通过任务分解生成的子查询来细化结果。

4.2.6. L2: 可关联推理型问题 RAG 系统

L2 系统旨在高效检索多源相关信息并进行复杂推理。

  • 知识原子化 (Knowledge Atomizing, 图像 2(b), 2(c)):

    • 背景: 单个文档块通常包含多个知识点,而任务所需信息仅是其中一部分。传统的信息检索方法可能无法有效检索到精确信息。
    • 目的: 使得知识的粒度与任务解决过程中生成的查询对齐。
    • 方法: 利用 LLM 的上下文理解和内容生成能力,自动标记每个文档块内的原子知识点。
    • 关键创新: 不使用陈述句或主谓宾三元组,而是使用问题 (questions) 作为知识索引,进一步弥合存储知识和查询之间的差距。
    • 示例 (图像 2(c)): 对于一个关于电影《What Women Love》的文档块,会生成多个原子问题,如“电影《What Women Love》的正确标题是什么?”、“电影《What Women Love》的上映日期是什么?”等等。
    • 原子知识库 (Atomic Knowledge Base, 图像 3): 由原始数据块和原子问题组成的分层知识库。
      • 路径 (a): 查询可以直接检索参考数据块。
      • 路径 (b): 原子查询可以定位相关的原子问题,然后引向关联的参考数据块。
  • 知识感知任务分解 (Knowledge-Aware Task Decomposition, 图像 2(a)):

    • 背景: 针对特定任务,可能存在多种分解策略。选择最有效的分解方法取决于对专业知识库内容的理解。
    • 目标: 设计一个工作流,使任务分解能够感知可用知识。
    • 算法 1: Task Solving with Knowledge-Aware Decomposition
      1. 初始化 (Initialize): 上下文 C0=\mathcal{C}_0 = \emptyset (空集)。
      2. 迭代分解 (Iterative Decomposition): 循环 t=1,2,,Nt=1, 2, \ldots, N (N为超参数,控制计算成本)。
        • 生成原子问题提案 (Generate Atomic Question Proposals): 使用 LLM (表示为 LLM\mathcal{LLM}) 根据原始问题 qq 和累积上下文 Ct1\mathcal{C}_{t-1} 生成潜在有用的查询提案 {q^it}\{\hat{q}_i^t\}。提供 Ct\mathcal{C}_t 作为上下文是为了避免生成与已知知识相关的提案。
        • 检索原子候选 (Retrieve Atomic Candidates): 对于每个原子问题提案 q^it\hat{q}_i^t,从知识库 KB\mathcal{KB} 中检索出最相关的 KK 个原子候选问题及其源数据块 {(qijt,cijt)KBsim(qijt,q^it)δ}\{ (q_{ij}^t, c_{ij}^t) \in \mathcal{KB} \mid \text{sim}(q_{ij}^t, \hat{q}_i^t) \geq \delta \}。这里 sim\text{sim} 是相似度度量(如余弦相似度),δ\delta 是给定阈值。
        • 选择最有用原子问题 (Select Most Useful Atomic Question): LLM 根据原始问题 qq、累积上下文 Ct1\mathcal{C}_{t-1} 和检索到的原子问题列表 {qijt}\{q_{ij}^t\} 选择最有用原子问题 qtq^t
        • 更新上下文 (Update Context):
          • 如果未选择任何原子问题 (qtq^t is None),则 Ct=Ct1\mathcal{C}_t = \mathcal{C}_{t-1} 并终止循环。
          • 否则,获取与 qtq^t 对应的相关数据块 ctc^t,并将其聚合到上下文 Ct=Ct1{ct}\mathcal{C}_t = \mathcal{C}_{t-1} \cup \{c^t\} 中,进入下一轮分解。
        • 迭代过程可以在没有高质量问题提案、没有高度相关原子候选、没有合适原子知识选择,或 LLM 判断已获取知识足以完成任务时提前终止。
      3. 生成答案 (Generate Answer): 最后,使用累积的上下文 Ct\mathcal{C}_t 为给定问题 qq 生成答案 a^\hat{a}
  • 知识感知任务分解器训练 (Knowledge-Aware Task Decomposer Training, 图像 4, 图像 5):

    • 目标: 训练一个知识感知分解器,使其能够将领域特定推理整合到任务分解和结果寻求过程中。
    • 数据收集 (Data Collection, 算法 2):
      1. 初始化: 上下文 C0=\mathcal{C}_0 = \emptyset。初始化字典 SS 存储每个数据块的得分(初始为0),字典 V\mathcal{V} 存储每个数据块的访问次数(初始为1)。
      2. 迭代过程 (Loop for t=1,,Nt=1, \dots, N):
        • 上下文采样 (Context Sampling): 使用 Upper Confidence Bound (UCB) 算法 [9] 从 SS 中智能地选择额外的块 csampledc_{sampled},将其添加到参考上下文。UCB 公式为: csampled=argmaxc(S(c)+αlntV(c)) c_{sampled} = \text{argmax}_c \left( S(c) + \alpha \sqrt{\frac{\ln t}{\mathcal{V}(c)}} \right)
          • 符号解释:
            • csampledc_{sampled}: 被采样的上下文数据块。
            • S(c): 数据块 cc 的累积得分。
            • V(c)\mathcal{V}(c): 数据块 cc 的访问次数。
            • α\alpha: 探索与利用的平衡参数。
            • tt: 当前迭代次数。
        • 生成原子问题提案: 使用 LLM\mathcal{LLM} 根据 qqCt1{csampled}\mathcal{C}_{t-1} \cup \{c_{sampled}\} 生成原子问题提案 {q^it}\{\hat{q}_i^t\}
        • 检索原子候选: 对于每个 q^it\hat{q}_i^t,从知识库中检索出 top-KK' 个原子候选,这些候选的相似度 sim(qijt,q^it)δ\text{sim}(q_{ij}^t, \hat{q}_i^t) \geq \delta'(其中 δ<δ\delta' < \delta,且 K>KK' > K)。
        • 处理原子候选:
          • 如果原子候选 qq 与任何提案 q^it\hat{q}_i^t 的相似度 δ\geq \delta,则将其加入最相关原子问题列表 RAPt\mathbf{RAP}_t
          • 否则,更新数据块 cc 的得分 S(c)=S(c)+max{sim(q,q^it)q^it}S(c) = S(c) + \max\{ \text{sim}(q, \hat{q}_i^t) \mid \forall \hat{q}_i^t \}
        • 选择最相关原子问题: LLM\mathcal{LLM}RAPt\mathbf{RAP}_t 中选择最相关原子问题 qtq^t
        • 更新上下文和得分: 如果 qtq^t 存在,获取其对应数据块 ctc^t,更新 Ct=Ct1{ct}\mathcal{C}_t = \mathcal{C}_{t-1} \cup \{c^t\},将 ctc^t 的得分 S(ct)S(c^t) 设为 0,并增加其访问次数 V(ct)=V(ct)+1\mathcal{V}(c^t) = \mathcal{V}(c^t) + 1
      3. 生成答案: 使用最终的 Ct\mathcal{C}_t 生成答案 a^\hat{a}
    • 训练方法:
      1. 收集原子提案 (AP)、交互轨迹和答案得分。
      2. 对于每个专业领域,收集具有不同推理路径的交互轨迹用于分解器训练。
      3. 使用答案得分作为监督信号来训练分解器。
      4. 算法 3: Transform each decomposition trajectory into data pairs for SFT
        • 对于每个分解轨迹 (q,[(q1,a1),,(qt,at)],a)(q, [(q^1, a^1), \dots, (q^t, a^t)], a)
          • 当需要进一步分解时: 对于 i=1,,ti = 1, \dots, t,创建训练数据对 (xi,yi)(x_i, y_i)
            • xi=promptx(q,[(q1,a1),,(qi1,ai1)])x_i = \text{prompt}_x(q, [(q^1, a^1), \dots, (q^{i-1}, a^{i-1})]),包含原始问题和之前收集的子问题及答案。
            • yi=prompty(True,ai)y_i = \text{prompt}_y(\text{True}, a^i),指示需要分解并提供子问题答案。
          • 当不需要进一步分解时: 创建训练数据对 (xt+1,yt+1)(x_{t+1}, y_{t+1})
            • xt+1=promptx(q,[(q1,a1),,(qt,at)])x_{t+1} = \text{prompt}_x(q, [(q^1, a^1), \dots, (q^t, a^t)])
            • yt+1=prompty(False,None)y_{t+1} = \text{prompt}_y(\text{False}, \text{None}),指示不再需要分解。
        • Prompt Template for promptx\text{prompt}_x:
          Based on the given information, determine whether a follow-up question is necessary or not.
          **Original Question**
          {the original problem}
          **Existing Context**
          {A list of sub-questions and their answers}
          Make sure your output align with the following format:
          <decompose>False</decompose>
          OR
          <decompose>True</decompose>
          <sub-question>a follow-up question</sub-question>
          
        • Prompt Template for prompty\text{prompt}_y:
          • 如果提供了子问题 (sub-question):
            <decompose>True</decompose>
            <sub-question>{The given sub-question}</sub-question>
            
          • 如果没有提供子问题 (no sub-question):
            <decompose>False</decompose>
            
      5. LLM 训练: 使用 监督微调 (Supervised Fine-Tuning, SFT) 结合 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 方法(如 LoRA)进行训练。

4.2.7. L3: 预测型问题 RAG 系统 (图像 6)

  • 目标: 增强基于知识的预测能力,需要有效的知识收集、组织和预测推理构建。
  • 知识组织模块增强: 引入专门的子模块进行知识结构化 (knowledge structuring) 和知识归纳 (knowledge induction)。
    • 知识结构化 (Knowledge Structuring): 遵循任务分解模块的指令,收集和组织从知识库中检索到的相关知识(例如,药品的名称及其批准日期)。
    • 知识归纳 (Knowledge Induction): 对结构化知识进行进一步分类(例如,按批准日期),以促进统计分析和预测。
  • 知识中心推理模块增强: 增加预测子模块 (forecasting submodule)。
    • 使系统能够根据输入查询和组织好的知识(例如,每年批准的药品总数)推断结果。
    • 不仅能基于历史知识生成答案,还能进行预测。

4.2.8. L4: 创造型问题 RAG 系统 (图像 7)

  • 目标: 解决创造型问题,这需要基于事实信息和对底层原则、规则的理解进行创造性思考。
  • 多智能体系统集成 (Multi-agent Systems Integration): 引入多智能体规划模块 (multi-agent planning module) 以促进多视角思考。
    • 多个智能体并行操作,每个智能体提供独特的见解和推理策略。
    • 合成不同的思维过程,生成全面且连贯的解决方案。
    • 通过模拟多样化的观点,增强系统处理创造型问题的能力,生成创新想法而非预设解决方案。

5. 实验设置

5.1. 数据集

为了验证所提出方法的有效性,论文在开放领域基准测试和领域特定基准测试上进行了实验。

5.1.1. 开放领域基准测试

选取了三个广泛认可的多跳问答数据集,以评估模型在复杂检索和推理场景下的能力。在这些数据集中,论文的方法不利用问题类型或跳数信息,旨在验证其对分类的无关性。

  • HotpotQA [64]:
    • 来源与特点: 一个著名的多跳问答基准,主要包含 2 跳问题,每个问题关联 10 个维基百科段落。其中一些段落包含回答问题所需的支撑事实,其余为干扰项。
    • 问题类型: 包含“比较问题 (comparison questions)”和“桥接问题 (bridge questions)”。
      • 比较问题:对比两个实体。
      • 桥接问题:推断桥接实体,或通过中间实体推断实体属性,或定位答案实体。
    • 与本文任务分类的对应: HotpotQA 中的比较问题与本文定义的比较型问题 (Comparative Questions) 一致;桥接问题则对应桥接型问题 (Bridging Questions)摘要型问题 (Summarizing Questions)
  • 2WikiMultiHopQA [29]:
    • 来源与特点:HotpotQA 启发,扩展了问题类型的多样性。每个问题关联 10 个维基百科段落。
    • 问题类型: 保留了 HotpotQA 的比较类型,并引入了“推断问题 (inference questions)”和“组合问题 (compositional questions)”,以及一种新的“桥接比较类型 (bridge comparison type)”。
    • 与本文任务分类的对应: 2WikiMultiHopQA 中的比较问题与本文定义的比较型问题一致;推断问题类似于桥接型问题;组合问题类似于摘要型问题;桥接比较问题由于其混合性质和复杂性,也属于摘要型问题。该数据集通常包含 2 跳到 4 跳问题。
  • MuSiQue [54]:
    • 来源与特点: 旨在解决许多多跳问题可能通过“捷径”解决(即无需适当推理即可获得正确答案)的问题。该数据集通过严格的筛选器和额外机制鼓励连接推理。
    • 问题类型: 不按类型分类,但提供每个问题所需的明确跳数信息(2 到 4 跳)。每个问题关联 20 个上下文段落,其中包含相关和无关信息的混合。

样本抽样与知识库构建:

  • 从每个数据集的开发集 (dev set) 中随机抽取 500 个问答数据,不考虑问题类型和跳数。

  • 将所有抽样问答数据的上下文段落编译成每个基准的单一知识库,创建更复杂的检索场景。

    以下是表 3,展示了三个多跳问答数据集中的问题类型分布。

    TypeCountRatio
    comparison10721.4%
    bridge39378.6%

(a) HotPotQA

TypeCountRatio
comparison13226.4%
inference6412.8%
compositional19639.2%
bridge_comparison10821.6%

(b) 2WikiMultiHopQA

#HopsCountRatio
226352.6%
316933.8%
46813.6%

(c) MuSiQue

5.1.2. 法律领域基准测试

  • LawBench [23]:
    • 来源与特点: 一个针对中文法律的综合法律基准,包含 20 个精心设计的任务,旨在评估 LLM 的法律能力。

    • 任务选择: 论文选择了其中 6 个 RAG 导向的任务进行评估,每个任务有 500 个问题。

    • LawBench 任务概览 (Table 8):

      Task No.TaskTypeMetric
      1-1Statute RecitationGenerationF1
      1-2Legal Knowledge Q&ASingle ChoiceEM
      3-1Statute Prediction (Fact-based)Multiple ChoicesEM
      3-2Statute Prediction (Scenario-based)GenerationF1
      3-6Case AnalysisSingle ChoiceEM
      3-8ConsultationGenerationF1
    • 数据集中的具体样本示例:

      • 1-1 任务 (Statute Recitation) 示例: “请直接提供以下条款内容:《证券法》第七十六条的内容是什么?”
      • 1-2 任务 (Legal Knowledge Q&A) 示例: “根据《证券法》,关于证券交易所的以下说法哪项是不正确的? A:未经证券交易所许可,任何单位和个人不得发布实时证券交易信息; B:证券交易所可以根据需要对出现重大异常交易情况的证券账户进行限制交易,并报国务院证券监督管理机构备案; C:会员制证券交易所的积累财产属于会员,其权益由会员共同享有;在其存续期间,积累财产不得分配给会员; D:证券交易所根据证券法律、行政法规制定上市规则、交易规则、会员管理规则等相关规则,并报国务院证券监督管理机构备案。”
      • 3-1 任务 (Statute Prediction (Fact-based)) 示例: “根据以下事实和指控,提供《刑法》的相关条款。事实:吉林省榆树市指控,2015年11月15日,被告人何某与车牌号为xxx的出租车车主郭某签订了租车协议。协议规定每月租金3900.00元,按月支付。2016年1月19日,在郭某不知情的情况下,被告人何某隐瞒真相,谎称自己是出租车车主。他与受害人马某签订了租车协议,每月租金3800.00元,租期一年,共收取马某一年租金和车辆押金50600.00元。2016年2月26日,出租车被车主郭某从受害人马某处取回。受害人马某多次要求被告人何某退还租金和押金,但被告人何某拒绝退还。检察院提供了包括被告人供述、受害人陈述、证人证言和书证等证据,认为被告人何某以非法占有为目的,在签订和履行合同过程中,通过捏造事实、隐瞒真相骗取他人财物。数额较大,其行为违反了《中华人民共和国刑法》第xx条的规定,应负刑事责任xx。指控:合同诈骗。”
      • 3-2 任务 (Statute Prediction (Scenario-based)) 示例: “请根据具体场景和问题提供法律依据,只需要具体法律条文的内容,每个场景只涉及一条法律条文。场景:货船抵达卸货港,但收货人未能及时到港提货。船长可以在哪个法律条文下将货物卸载到另一个合适的地点?”
      • 3-6 任务 (Case Analysis) 示例: “酒吧开业一年后,经营环境发生剧烈变化,所有合伙人召开会议讨论对策。根据《合伙企业法》,以下投票事项中,哪些被认为是有效票:A:张某认为‘同城’这个名字没有吸引力,建议改为‘同生酒吧’。王某和赵某同意,但李某反对;B:鉴于生意不景气,王某建议停业一个月进行装修和重组。张某和赵某同意,但李某反对;C:由于酒吧的紧急需求,赵某建议向酒吧出售一批咖啡机。张某和王某同意,但李某反对;D:鉴于四位合伙人缺乏酒吧管理经验,李某建议任命他的朋友王某为管理合伙人。张某和王某同意,但赵某反对。”
      • 3-8 任务 (Consultation) 示例: “居民A将房屋出租给B。经A同意,B对出租房屋进行了装修,并将其转租给C。C单方面改变了房屋的承重结构。A为何可以要求B承担违约责任?”
  • Open Australian Legal QA [15]:
    • 来源与特点: 该基准包含 2,124 个问题和答案,由 GPT-4 从澳大利亚法律语料库中综合生成。所有问题均为生成类型。
    • 数据集中的具体样本示例: “在 Anderson v Armitage [2014] NSWCATCD 157 一案中,根据新南威尔士州法案第 63 条,房东的一般义务是什么?”

5.2. 评估指标

为了保持与现有基准测试的一致性,论文采用了 Exact Match (EM)F1 分数这两个传统指标进行实验评估。此外,为更准确地衡量响应与预期答案的一致性,还引入了基于 GPT-4 的评估指标 Accuracy (Acc)。论文还报告了 PrecisionRecall,以解释 Acc 高但 F1 低的潜在原因。

5.2.1. 精确匹配 (Exact Match, EM)

  • 概念定义: Exact Match (EM) 衡量模型生成的答案是否与预定义的正确答案完全一致。它是一个非常严格的指标,只有当模型输出与参考答案字符串完全匹配时,才算作正确。
  • 数学公式: EM={1if predicted_answer=ground_truth_answer0otherwise \text{EM} = \begin{cases} 1 & \text{if } \text{predicted\_answer} = \text{ground\_truth\_answer} \\ 0 & \text{otherwise} \end{cases}
  • 符号解释:
    • predicted_answer\text{predicted\_answer}: 模型生成的答案文本。
    • ground_truth_answer\text{ground\_truth\_answer}: 真实标注的正确答案文本。

5.2.2. F1 分数 (F1 Score)

  • 概念定义: F1 分数是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它被广泛用于评估信息抽取和问答任务中答案的质量,因为它能够平衡模型在返回无关信息(精确率)和遗漏相关信息(召回率)之间的能力。在问答中,F1 通常在词元(token)级别计算,衡量模型答案与真实标注之间词元重叠的程度。
  • 数学公式: F1=2PrecisionRecallPrecision+Recall \text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} 其中, Precision=True PositivesTrue Positives+False Positives \text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}} Recall=True PositivesTrue Positives+False Negatives \text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}
  • 符号解释:
    • True Positives\text{True Positives}: 模型生成的答案中,同时出现在真实标注答案中的词元数量。
    • False Positives\text{False Positives}: 模型生成的答案中,但未出现在真实标注答案中的词元数量。
    • False Negatives\text{False Negatives}: 真实标注答案中存在,但未出现在模型生成的答案中的词元数量。
    • 在有多个正确答案标注的情况下,EMF1PrecisionRecall 采用保守的评分方法,保留最高分数。

5.2.3. 准确率 (Accuracy, Acc)

  • 概念定义: Accuracy (Acc) 是论文引入的一种新评估指标,由 GPT-4 作为评估器来判断模型答案的正确性,相对于问题和正确答案标签。它旨在更准确地衡量响应与预期答案的一致性,超越简单的词汇匹配。手动检查样本集表明 GPT-4 的判断与人类评估者完全一致,证实了该指标的可靠性。
  • 数学公式: Acc=Number of Correct Answers by GPT-4 EvaluatorTotal Number of Questions \text{Acc} = \frac{\text{Number of Correct Answers by GPT-4 Evaluator}}{\text{Total Number of Questions}}
  • 符号解释:
    • Number of Correct Answers by GPT-4 Evaluator\text{Number of Correct Answers by GPT-4 Evaluator}: 经 GPT-4 评估器判断为正确的问题数量。
    • Total Number of Questions\text{Total Number of Questions}: 评估的问题总数。
    • 在计算 Acc 时,所有可接受的答案标签都同时提供给 GPT-4 评估过程,从而产生单一的 Acc 分数。

5.2.4. 精确率 (Precision)

  • 概念定义: Precision 衡量模型生成答案的准确性,即模型返回的所有信息中有多少是正确的。
  • 数学公式: Precision=True PositivesTrue Positives+False Positives \text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}
  • 符号解释:
    • True Positives\text{True Positives}: 模型生成的答案中,同时出现在真实标注答案中的词元数量。
    • False Positives\text{False Positives}: 模型生成的答案中,但未出现在真实标注答案中的词元数量。

5.2.5. 召回率 (Recall)

  • 概念定义: Recall 衡量模型找到所有相关信息的能力,即真实标注中所有正确信息有多少被模型返回了。
  • 数学公式: Recall=True PositivesTrue Positives+False Negatives \text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}
  • 符号解释:
    • True Positives\text{True Positives}: 模型生成的答案中,同时出现在真实标注答案中的词元数量。
    • False Negatives\text{False Negatives}: 真实标注答案中存在,但未出现在模型生成的答案中的词元数量。

指标适用性说明: 论文指出,上述指标主要适用于 L1L2 类别的问题,这些问题有事实性和确定性的真实答案。对于 L3(预测型)和 L4(创造型)问题,由于答案固有的不确定性或主观性,这些指标的效用会降低。对于 L3 问题,更适合采用趋势判断和定性分析;对于 L4 问题,则需要从相关性、多样性、全面性、独特性和启发性等多个维度进行评估。

5.3. 对比基线

论文选择了多种代表不同策略的基线方法与 PIKE-RAG 进行对比,以全面评估其性能。

  • Zero-Shot CoT (零样本思维链) [35]:
    • 方法: 仅使用 思维链 (Chain-Of-Thought, CoT) 技术,提示 大语言模型 (LLM) 逐步阐述其推理过程,不提供示例或额外上下文。
    • 目的: 评估 LLM 固有的推理能力和嵌入知识。
  • Naive RAG w/ R (传统 RAG,带通用检索器) [36]:
    • 方法: 使用密集检索从扁平知识库 (flat knowledge base) 中获取与每个问题相关的部分信息。知识库由预嵌入的文本块组成,通过语义相似性与原始问题匹配。检索过程是直接的,没有中间任务分解。
    • 目的: 作为基准,评估增强知识的增量效益。
  • Naive RAG w/ H-R (传统 RAG,带分层检索器):
    • 方法: 扩展 Naive RAG 框架,引入分层检索过程 (hierarchical retrieval process) (图 3 中路径 (a) 和 (b))。
      • 路径 (a) 直接检索知识块以响应原始问题。
      • 路径 (b) 使用原始问题查找相关的原子问题,并获取相应的块。
    • 目的: 评估分层知识结构对传统 RAG 的影响。
  • Self-Ask [44]:
    • 方法: 采用任务分解策略,提示 LLM 迭代生成并回答后续问题 (follow-up questions),从而将复杂问题分解为更易管理的子任务。
    • 特点: LLM 仅依赖其固有知识库,不引入外部上下文来回答后续问题。
    • 目的: 考察迭代问题分解和回答对任务性能的影响。
  • Self-Ask w/ R (Self-Ask,带通用检索器):
    • 方法:Self-Ask 基础上,为 LLM 生成的每个后续问题引入额外的检索组件,从扁平知识库中检索相关块作为参考上下文。检索过程使用后续问题作为查询。
    • 目的: 结合迭代任务分解和丰富的外部知识,以提高 LLM 在复杂推理任务上的性能。
  • Self-Ask w/ H-R (Self-Ask,带分层检索器):
    • 方法: Self-Ask w/ R 的变体,但使用分层知识库进行检索。当 LLM 生成后续问题时,这些问题被用作双路径检索系统(图 3 中路径 (a) 和 (b))的查询。
    • 目的: 评估分层知识库如何增强分解机制在复杂推理任务中的有效性。
  • GraphRAG Local (知识图谱 RAG,本地模式) [21]:
    • 方法: 按照公开指南对扁平知识库进行预处理,构建知识图谱,并在本地模式下运行推理。
    • 目的: 评估基于知识图谱的方法对多跳推理任务的影响。
  • GraphRAG Global (知识图谱 RAG,全局模式):
    • 方法:GraphRAG Local 类似,但在全局模式下运行推理。
    • 目的: 评估不同推理模式下知识图谱 RAG 的表现。
  • Ours (PIKE-RAG):
    • 方法: 提出的知识感知分解方法,迭代地将复杂问题分解为子问题,并检索相关知识,最多进行五次迭代。最终答案的上下文限制为五个最有用的知识块。

5.4. LLM 和超参数

  • LLM 模型: 在所有方法中均采用 GPT-4 (1106-Preview 版本)
  • 知识提取 (Knowledge Extraction) 阶段:
    • 知识原子化 (Knowledge Atomizing): 使用温度 (temperature) 为 0.7 的设置,以平衡生成原子知识的多样性和确定性。
  • 问答 (QA) 步骤:
    • 在每种方法的所有问答步骤中,温度 (temperature) 设置为 0,确保模型响应的一致性。
  • 检索组件:
    • 嵌入模型 (Embedding Model): 采用 text-embedding-ada-002 (版本 2) 作为通用扁平知识库和分层知识库的嵌入模型。
    • 通用扁平知识库 (General flat knowledge bases): 检索器配置为获取最多 16 个知识块,检索分数阈值为 0.2。
    • 分层知识库 (Hierarchical knowledge bases): 检索器初始设置为检索最多 8 个块,阈值更严格,为 0.5。随后,通过每个原子查询可以额外检索 4 个块。
  • 分解器训练 (Decomposer Training) 超参数:
    • 学习率 (Learning Rate): 1.5×1051.5 \times 10^{-5}
    • 参数高效微调 (PEFT) 配置: 采用 LoRA (lora=16, alpha=64)。
    • 其他超参数: 保持其默认值 [56]。
    • 计算资源: 所有训练过程均在配备单个 NVIDIA A100-80G GPU 的计算节点上进行。
    • 原子提案器 (Atomic Proposers) 基础模型:
      • meta-llama/Llama-3.1-8B
      • Qwen/Qwen2.5-14B
      • microsoft/phi-4
    • 最终答案生成器 (Final Answer Generators) 模型:
      • GPT-4o (版本 2024-11-20)
      • Llama-3.1-70B-Instruct

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 开放领域基准测试

论文在 HotpotQA、2WikiMultiHopQA 和 MuSiQue 三个开放领域基准测试上展示了 PIKE-RAG 的性能。

  • 整体趋势: 假设难度排序为 HotpotQA(最简单)< 2WikiMultiHopQA < MuSiQue(最具挑战性)。在 HotpotQA 上,GraphRAG(本地模式)和 PIKE-RAG 表现接近。然而,随着难度增加,PIKE-RAG 在 2WikiMultiHopQA 和 MuSiQue 上显著优于其他方法。
  • 检索上下文的益处: 检索到的上下文显著提高了准确率,从约 10% (Zero-Shot CoT 与 Naive RAG 在 MuSiQue 上的比较) 到约 29% (在 HotpotQA 上)。这表明对于简单基准,RAG 配合传统知识检索能显著提升准确率。然而,对于涉及复杂多跳问题的挑战性基准,传统知识检索带来的准确率提升有限,凸显了 LLM 推理能力的局限。
  • 分解机制的有效性: 引入分解机制的 Self-Ask 在挑战性基准上(尤其是在 2WikiMultiHopQA 和 MuSiQue 上)显著提高了准确率。知识检索与 Self-Ask 分解的结合,在 2WikiMultiHopQA 和 MuSiQue 上产生了优于单一机制的结果。但在 HotpotQA 上,所有采用检索的方法(除 GraphRAG 全局模式外)准确率均超过 80%,差异微乎其微。
  • 分层原子知识库的影响: 有趣的是,分层原子知识库对 Naive RAG 的性能影响不显著,这可能是由于原始多跳问题与相关上下文原子问题之间嵌入距离较大。然而,当与任务分解结合时,分层知识库展现出更大潜力,例如 Self-Ask w/ H-RMuSiQue 上的性能提升,证明了分层知识库在复杂推理任务中增强分解机制的有效性。
  • PIKE-RAG 的优势: 论文提出的 PIKE-RAG 方法专注于知识感知任务分解,能够有效地利用分层知识库提供的原子信息。实验结果表明,PIKE-RAG 在复杂推理场景中始终优于其他方法,验证了其有效性。
  • GraphRAG 的表现: GraphRAG 在本地和全局模式下都表现不佳。它呈现出一种奇怪的趋势:AccRecall 较高,但 EMF1Precision 较低。深入分析发现,GraphRAG 倾向于重复查询并在其图结构中包含关于答案的元信息,即使在尝试优化 QA 提示后,这种行为仍然存在 (参考 Table 7)。

6.1.2. 法律领域基准测试

在 LawBench 和 Open Australian Legal QA 两个法律领域基准测试中,PIKE-RAG 也展现了显著优势。

  • PIKE-RAG 的显著提升: 对比 Table 9 和 Table 10,可以发现 PIKE-RAG 在生成任务(如 LawBench 的 1-1, 3-2 任务和 Open Australian Legal QA)上的准确率显著提高。这主要归因于 PIKE-RAG 的答案在语义上与金标准答案等效,但句法上可能不同,而 GPT-4 评估器能够捕捉这种语义一致性。
  • GraphRAG 在生成任务上的下降: GraphRAG Local 在 LawBench 的 1-1 和 3-2 生成任务上的准确率有所下降。这些任务涉及法律条文的背诵和预测,需要检索特定条款。检查发现,GraphRAG Local 经常无法检索到正确的条款或引用错误,但它倾向于重复法律信息,这可能通过简单地改说法定名称和常用前缀来提高词元级别的召回率。
  • 任务 3-8 的准确率提升: 在 LawBench 的 3-8 咨询任务上,PIKE-RAG 和 GraphRAG Local 都显示出显著的准确率提升。除了语义等效的因素外,任务 3-8 的金标准答案质量参差不齐(来源于咨询网站)也可能是原因之一。

6.2. 数据呈现 (表格)

以下是原文 Table 4、Table 5、Table 6、Table 9、Table 10 的结果:

以下是原文 Table 4 的结果:

MethodEMF1AccPrecisionRecall
Zero-Shot CoT32.6043.9453.6046.5643.97
Naive RAG w/ R56.8072.6782.6074.5274.86
Naive RAG w/ H-R54.8070.2581.6072.5672.24
Self-Ask28.8043.6159.6043.4956.21
Self-Ask w/ R44.8063.0881.0063.2374.57
Self-Ask w/ H-R47.2064.2482.2064.2775.95
GraphRAG Local0.0010.6689.005.9083.07
GraphRAG Global0.007.4264.804.0863.16
Ours61.2076.2687.6078.1078.95

Table 4: Performance comparison on HotpotQA. Best in bold, second-best underlined.

以下是原文 Table 5 的结果:

MethodEMF1AccPrecisionRecall
Zero-Shot CoT35.6741.4043.8741.4343.11
Naive RAG w/ R51.2059.7462.8059.0662.30
Naive RAG w/ H-R51.4059.7363.0059.3662.43
Self-Ask23.8037.4951.6034.5660.72
Self-Ask w/ R46.8064.1779.8061.1780.21
Self-Ask w/ H-R48.0063.9980.0061.3079.56
GraphRAG Local0.0011.8371.206.7475.17
GraphRAG Global0.007.3545.004.0955.43
Ours66.8075.1982.0074.0478.87

Table 5: Performance comparison on 2WikiMultiHopQA. Best in bold, second-best underlined.

以下是原文 Table 6 的结果:

MethodEMF1AccPrecisionRecall
Zero-Shot CoT12.9322.9023.4724.4024.10
Naive RAG w/ R32.0043.3144.4044.4247.29
Naive RAG w/ H-R30.4041.3043.4042.0644.53
Self-Ask16.4027.2735.4026.3337.65
Self-Ask w/ R28.4042.5449.8041.1353.37
Self-Ask w/ H-R29.8044.0554.0042.4755.89
GraphRAG Local0.609.6249.805.7355.82
GraphRAG Global0.005.1644.602.8252.19
Ours46.4056.6259.6057.4559.53

Table 6: Performance comparison on MuSiQue. Best in bold, second-best underlined.

以下是原文 Table 7 的结果:

QuestionWhich country is home to Alsa Mall and Spencer Plaza?
Answer LabelsIndia
Answer of GraphRAGAlsa Mall and Spencer Plaza are both located in Chennai, India [Data: In-dia and Chennai Community (2391); Entities (4901, 4904); Relationships(9479, 1687, 5215, 5217)].

Table 7: An Example of GraphRAG Local output on a HotpotQA question. The table showcases the tendency to repeat the question and include meta-information in its response.

以下是原文 Table 9 的结果:

TaskZero-Shot CoTGraphRAG LocalOurs (N=5)
LawBench1-121.3123.2778.58
1-254.2462.6070.60
3-153.3274.6083.16
3-227.5125.9846.05
3-651.1647.6461.91
3-817.4418.4323.58
Open Australian Legal QA25.1034.3563.34

Table 9: Evaluation Results on Legal Benchmarks (Metric is F1 / EM as indicated in Table 8)

以下是原文 Table 10 的结果:

TaskZero-Shot CoTGraphRAG LocalOurs (N=5)
LawBench1-11.2316.6090.12
1-254.0063.4070.60
3-149.9075.4088.82
3-215.8327.6067.54
3-651.1257.0062.73
3-849.7058.8061.72
Open Australian Legal QA16.4888.2798.59

Table 10: Evaluation Results on Legal Benchmarks (Metric is Acc)

6.3. 消融实验/参数分析

6.3.1. 领域对齐原子提案器 (Domain Aligned Atomic Proposers) 评估

由于所有方法在 MuSiQue 数据集上准确率普遍较低,论文选择该数据集来研究微调的原子提案器是否能提升整体性能和结果质量。

  • 数据收集: 随机抽取 1000 个问题,80% 用于收集分解轨迹作为训练数据,20% 作为评估数据集。通过遵循算法 2 中概述的程序框架,成功为 84% 的训练数据获得了正确答案及其对应的分解轨迹,这比没有上下文采样技术时基线 58% 的准确率有了显著提高。
  • 训练方法:
    • 目标: 优化模型性能,专注于成功获得正确答案的分解轨迹。

    • 数据结构: 每条记录遵循 (q,[(q1,a1),,(qt,at)],a)(q, [(q^1, a^1), \dots, (q^t, a^t)], a) 格式,其中 qqaa 是原始问题和答案,(qi,ai)(q^i, a^i) 是轨迹中的原子问题及其答案。

    • LLM 训练: 采用 监督微调 (Supervised Fine-Tuning, SFT) 增强模型性能。每个轨迹被转换为结构化的训练数据对 (xi,yi)(x_i, y_i),如算法 3 所示。这种转换是高效的,因为一个包含 tt 个子问题的轨迹可以生成 t+1t+1 个不同的训练数据点。

    • 超参数: 学习率为 1.5×1051.5 \times 10^{-5},采用 LoRA (lora=16, alpha=64) 进行 参数高效微调 (PEFT)。所有实验运行三次,使用不同的随机种子。

      以下是原文 Table 11 的结果:

      GPT-40GPT-40+FTLlama-3.1-70B-InstructLlama-3.1-70B-Instruct+FT
      Llama-3.1-8B47.83%62.14%48.37%58.70%
      Qwen2.5-14B56.52%63.95%57.61%63.04%
      phi-4-14B60.33%65.76%58.70%62.50%

Table 11: Evaluation Effects of Domain Aligned Atomic Proposers (Columns represent different generation LLMs while rows denote smaller LMs that we adopt as atomic decomposer.)

  • 实验结果分析:
    • Table 11 展示了领域对齐原子提案器的评估结果。使用原始的 meta-llama/Llama-3.1-8B 作为原子提案器,结合 GPT-4o 生成最终答案时,准确率为 47.83%。
    • 而使用微调版 meta-llama/Llama-3.1-8B 作为原子提案器,同样结合 GPT-4o 生成最终答案时,准确率提升到 62.14%。这表明通过使用领域特定分解轨迹对原子提案器进行微调,可以显著提高性能。
    • 对于所有作为原子分解器的小型 LLM,经过微调后,无论是配合 GPT-4o 还是 Llama-3.1-70B-Instruct 作为最终生成 LLM,性能均有显著提升。这验证了训练领域对齐原子提案器在提高复杂任务性能方面的有效性。

6.4. 真实案例研究 (Real Case Studies)

论文通过三个案例研究,说明了 PIKE-RAG 提出的分解管道(算法 1)的底层原理和优势。

6.4.1. 案例 (a): 处理模糊查询与意图辨析

本案例探讨了当查询可能存在歧义,或知识库中存在更流行但非目标实体的相似信息时,PIKE-RAG 如何通过多原子查询进行意图辨析。

下图(原文 Figure 16)展示了 Self-Ask 和 PIKE-RAG 在处理模糊查询时的对比:

Figure 16: Case (a): Given the lesser-known film "What Women Love" as opposed to the more popular "What Women Want," single-path methods like Self-Ask on the left are predisposed to generating follow… 该图像是图示,展示了Self-Ask方法在处理跟进问题“《What Women Love》发行年份”时,由于检索到更流行影片《What Women Want》的信息,导致中间和最终答案均错误的过程。

Figure 16: Case (a): Given the lesser-known film "What Women Love" as opposed to the more popular "What Women Want," single-path methods like Self-Ask on the left are predisposed to generating follow-up questions about the latter, leading to an incorrect final answer. Conversely, PIKE-RAG can effectively discern the intended meaning of the original question by positing several atomic queries and postpone the task understanding to atomic selection phase with relevant atomic questions provided, and subsequently arriving at an accurate conclusion.

  • 问题: “哪部电影先上映,《What Women Love》还是《Ramudu Kadu Krishnudu》?”
  • 挑战: 电影《What Women Love》不如《What Women Want》出名。单路径方法(如 Self-Ask)倾向于生成关于后者(更流行电影)的后续问题,导致错误。
  • Self-Ask 的局限:
    • 在图 16 左侧,Self-Ask 模型倾向于“纠正”原始问题,生成关于《What Women Want》的后续问题。
    • 即使检索到了目标块(因为嵌入相似性),但由于后续问题是“错误”的,会产生“错误”的中间答案,最终导致不正确的最终响应。
  • PIKE-RAG 的优势:
    • PIKE-RAG 会对《What Women Love》和《What Women Want》都提出原子查询。
    • 由于两个电影都存在且相关的原子问题都被检索到,PIKE-RAG 在原子选择阶段能够验证问题的真实意图,并选择正确且最相关的块。
    • 通过推迟任务理解到原子选择阶段,并提供相关的原子问题,PIKE-RAG 能够得出准确的结论。

6.4.2. 案例 (b): 弥合语料库与查询的表达差异

本案例说明了当知识库中的信息表达方式与查询的语义准确性不匹配时,PIKE-RAG 通过生成多个原子查询来弥合这种差异。

下图(原文 Figure 17)展示了 Self-Ask 和 PIKE-RAG 在处理表达差异时的对比:

Figure 17: Case (b): By proposing multiple atomic queries, PIKE-RAG effectively retrieves the relevant knowledge chunk, whereas the single deterministic follow-up question approach employed by Self-A… 该图像是图表,展示了Case (b)中PIKE-RAG和Self-Ask两种检索策略的对比。PIKE-RAG通过多原子查询有效检索到相关知识块,而Self-Ask的单一追问方式未能匹配知识库结构,导致检索失败。

Figure 17: Case (b): By proposing multiple atomic queries, PIKE-RAG effectively retrieves the relevant knowledge chunk, whereas the single deterministic follow-up question approach employed by Self-Ask fails to align with the knowledge base's schema, resulting in a retrieval failure.

  • 挑战: 语料库和查询之间的表达差异可能阻碍检索过程,即使生成的后续问题在语义上是准确的。
  • Self-Ask 的局限:
    • 在图 17 左侧,Self-Ask 可能直接查询“奥斯卡·罗勒 (Oskar Roehler) 的母亲是谁?”。
    • 然而,知识库以“A 是 B 和 C 的儿子”的模式表达亲属关系。这种表达方式的差异导致即使问题语义正确,检索过程也会失败。
    • 即使对 Self-Ask 应用了分层检索,也未能弥合这种差距。
  • PIKE-RAG 的优势:
    • PIKE-RAG 生成多个原子查询,涵盖更广泛的措辞,这些措辞与知识库中多样化的表示形式相对应。
    • 虽然直接询问奥斯卡·罗勒母亲的原子查询可能遇到相同的检索问题,但另一个询问其父母信息的查询则成功检索到目标块。
    • 这说明了 PIKE-RAG 在查询生成方面的灵活性,增强了与知识库结构对齐并获取准确信息的可能性。
    • 此外,PIKE-RAG 侧重于检索原子问题,而不是直接检索块。这有助于弥合单一查询与知识库中多句子结构之间的差距,例如“的母亲”与“的儿子”之间的表达差异。

6.4.3. 案例 (c): 优化上下文管理与信息选择

本案例展示了 PIKE-RAG 在上下文管理和信息选择方面的优势,通过保留完整数据块和使用原子问题列表进行精确选择。

下图(原文 Figure 18)展示了 Self-Ask 和 PIKE-RAG 在上下文管理和信息选择方面的对比:

Figure 18: Case (c): PIKE-RAG's benefits from leveraging a concise list of atomic questions for targeted selection and retaining full chunks for rich contextual support. Conversely, Self-Ask's approa… 该图像是示意图,展示了PIKE-RAG与Self-Ask在处理复杂查询时的不同策略。左侧Self-Ask依赖中间答案,导致最终错误回答;右侧PIKE-RAG通过原子问题精准检索并保留完整上下文,生成正确答案。

Figure 18: Case (c): PIKE-RAG's benefits from leveraging a concise list of atomic questions for targeted selection and retaining full chunks for rich contextual support. Conversely, Self-Ask's approach, although successful in retrieving relevant chunks, is compromised by its dependency on intermediate answers for context, which ultimately results in the generation of incorrect final answers.

  • Self-Ask 的局限:
    • Self-Ask 仅保留中间答案用于后续处理,而不是整个数据块作为上下文信息。
    • 在图 18 左侧,Self-Ask 虽然检索到目标块,但由于上下文信息过多,未能正确识别相关的“Ernie Wats”。
    • 由于检索到的块在生成中间答案后就被丢弃,Self-Ask 可能沿着不正确的路径继续,导致不准确的结论。
  • PIKE-RAG 的优势:
    • PIKE-RAG 在原子选择阶段呈现一系列原子问题,作为原始块中相关内容的候选摘要。
    • 这种策略显著减少了词元使用量,并简化了选择相关信息的过程。
    • 通过从精选的原子问题列表中进行选择,PIKE-RAG 能够精确定位相关信息。
    • 通过保留整个选定数据块而不是仅仅是中间答案,PIKE-RAG 确保了在后续处理中维护丰富的上下文。
    • 例如,即使本轮的原子问题是关于“Ernie Wats”的角色,也无需进一步询问他的出生地,因为这些信息已包含在选定的块中,并可在后续轮次中作为上下文使用。

7. 总结与思考

7.1. 结论总结

为了应对工业应用中 检索增强生成 (RAG) 系统面临的各种挑战,论文提出了 sPecIalized KnowledgE and Rationale Augmented Generation (PIKE-RAG) 框架。其核心思想是将 RAG 系统的基础从传统的简单检索扩展到对专业知识 (specialized knowledge) 的有效构建和利用,以及推理过程 (rationale) 的精细化。 主要结论和贡献包括:

  • 任务分类范式与系统分级: 引入了基于知识提取、理解和利用难度的任务分类新范式(事实型、可关联推理型、预测型、创造型问题),并据此将 RAG 系统能力分级,为系统设计和评估提供了新的概念框架,特别适用于工业环境中的分阶段开发。
  • PIKE-RAG 框架: 该框架专注于专业知识的提取和推理过程的构建,通过有效提取、理解和组织专业知识及推理过程来增强系统能力,并提供可定制的系统框架以满足不同能力需求,展现了卓越的通用性。
  • 知识原子化与知识感知任务分解: 提出了知识原子化 (knowledge atomizing)知识感知任务分解 (knowledge-aware task decomposition) 来解决复杂问题(如多跳查询)。这些技术在开放领域和法律领域的多个基准测试中取得了显著的性能提升。
  • 可训练的知识感知分解器: 引入了通过收集理由驱动数据来训练分解器的方法,使其能够将领域特定推理整合到任务分解和结果寻求过程中。

7.2. 局限性与未来工作

论文作者在实验评估部分指出了一些潜在的局限性,并暗示了未来的研究方向:

  • 评估指标对 L3/L4 任务的局限性: 论文中使用的 EMF1PrecisionRecallAccuracy (Acc) 指标主要适用于具有明确真实答案的 L1L2 类型问题。对于 L3(预测型)和 L4(创造型)问题,由于其答案固有的不确定性或主观性,这些指标的效用会降低。
    • 未来工作: 对于 L3 问题,需要替代的评估方法,如趋势判断和定性分析;对于 L4 问题,需要从相关性、多样性、全面性、独特性和启发性等多个维度进行多方面评估,以充分欣赏方法的深度和独创性。
  • 知识图谱构建的高成本: 论文在相关工作中提到,知识图谱的构建是极其资源密集型的,其成本随着语料库规模的增加而扩大。尽管 PIKE-RAG 采用了多层异构图,并包含知识图谱层,但如何高效、自动化地构建和维护大规模知识图谱仍是一个挑战。
  • 分解器训练的实用化: 论文提出了知识感知任务分解器训练策略,但实际实现和性能评估(包括详细的实证分析和比较研究)将在未来的研究中解决。这表明当前工作主要侧重于框架和理论的提出,训练过程的优化和实战部署还有待深入。
  • GraphRAG 的输出问题: GraphRAG 在实验中表现出生成包含查询重复和元信息的倾向,即使经过提示优化也未能完全解决。这提示了现有基于知识图谱的 RAG 方法在答案生成质量和简洁性方面仍有改进空间。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 分级 RAG 系统的必要性: 论文提出的 RAG 系统分级(L1-L4)和任务分类范式极具启发性。它清晰地指出了 RAG 在工业应用中面临的挑战并非单一维度,而是从事实检索到创造性解决问题的多层次需求。这种分级思想为 RAG 系统的研发和部署提供了明确的路线图,避免了“一刀切”的盲目优化,使得开发者可以根据实际需求选择和增强特定能力。例如,对于注重事实准确性的客服机器人,L1/L2 能力可能足够;而对于需要前瞻性分析的商业智能系统,则必须发展 L3 甚至 L4 能力。
  2. 知识原子化与知识感知任务分解的潜力: 知识原子化 将知识以“问题”的形式进行索引,这种方法巧妙地弥合了文档内容与用户查询之间的语义鸿沟。知识感知任务分解 则更进一步,让 LLM 在分解任务时能“知道”知识库中存在哪些信息,从而做出更智能、更符合实际知识分布的分解决策。这解决了传统 Self-Ask 等方法可能因生成“错误”的子问题或无法匹配知识库表达方式而导致推理失败的问题。这种动态、有意识的分解策略在处理复杂、多跳、领域性强的查询时,无疑将大大提升 RAG 系统的鲁棒性和准确性。
  3. 多模态知识处理的全面性: 论文强调对多模态元素(如表格、图表)进行布局分析和 VLM 描述,并将其整合到知识库中。这对于工业应用至关重要,因为许多专业文档(如产品手册、财务报告)包含大量非文本信息。这种全面的多模态处理能力,使得 RAG 系统能够从更广泛的信息源中获取知识,提供更全面的答案。
  4. 可训练分解器的价值: 通过 SFT 训练分解器,使其能够学习领域特定的分解规则,这是一个重要的进步。这意味着系统不仅能被动地检索和生成,还能主动地优化其推理过程,适应特定领域的复杂性和惯例。这为 RAG 系统的领域适应性提供了强大的工具。

7.3.2. 批判与潜在改进

  1. 知识库构建的成本与维护: 尽管多层异构图知识库的设计非常先进,但其构建和维护成本可能非常高昂。特别是 提炼知识层 (Distilled Knowledge Layer) 的构建(如知识图谱、原子知识、表格知识的抽取),需要大量的 LLM 标注、实体识别、关系抽取等操作,且可能需要人工审核以保证质量。如何在大规模工业场景中实现这种知识库的自动化、低成本构建和实时更新,是其商业化落地面临的巨大挑战。

  2. GPT-4 评估器的主观性和泛化性: 论文使用 GPT-4 作为评估器来衡量 Accuracy,并声称其与人类评估者一致。然而,GPT-4 本身也是一个 LLM,其评估结果可能受其自身偏见、知识局限性或指令遵循能力的限制。尽管它可能在语义层面上做得很好,但在高度专业或有争议的领域,其“正确性”判断是否能完全替代领域专家的判断,仍值得商榷。此外,这种评估方式的成本也较高,限制了其在超大规模实验中的应用。

  3. 迭代轮次 N 的设定与效率: 知识感知任务分解 中的迭代轮次 NN 是一个超参数,控制着计算成本。如何动态地确定 NN 或更智能地终止迭代,以平衡性能和效率,是一个重要的优化方向。过度迭代会增加延迟和成本,而过少迭代可能导致信息不完整。

  4. 多智能体规划的复杂性: L4 系统引入的多智能体规划模块,旨在处理创造型问题。虽然概念上很吸引人,但多智能体系统的协调、通信、冲突解决以及最终答案的聚合,都可能带来巨大的工程和算法复杂性。如何有效管理多个智能体生成的多样化、甚至可能相互矛盾的观点,并从中提炼出有价值的“创意”,是一个开放且困难的问题。

  5. 领域迁移的挑战: 虽然论文提出了 知识感知分解器训练 来适应领域特定推理,但 LLM 本身在不同领域间的知识迁移能力仍有局限。如果一个新领域的知识结构、术语和推理模式与训练数据差异很大,可能需要重新收集大量数据并重新训练分解器,这会增加部署成本。

    总而言之,PIKE-RAG 提出了一种全面且分层的 RAG 框架,为解决工业领域 LLM 的挑战提供了有力的方向。其在知识处理和推理策略上的创新,为 RAG 技术的未来发展奠定了重要基础。然而,在实际应用中,如何有效管理其高昂的构建和维护成本,以及进一步提升其在高度专业和开放性任务上的鲁棒性与可解释性,将是重要的研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。