论文状态：已完成

Knowledge Circuits in Pretrained Transformers

发表：2024/05/28

知识回路分析 (1)预训练 Transformer 模型 (1)GPT-2与TinyLLAMA实验 (1)知识编辑技术影响 (1)自注意力机制与信息头 (1)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文探讨现代大型语言模型中知识的编码与利用，提出“知识电路”概念，揭示模型计算图中关键的知识子图。通过对GPT-2和TinyLLAMA的实验，观察信息头、关系头和多层感知器如何协同编码知识。同时评估现有知识编辑技术对这些电路的影响，提供功能和局限性的深入见解，旨在增强对Transformer的理解并指导知识编辑设计。

摘要

The remarkable capabilities of modern large language models are rooted in their vast repositories of knowledge encoded within their parameters, enabling them to perceive the world and engage in reasoning. The inner workings of how these models store knowledge have long been a subject of intense interest and investigation among researchers. To date, most studies have concentrated on isolated components within these models, such as the Multilayer Perceptrons and attention head. In this paper, we delve into the computation graph of the language model to uncover the knowledge circuits that are instrumental in articulating specific knowledge. The experiments, conducted with GPT2 and TinyLLAMA, have allowed us to observe how certain information heads, relation heads, and Multilayer Perceptrons collaboratively encode knowledge within the model. Moreover, we evaluate the impact of current knowledge editing techniques on these knowledge circuits, providing deeper insights into the functioning and constraints of these editing methodologies. Finally, we utilize knowledge circuits to analyze and interpret language model behaviors such as hallucinations and in-context learning. We believe the knowledge circuits hold potential for advancing our understanding of Transformers and guiding the improved design of knowledge editing. Code and data are available in https://github.com/zjunlp/KnowledgeCircuits.

思维导图

论文精读

中文精读约 32 分钟读完 · 17,433 字

1. 论文基本信息

1.1. 标题

Knowledge Circuits in Pretrained Transformers (预训练 Transformer 中的知识电路)

1.2. 作者

Yunzhi Yao, Ningyu Zhang, Zekun Xi, Mengru Wang, Ziwen Xu, Shumin Deng, Huajun Chen。作者主要来自浙江大学 (Zhejiang University)，部分作者来自新加坡国立大学 (National University of Singapore, NUS-NCS Joint Lab, Singapore)。

1.3. 发表期刊/会议

该论文尚未在正式期刊或会议上发表，目前是预印本 (Preprint)，发布在 arXiv 上。 arXiv 是一个开放获取的预印本平台，常用于研究人员在正式同行评审前分享最新的研究成果。

1.4. 发表年份

2024年

1.5. 摘要

现代大型语言模型 (LLMs) 的强大能力源于其参数中编码的庞大知识库，这些知识使其能够感知世界并进行推理。这些模型如何存储知识的内部运作一直是研究人员关注的焦点。迄今为止，大多数研究都集中在模型中的独立组件上，例如多层感知器 (Multilayer Perceptrons, MLP) 和注意力头 (attention head)。本文深入探讨了语言模型的计算图，以揭示在表达特定知识中起关键作用的知识电路 (knowledge circuits)。通过对 GPT2 和 TinyLLAMA 进行实验，作者观察到某些信息头 (information heads)、关系头 (relation heads) 和 MLP 如何协同编码模型内的知识。此外，论文评估了当前知识编辑 (knowledge editing) 技术对这些知识电路的影响，为这些编辑方法的功能和局限性提供了更深入的见解。最后，作者利用知识电路分析和解释了语言模型的行为，如幻觉 (hallucinations) 和上下文学习 (in-context learning)。作者认为知识电路有望推动我们对 Transformer 的理解，并指导改进知识编辑的设计。论文的代码和数据可在 GitHub 上获取。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2405.17969v4 PDF 链接: https://arxiv.org/pdf/2405.17969v4.pdf 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？ 大型语言模型 (LLMs) 的能力很大程度上依赖于其内部存储的知识。然而，这些知识是如何在模型内部编码、存储、检索和利用的机制仍是一个“黑箱”。现有研究大多关注模型中的独立组件（如 MLP 或注意力头），未能全面揭示不同组件之间协同工作以表达特定知识的机制。此外，LLMs 仍面临幻觉 (hallucinations)、不安全内容等问题，这些问题与知识存储机制的不透明性密切相关。

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？

理解模型内部机制的重要性： 深入理解 LLMs 内部如何处理知识，对于提升模型的可靠性、可解释性和安全性至关重要。例如，了解知识如何导致幻觉，有助于开发更鲁棒的模型。
现有研究的局限性：
- 孤立组件分析： 许多研究将 MLP 和注意力头视为孤立的知识存储单元（如“知识神经元”），但忽略了这些组件之间复杂的交互和协同作用。
- 过度简化： 知识神经元 (knowledge neurons, KN) 的概念可能过于简化，不同类型的知识可能分布在相同区域，需要更宏观的视角。
- 知识编辑的挑战： 现有知识编辑技术存在泛化性差、副作用大、编辑知识利用率低等问题，这可能源于对模型知识存储和流转机制理解不足。
- 电路理论的应用空白： 虽然电路理论 (Circuit Theory) 在可解释性领域受到关注，并发现了针对特定任务（如间接对象识别）的电路，但尚未被广泛应用于揭示 LLMs 中抽象知识的存储和表达机制。

这篇论文的切入点或创新思路是什么？ 本文引入了 知识电路 (Knowledge Circuits) 的新视角，将其定义为语言模型计算图中的关键子图，用于理解 Transformer 的知识机制。与以往专注于识别知识存储的微小区域不同，本文旨在探索 Transformer 中不同组件（如注意力头、MLP 和嵌入）如何协同工作来存储和表达知识。通过构建和分析这些知识电路，论文旨在揭示隐式的神经知识表示、阐明知识编辑的内部机制，并解释语言模型更复杂的行为（如幻觉和上下文学习）。

2.2. 核心贡献/主要发现

引入知识电路概念： 提出 知识电路 (Knowledge Circuits) 这一新概念，作为语言模型中表达特定知识的关键子图，以理解 Transformer 的知识机制。
揭示隐式神经知识表示：
- 发现知识电路即使独立使用，也能保留模型大部分原始性能，证明了所发现的知识表示（电路）的有效性。
- 通过对信息流的分析，发现语言模型倾向于在中间层聚合知识，并在后续层进一步增强这些信息。
- 识别出 搬运头 (mover heads) 和 关系头 (relation heads) 等特殊组件，它们在信息传输到最终令牌位置和捕获上下文中的关系信息方面起关键作用。
阐明知识编辑的内部机制：
- 评估了 ROME 和 FT-M 等现有知识编辑技术对知识电路的影响。
- 发现 ROME 倾向于将编辑信息主要整合到编辑层，并通过后续的 搬运头 (mover heads) 传输。
- 发现 FT-M 则倾向于将编辑令牌直接集成到模型中，对后续预测产生主导影响，但可能导致过拟合和对不相关知识的影响。
解释语言模型行为：
- 幻觉 (Hallucinations)： 观察到幻觉发生时，模型在早期层未能将正确知识传输到最终令牌，表现为知识电路缺乏有效的 搬运头 (mover head) 或 搬运头 (mover head) 选择了不正确的信息。
- 上下文学习 (In-Context Learning)： 发现上下文学习时，知识电路中会出现新的注意力头，这些头主要关注示例上下文 (demonstration's context)，并类似于 归纳头 (Induction Head)。
跨模型和知识领域验证： 在 GPT-2 和 TinyLLAMA 模型以及事实、社会偏见、语言和常识等多种知识领域进行了实验验证，展示了知识电路的普适性和有效性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. Transformer 架构 (Transformer Architecture)

Transformer 是一种基于注意力机制的神经网络架构，广泛应用于自然语言处理任务。它最初由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。本文主要关注 Transformer 的解码器 (decoder) 架构。

自注意力机制 (Self-Attention Mechanism): Transformer 的核心组件，允许模型在处理序列数据时，动态地为序列中的每个元素分配不同的“注意力权重”，从而捕获元素之间的长距离依赖关系。
多头注意力机制 (Multi-Head Attention): 将自注意力机制并行地运行多次，每个“头”学习不同的注意力模式，然后将多个头的输出拼接起来，从而使模型能够从不同的表示子空间捕获信息。
多层感知器 (Multilayer Perceptrons, MLP): 也称为前馈网络 (Feed-Forward Network)，是 Transformer 块中的另一个关键组件。它由两个线性变换和一个激活函数组成，对注意力层的输出进行非线性变换。
残差连接 (Residual Connections): 在 Transformer 的每个子层（自注意力层和 MLP 层）之后都添加了残差连接，并将子层的输出与子层的输入相加。这有助于解决深度网络中的梯度消失问题，使信息更容易在层间流动。
层归一化 (Layer Normalization): 在每个子层的残差连接之后进行层归一化，有助于稳定训练过程。
嵌入 (Embeddings): 将输入令牌 (token) 转换为连续的向量表示，这些向量包含了令牌的语义信息。
残差流 (Residual Stream): 在 Transformer 中，信息通过一系列层传输。每一层都会从 残差流 (residual stream) 中读取输入，并将其输出“写入”回 残差流 (residual stream)。这个 残差流 (residual stream) 累积了所有层处理后的信息，是理解信息流动的关键。

3.1.2. 电路理论 (Circuit Theory)

在神经网络可解释性 (neural network interpretability) 领域，电路 (circuit) 可以被概念化为一个人可解释的子图 (subgraph)，专门用于在神经网络模型中执行特定任务。

计算图 (Computational Graph): 将神经网络模型视为一个有向无环图 (Directed Acyclic Graph, DAG)，其中节点代表各种组件（如神经元、注意力头、嵌入），边象征这些组件之间的交互（包括残差连接、注意力机制、投影）。
电路定义: 一个 电路 (circuit) 是计算图 $\mathcal{G}$ 的一个关键子图 $\mathcal{C} \subseteq \mathcal{G}$ ，负责特定的行为或功能。
残差重写 (Residual Rewrite): 一种将 Transformer 的计算结构视为残差连接的方式，使得模型中的每个组件（如注意力头、MLP）都从 残差流 (residual stream) 中“读取”输入，并将其输出“写入”回 残差流 (residual stream)。

3.1.3. 因果中介分析 (Causal Mediation Analysis)

一种用于识别神经网络内部电路的方法，通过系统地改变模型的边和节点来观察对性能的影响。

关键原则： 如果移除某条边或某个节点导致模型预测能力显著下降，则认为该边或节点是关键的。
消融 (Ablation): 模拟特定组件缺失的方法。可以通过将边的值替换为零（零消融 (zero ablation)）或其均值（均值消融 (mean ablation)）来实现。

3.2. 前人工作

3.2.1. 知识存储机制

MLP 作为知识存储器： 许多研究发现 Transformer 模型中的 MLP (Multilayer Perceptrons) 模块充当 键-值存储器 (key-value memory)，存储了大量的知识 [12, 15, 14, 18]。其中，“知识神经元 (knowledge neurons, KN)”被认为是存储知识的关键单元 [12]。
知识的累积： 另有研究指出，知识在 Transformer 的不同层中是逐步累积的 [13, 31, 16]。早期的层可能提取通用信息，而后续层则进一步精炼和整合这些信息。
关系解码的线性性： Hernandez 等人 [42] 观察到事实可以通过将主题实体映射到对象实体，从经过丰富处理的主题 残差流 (residual stream) 中线性解码。

3.2.2. 知识编辑 (Knowledge Editing)

基于“知识神经元”的发现，研究人员开发了 知识编辑 (Knowledge Editing) 技术 [18, 20]，旨在更新模型中的不准确事实、偏见或不安全内容。
ROME (Rank-One Model Editing): Meng 等人 [18] 提出的方法，将知识编辑视为一个最小优化问题，通过对 MLP 的权重进行秩一修改来“写入”新的知识。
FT-M (Fine-Tuning MLP): Zhang 等人 [24] 提出的方法，通过交叉熵损失对 MLP 层进行微调，以学习新的事实。
局限性： 尽管这些方法取得了一定成功，但仍存在泛化性差、副作用大以及编辑知识未能有效利用等局限 [20, 21]。Hase 等人 [45] 甚至指出，编辑可能并未改变知识存储本身，而只是在知识电路中添加了信号。

3.2.3. 机械可解释性中的电路发现 (Circuit Discovery in Mechanistic Interpretability)

电路 (circuit) 作为计算图的子图，在机械可解释性领域受到关注 [25]。
特定任务电路： 之前的研究发现了针对特定任务的重要电路，例如 间接对象识别 (Indirect Object Identification) 和 彩色对象识别 (Color Object Identification) [26, 27]。这些任务通常涉及模型在上下文中搜索匹配令牌并复制到下一个令牌预测。
自动化电路发现 (Automated Circuit Discovery, ACD)： Conmy 等人 [32] 设计了一种自动化方法来发现实现特定行为的电路。
单组件或有限任务： 现有的电路研究往往集中于单一组件（如 MLP 或注意力头）或仅探索 IOI 和 CO 等特定任务。

3.3. 差异化分析

本文与现有工作的核心区别在于：

整体性视角： 多数现有工作关注孤立的组件（如 MLP 或注意力头）来定位知识存储。本文则超越了这种“知识神经元”的观点，引入 知识电路 (Knowledge Circuits)，旨在探索 Transformer 中不同组件（注意力头、MLP、嵌入）之间如何协同编码和表达知识。
动态信息流分析： 与静态地定位知识区域不同，本文更关注激活后续知识以回答问题的信息流，追踪知识如何在模型层间流动、聚合和增强。
对知识编辑机制的深入理解： 本文不仅评估知识编辑的性能，更深入分析编辑操作如何影响模型内部的知识电路，揭示现有编辑方法成功和失败的深层原因。
解释复杂行为： 利用知识电路来解释幻觉和上下文学习等语言模型的复杂行为，提供更具机械可解释性的视角。
任务类型差异： 之前的电路发现主要针对“复制”行为的任务（如 IOI、CO），而本文关注的是需要利用存储知识进行预测的“事实召回”任务。

4. 方法论

本文通过构建 知识电路 (Knowledge Circuits) 来理解 Transformer 模型中的知识存储和表达机制。核心思想是将语言模型视为一个计算图，并通过因果中介分析方法来识别对特定知识表达至关重要的子图。

4.1. 方法原理

所用方法的核心思想是：为了回答一个需要模型利用其内部存储知识的“事实开放域问题”，模型会激活一个由注意力头、MLP 和嵌入等组件组成的特定计算路径。这个路径，即 知识电路 (Knowledge Circuit)，包含了模型处理问题、检索知识并生成答案所需的所有关键节点和边。通过系统地移除（消融 (ablation)）这些节点和边，并观察模型性能的变化，可以识别出对特定知识表达至关重要的最小子图。

直觉上，如果某个组件或其连接对模型正确回答某个事实问题至关重要，那么移除它会导致模型性能显著下降。反之，如果移除后性能几乎不变，则该组件或连接可能不是该知识电路的关键部分。

4.2. 核心方法详解

4.2.1. Transformer 的计算图表示

本文将 Transformer 解码器模型表示为一个计算图 $\mathcal{G}$ 。

节点 (Nodes): 图中的节点包括：
- 输入嵌入 $I$ (Input Embedding)
- 注意力头 $A_{l,j}$ (Attention Head)：表示第 $l$ 层的第 $j$ 个注意力头。
- MLP $M_l$ (Multilayer Perceptron)：表示第 $l$ 层的 MLP。
- 输出节点 $O$ (Output Node) 所有节点的集合为 $N = \{ I, A_{l,j}, M_l, O \}$ 。
边 (Edges): 图中的边代表节点间的连接和信息流动。
残差流 (Residual Stream): Transformer 的 残差流 (residual stream) 是信息传递的核心。每个组件从 残差流 (residual stream) 读取输入，并将输出“写入”其中。
- 残差连接 (Residual Connections) 公式： $\begin{array} { r } { { \cal R } _ { l } = \cal R _ { l - 1 } + \displaystyle \sum _ { j } { \cal A } _ { l , j } + { \cal M } _ { l } , { \cal R } _ { 0 } = { \cal I } } \\ { \mathrm { I n p u t } _ { l } ^ { A } = { \cal I } + \displaystyle \sum _ { l ^ { \prime } < l } \left( { \cal M } _ { l ^ { \prime } } + \displaystyle \sum _ { j ^ { \prime } } { \cal A } _ { l ^ { \prime } , j ^ { \prime } } \right) } \\ { \mathrm { I n p u t } _ { l } ^ { M } = { \cal I } + \displaystyle \sum _ { l ^ { \prime } < l } { \cal M } _ { i ^ { \prime } } + \displaystyle \sum _ { l ^ { \prime } < i } \sum _ { j ^ { \prime } } { \cal A } _ { l ^ { \prime } , j ^ { \prime } } } \end{array}$
  - 符号解释：
    - $\mathcal{R}_l$ : 第 $l$ 层的 残差流 (residual stream)。
    - $\mathcal{R}_{l-1}$ : 第 l-1 层的 残差流 (residual stream)。
    - $\mathcal{A}_{l,j}$ : 第 $l$ 层的第 $j$ 个注意力头 $A_{l,j}$ 的输出。
    - $\mathcal{M}_l$ : 第 $l$ 层的 MLP $M_l$ 的输出。
    - $\mathcal{R}_0 = \mathcal{I}$ : 初始 残差流 (residual stream) 是输入嵌入 $I$ 。
    - $\mathrm{Input}_l^A$ : 第 $l$ 层注意力层的输入，它包含了输入嵌入 $\mathcal{I}$ 以及之前所有层的所有 MLP 和注意力头的累积输出。
    - $\mathrm{Input}_l^M$ : 第 $l$ 层 MLP 层的输入，它包含了输入嵌入 $\mathcal{I}$ 以及之前所有层的所有 MLP 和注意力头的累积输出。
  - 目的分析： 这些公式描述了 Transformer 模型中 残差流 (residual stream) 的累积和信息传递方式。每个层（注意力或 MLP）的输入都来自前面所有层（包括初始嵌入）的贡献总和，而其输出又累积到 残差流 (residual stream) 中，供后续层使用。这种设计使得信息在模型中可以长距离流动，并且每个组件都能访问到之前所有处理的信息。

4.2.2. 知识电路构建 (Knowledge Circuits Construction)

任务设定： 本文关注“事实开放域问题”回答任务，目标是给定 主体-关系对 (subject-relation pair) $(s, \bar{r})$ ，预测目标实体 $o$ 。例如：“法国的官方语言是 $\underline{\text{法语}}$ ”。模型被期望生成与语言模型预训练格式一致的目标实体。
因果中介分析 (Causal Mediation Analysis)： 为了识别对预测目标实体 $o$ 至关重要的电路 $\mathcal{C}_k$ ，本文对计算图 $\mathcal{G}$ 中的每条边 $\bar{e}_i = (n_x, \bar{n}_y)$ 进行 消融 (ablation) 操作。
消融方法： 采用 零消融 (zero ablation)，即当消融一条边时，将其贡献设置为零。
性能度量： 使用 MatchNLL (Match Negative Log-Likelihood) 损失来衡量消融对模型性能的影响。
- 性能下降得分 $S(e_i)$ 公式： $S ( e _ { i } ) = \log ( \mathcal { G } ( o | ( s , r ) ) ) - \log ( \mathcal { G } / e _ { i } ( o | ( s , r ) ) )$
  - 符号解释：
    - $S(e_i)$ : 消融边 $e_i$ 导致的性能下降得分。
    - $\log ( \mathcal{G} ( o | (s, r) ) )$ : 原始模型 $\mathcal{G}$ 在给定 主体-关系对 (s, r) 的情况下，预测目标实体 $o$ 的 负对数似然 (negative log-likelihood)。
    - $\log ( \mathcal{G} / e_i ( o | (s, r) ) )$ : 消融边 $e_i$ 后的模型 $\mathcal{G} / e_i$ 在相同条件下预测目标实体 $o$ 的 负对数似然 (negative log-likelihood)。
  - 目的分析： 这个得分 $S(e_i)$ 量化了移除边 $e_i$ 后，模型预测正确答案 $o$ 的能力下降了多少。如果 $S(e_i)$ 很大，说明 $e_i$ 对正确预测是关键的；如果 $S(e_i)$ 很小甚至为负，说明 $e_i$ 可能不是关键的，甚至可能引入噪音。
电路选择：
- 设定一个预定义阈值 $\tau$ 。
- 如果 $S(e_i) < \tau$ ，则认为该边是非关键的，将其从计算图中移除，更新临时电路 $\mathcal{C}_{temp} \gets \mathcal{G} / e_i$ 。
- 按照拓扑排序 (topological rank) 遍历所有边，逐步移除非关键边。
- 最终得到的子图 $\mathcal{C}_k$ 就是针对知识三元组 $k = (s, r, o)$ 的 知识电路 (Knowledge Circuit)。
- 知识电路 $\mathcal{C}_k$ 公式： $\mathcal { C } _ { k } = < N _ { k } , E _ { k } >$
  - 符号解释：
    - $\mathcal{C}_k$ : 针对知识三元组 $k=(s, r, o)$ 的 知识电路 (Knowledge Circuit)。
    - $N_k$ : $\mathcal{C}_k$ 中的节点集合。
    - $E_k$ : $\mathcal{C}_k$ 中的边集合。
  - 目的分析： 这个公式形式化地定义了 知识电路 (Knowledge Circuit)，它是一个由关键节点和关键边组成的子图，这些节点和边对于给定 主体-关系对 (s, r) 预测目标实体 $o$ 是必不可少的。

4.2.3. 知识电路信息分析 (Knowledge Circuits Information Analysis)

一旦识别出知识电路，本文进一步分析每个节点在计算图中的具体作用和行为。

层归一化和嵌入空间映射：
- 对每个节点 $n_i$ 的输出应用 层归一化 (layer normalization)。
- 然后，将其乘以语言模型的 反嵌入矩阵 (unembedding matrix) $\mathbf{W}_U$ ，将其映射到 嵌入空间 (embedding space)。
- 映射公式： $\mathbf{W}_U \mathrm{LN}(n_i)$ $W_{U} LN (n_{i})$
  - 符号解释：
    - $\mathbf{W}_U$ : 语言模型的 反嵌入矩阵 (unembedding matrix)，用于将模型的内部表示映射回词汇表空间。
    - $\mathrm{LN}(n_i)$ : 对节点 $n_i$ 输出进行的 层归一化 (layer normalization) 操作。
  - 目的分析： 通过将每个组件的输出映射回词汇表空间，可以直观地观察到该组件的输出在预测最终令牌方面“倾向于”哪个词汇，从而理解每个组件对信息流和最终预测的贡献。这有助于识别信息如何在电路中聚合和传播。
特殊组件识别： 分析知识电路中的 特殊组件 (special components)，如 搬运头 (mover head)、关系头 (relation head) 和 混合头 (mix head)，它们在信息传输和关系捕获中扮演特定角色。

5. 实验设置

5.1. 数据集

本文利用了 LRE [42] 提供的数据集，涵盖了 语言 (linguistic)、常识 (commonsense)、事实 (factual) 和 偏见 (bias) 等不同类型的知识。

数据采样： 由于本文关注零样本 (zero-shot) 知识存储，因此使用 Hit@10 指标从验证集 (validation set) 中采样模型能够正确理解的知识，用于构建知识电路。测试集 (test set) 以 1:1 的比例与验证集采样，以确保评估平衡。
数据集统计信息： 以下是原文 Table 3 (以及附录中 Table Number oexamples per relation and the count o accurate predictions by different LMs. This tabl is borrowed from Hernandez et al. [42] and here we sampled with different ways.) 的结果：

Category # Rel. # Examples # GPT-2 Corr.

Factual 26 9,696 4,721

Commonsense 8 374 240

Linguistic 6 806 483

Bias 7 213 149

Category	# Rel.	# Examples	# GPT-2 Corr.
Factual	26	9,696	4,721
Commonsense	8	374	240
Linguistic	6	806	483
Bias	7	213	149

为什么选择这些数据集进行实验？ 这些数据集覆盖了多种知识类型，有助于全面评估知识电路在不同知识领域中的表现和普适性。它们能够有效地验证模型内部知识存储和利用机制。

5.2. 评估指标

电路完整性 (Completeness of a Circuit): 用于评估所发现的子图是否能独立复制完整模型在相关任务上的行为或预测。
Hit@10 (命中率@10): 用于衡量目标实体 $o$ $o$ 在模型预测的前 10 个令牌中的排名。
- 概念定义： Hit@10 是一个衡量模型检索或预测能力排名的指标。它表示在模型生成的前 10 个最有可能的词元中，目标正确答案出现的频率。如果目标答案在前 10 个预测中，则认为命中。这个指标越高，说明模型越能准确地将目标答案排在更靠前的位置。
- 数学公式： ${ \sf H i t @ 1 6 } = \frac { 1 } { | V | } \sum _ { i = 1 } ^ { | V | } { \mathrm { I } \left( { \mathrm { r a n k } _ { o } } \leq 1 0 \right) }$
- 符号解释：
  - $\mathrm{Hit@16}$ : 在论文中，此处的公式标识为 Hit@16，但文中实际使用的是 Hit@10。这是一个印刷错误，我们按文中实际使用的 Hit@10 进行解释。此指标表示在模型预测的前10个令牌中，目标实体出现的比例。
  - $|V|$ : 词汇表 (vocabulary) 的大小。
  - $\sum_{i=1}^{|V|}$ : 对词汇表中的所有令牌进行求和。
  - $\mathrm{I}(\cdot)$ : 指示函数 (indicator function)，如果括号内的条件为真，则返回 1，否则返回 0。
  - $\mathrm{rank}_o$ : 目标实体 $o$ 在模型预测出的所有令牌中的排名（概率从高到低排序）。
  - $\leq 10$ : 表示目标实体 $o$ 的排名是否在前 10 位。
- 目的分析： Hit@10 用于评估在零样本设置下，模型在给定上下文后预测目标实体的准确性。高 Hit@10 值表示模型能够有效地将正确答案排在预测列表的前列。

5.3. 对比基线

本文的实验主要是为了理解知识电路的内部机制，而非纯粹的性能比较。因此，基线主要用于验证所发现电路的有效性，而非传统意义上的模型性能对比。

随机电路 (Random Circuits): 作为对照组，通过随机移除边来构建与本文发现的知识电路大小相同的随机电路，以证明所发现的电路并非偶然，而是具有特定功能。
原始模型 (Original Model): 模型的原始性能作为所有电路分析的基准，用于衡量电路独立运作时的性能损失或保持程度。

5.4. 实现细节

模型： GPT-2 medium 和 large，以及 TinyLLaMA。
工具： Automated Circuit Discovery (ACDC) [32] 工具用于构建电路；transformer lens [41] 用于结果分析。
消融方法： 零消融 (zero ablation)。
度量： MatchNLL [32]。
超参数： 阈值 $\tau$ 用于检测性能下降，测试了 {0.02, 0.01, 0.005}。
TinyLLaMA 特殊处理： 由于 TinyLLaMA 采用 分组查询注意力机制 (Grouped Query Attention Mechanism) [67]，为了分析每个注意力头的行为，对 键 (key) 和 值 (value) 对进行了交错和重复处理。
计算资源： NVIDIA-A800 (40GB) GPU，计算 GPT2-medium 的知识电路约需 1-2 天。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 知识电路评估

以下是原文 Table 1 的结果：

Type	Knowledge	#Edge	Dval		Dtest
Type	Knowledge	#Edge	Original(G)	Circuit(C)	Original(G)	Random	Circuit(C)
Linguistic	Adj Antonym	573	0.80	1.00 ↑	0.00	0.00	0.40 ↑
	word first letter	432	1.00	0.88	0.36	0.00	0.16
	word last letter	230	1.00	0.72	0.76	0.00	0.76
Commonsense	object superclass	102	1.00	0.68	0.64	0.00	0.52
	fruit inside color	433	1.00	0.20	0.93	0.00	0.13
	work location	422	1.00	0.70	0.10	0.00	0.10
Factual	Capital City	451	1.00	1.00	0.00	0.00	0.00
	Landmark country	278	1.00	0.60	0.16	0.00	0.36 ↑
	Country Language	329	1.00	1.00	0.16	0.00	0.75 ↑
	Person Native Language	92	1.00	0.76	0.50	0.00	0.76↑
Bias	name religion	423	1.00	0.50	0.42	0.00	0.42
	occupation age	413	1.00	1.00	1.00	0.00	1.00
	occupation gender	226	1.00	0.66	1.00	0.00	0.66
	name birthplace	276	1.00	0.57	0.07	0.00	0.57 ↑
Avg			0.98	0.73	0.44	0.00	0.47↑

电路性能： 在 GPT2-Medium 上，仅用不到 10% 的原始知识电路子图，模型仍能保持超过 70% 的原始性能 (Circuit(C) 列)。这表明所发现的知识电路能有效捕获模型的核心功能。
随机电路对比： 随机电路 (Random 列) 未能保持模型性能 (Hit@10 均为 0.00)，进一步证明了本文方法的鲁棒性和有效性。
性能提升： 在某些测试数据集上，例如 Landmark-country (从 0.16 提升到 0.36) 和 Country Language (从 0.16 提升到 0.75)，知识电路的性能甚至有所提升。这可能表明所发现的电路捕获了相关知识，而原始模型中存在的其他组件可能引入了噪音，阻碍了模型的准确预测。

6.1.2. 知识聚合与解码现象

下图（原文 Figure 2）展示了 GPT2-Medium 中不同层激活的电路组件分布：

Figure 2: The activated circuit component distributions in Layers in GPT2-Medium. 该图像是一个条形图，展示了GPT2-Medium模型中不同层次的激活电路组件分布，分别包含语言、常识、偏见和事实四个方面的激活频率。每个子图表示特定类型信息在各层的激活情况，反映了电路的活跃程度。

层分布： 注意力头和 MLP 在网络的较低层更活跃，这表明模型在早期阶段处理输入并提取通用信息。
早期解码 (Early Decoding)： 通过计算目标实体 $o$ 在各层输出的平均 排名 (rank) 变化（原文 Figure 7），发现在中间到后期层，目标实体已经出现在 残差流 (residual stream) 的顶端，后续层旨在进一步提高其概率。

下图（原文 Figure 7）展示了不同模型中目标实体 $o$ 在词汇表中的平均排名：

该图像是图表，展示了不同模型在不同层次上的知识编码效果。上方部分为GPT2-Medium，第二部分为GPT2-Large，最后为TinyLLAMA。各个图表中，y轴表示目标实体的平均排名，x轴表示模型的层数，可以看出不同模型对知识的捕获大致在中间到后面的层次。
GPT2-Medium 和 GPT2-Large： 目标实体在中间到后期层逐渐达到高排名。
TinyLLAMA： 目标实体的排名下降更为急剧，集中在某些特定层。这可能与模型知识容量 (knowledge capacity) 有关。

6.1.3. 知识电路中的特殊组件

搬运头 (Mover Head)： 专注于上下文的最后一个令牌，并关注 主题令牌 (subject token)，功能是将信息移动到 残差流 (residual stream) 的最后一个令牌位置。
关系头 (Relation Head)： 关注上下文中的 关系令牌 (relation token)，并产生一些与关系相关的令牌，指导后续组件的行为。
混合头 (Mix Head)： 同时关注关系令牌和主题令牌。
运行示例分析 ("法国的官方语言是法语")： 下图（原文 Figure 1）展示了“法国的官方语言是法语”的知识电路：

该图像是图示，展示了从 "The official language of France is French" 这句话中提取的知识电路，包括简化电路和一些特殊组件的输出。左侧展示了简化电路的结构，右侧显示了不同注意力头的输出日志和关注模式。

下图（原文 Figure 3）展示了该例中目标实体 $o$ 在最后主题令牌和最后令牌位置的排名和概率：

$Figure 3: The rank and probability of the target entity $o$ at both the last subject token and the last token position when unembedding the intermediate layer's output for the fact "The official language of France is French".$ 该图像是图表，展示了在不同层级下，针对事实“法国的官方语言是法语”中的目标实体 $o$ 在最后主题词和主题位置的排名及概率变化。图中蓝色线条分别表示目标实体在最后位置和主题位置的排名，紫色虚线表示目标和主题实体的概率。纵轴以对数尺度表示排名，横轴表示层数，显示了知识在模型不同层次上的分布特征。
- 信息聚合： 在 MLP17 之后，目标知识“法语”在 残差流 (residual stream) 中成为排名最高的令牌，并其概率持续增加。
- 关键连接： 连接到 MLP17 的边包括 (L14H13 → MLP17)、(L14H7 → MLP17) 和 (L15H0 → MLP17)。
- L14H13 (关系头)： 关注关系令牌，输出“language”等相关令牌。
- L14H7 (搬运头)： 将信息从主题位置“法国”移动到最后一个令牌位置。与之前认为的“参数解析器”不同，本文认为它更像是一个“提取头 (extract head)”，直接从主题令牌位置提取相关信息，其输出甚至已经包含目标答案。
- 后续增强： 在 MLP17 之后，L18H14 (关系头) 和 L20H6 (搬运头) 等进一步协作增强最终预测。
- 提取而非解析： 本文的分析挑战了传统的 搬运头 (mover head) 作为参数解析器 (argument parser) 的观点，认为其更像一个提取头，直接将相关信息从主题位置提取出来。
  
  下图（原文 Figure 6）展示了消融 搬运头 (mover head) 和 关系头 (relation head) 后的模型输出：
  
  该图像是一个示意图，展示了经过不同处理后GPT模型生成的法语相关单词的权重变化。图中包含三部分，分别是原始输出、去除mover头后的输出和去除relation头后的输出。每部分的单词及其对应的权重值以深浅不一的色调展示，反映了不同知识电路对输出的影响。
消融 搬运头 (mover head)： 会增加“Italian”、“English”和“Spanish”等非主题相关令牌的概率。

消融 关系头 (relation head)： 会增加“a”和“that”等无意义令牌的概率。

以下是原文 Table 4 的结果：

Model	Type	Fact	Critical Component in Circuit
GPT2-Medium	Linguistic	Antonym	L17H2, L18H1, L13H12, L13H8
	Factual	city country	L21H12, L16H2
	Commonsense	work location	L19H15, L14H4, L13H3
	Bias	name country	L16H6, L21H12
GPT2-Large	Linguistic	Antonym	L25H5, L24H16, L19H13, L18H8
	Factual	company hq	L30H6, L25H13
	Commonsense	work location	L18H13, L28H18, L30H5
	Bias	name country	L21H19, L29H2
TinyLLAMA	Linguistic	Verb past tense	L17H0, MLP20
	Factual	Landmark country	L15H11, L17H19, MLP18
	Commonsense	Fruit Inside Color	L18H25, MLP18
	Bias	name country	L15H11, MLP17

组件重用 (Component Reuse)： 相关关系（如 city_in_country、name_birth_place、country_language）的电路中包含相同的注意力头（如 L21H12），这些头存储和映射国家相关信息。某些关系头（如 L7H14）也会被不同关系（如 official_language 和 official_currency）激活。这表明这些 重用头 (reused heads) 可能扮演 主题头 (topic heads) 的角色。

6.1.4. TinyLLAMA 案例

下图（原文 Figure 8）展示了 TinyLLAMA 中“Thierry Mugler 的母语是法语”的简化知识电路：

Figure 8: A simplified knowledge circuit found in TinyLLAMA for the knowledge "The mother tongue of Thierry Mugler is French". 该图像是一个显示TinyLLAMA中知识电路的示意图，专注于知识"Thierry Mugler的母语是法语"。图中包括知识电路的组成部分、注意力模式及输出逻辑的示例，展示了模型如何编码知识以及实体在残差流中的排名和概率关系。

TinyLLAMA 中的特殊行为注意力头通常少于 GPT2。L15H3 和 L17H19 等 搬运头 (mover heads) 和 关系头 (relation heads) 仍能生成目标令牌作为输出。

6.2. 知识编辑的内部机制

6.2.1. 单一事实知识编辑

本文使用 ROME [18] 和 FT-M [24] 方法编辑 GPT-2 medium 模型。

ROME 的行为： 下图（原文 Figure 4 中部）展示了 ROME 编辑后的行为：

该图像是图表，展示了在不同编辑模型下，L15H3 头部的注意力模式和输出日志的对比。上部为原始模型，显示原始令牌"Controller"的信息转移；中部为ROME模型，成功添加"Intel"的信息；下部为FT层-0编辑，直接将编辑知识写入组件，但显示这些方法对"Windows server is created by?"的影响。
- 当信息被 ROME 添加到主题位置时，搬运头 (mover head)（如 L15H3）的行为从“复制”转变为“提取”编辑后的信息（例如，从“Controller”变为“Intel”）。
- 这些信息通过后续层逐渐聚合，直到第 15 层，编辑后的目标实体“Intel”成为排名最高的实体，其概率显著增加。这表明 ROME 成功地将“Intel”添加到了模型中。
FT-M 的行为： 下图（原文 Figure 4 底部）展示了 FT-M 编辑后的行为：

该图像是图表，展示了在不同编辑模型下，L15H3 头部的注意力模式和输出日志的对比。上部为原始模型，显示原始令牌"Controller"的信息转移；中部为ROME模型，成功添加"Intel"的信息；下部为FT层-0编辑，直接将编辑知识写入组件，但显示这些方法对"Windows server is created by?"的影响。
- FT-M 倾向于将编辑后的知识直接写入特定组件（例如，MLP-0），导致该组件的输出逻辑对编辑后的知识具有压倒性优势（例如，“Intel”的输出逻辑超过 10，直接在 残差流 (residual stream) 中成为排名最高的实体）。
- 这种直接写入的方式导致编辑信息在模型中占据主导地位，但可能导致过拟合问题。例如，当测试另一个不相关的事实“Windows server 是由谁创建的？”时，模型仍倾向于给出“Intel”作为答案。
结论： 这项发现支持了先前的分析，即 知识编辑 (knowledge editing) 可能不会改变知识的存储位置，而只是在知识电路中添加信号。

下图（原文 Figure 11）展示了编辑模型后知识电路的变化：

该图像是示意图，展示了针对 "Platform Controller Hub was created by" 的知识电路在调整不同层次（层0、层6、层12和层23）时的变化。具体而言，调整后的 MLP 允许模型直接提供编辑后的信息，揭示了知识的流动和存储过程。

下图（原文 Figure 12）展示了 FT-M 在不同层编辑时的排名变化：

Figure 12: FT-M Rank Change Across Different Layers 该图像是一个图表，展示了不同层次（6、12、18层）中多个知识关系（如城市与国家、星座等）的FT-M排名变化情况。x轴表示层数，y轴表示FT-M排名的对数值，显示出随着层数的增大，FT-M排名的明显下降趋势。

下图（原文 Figure 13）展示了 ROME 在不同层编辑时的排名变化：

Figure 13: ROME Rank Change Across Different Layers 该图像是一个图表，展示了不同层次（Layer 6, 12, 18）在多个知识关系（如 City-in-Country, Country-Language 等）下的 ROME 排名变化。这些变化通过对数坐标系呈现，反映了知识编码在不同层级中的特性。

FT-M 在不同层编辑： 当使用 FT-M 在特定层（例如层 6、12、18）进行编辑时，目标新令牌的概率排名在对应的编辑层急剧下降（图中垂直线），表明 FT-M 直接将编辑信息嵌入到模型的信息流中。
ROME 在不同层编辑： 相比之下，ROME 方法的效果更为缓和。目标新令牌的预测概率在编辑层之后的几层才达到峰值。这与之前的分析一致，即 ROME 更倾向于通过 搬运头 (mover head) 等组件逐步传输信息。

6.2.2. 多跳事实知识编辑 (Multi-hop Factual Knowledge Editing)

挑战： 多跳知识编辑 (multi-hop knowledge editing) 具有挑战性，即使模型被编辑了新知识，也难以利用编辑后的信息进行推理。
实验： 考虑事实 (Thierry Mugle, “家乡”, 法国)。将其编辑为 (Thierry Mugle, “家乡”, 中国)。然后评估模型对基于编辑知识的问题的性能，例如“Thierry Mugle 家乡的官方货币是”和“Thierry Mugle 家乡的首都城市是”。
发现：
- 原始模型可以正确回答这些问题。
- 编辑后的模型会为后续的 多跳推理 (multi-hop reasoning) 提供“中国”作为答案。
- 原始 多跳推理 (multi-hop reasoning) 电路中的 搬运头 (mover head) 最初提取第二跳答案，但在编辑后会提取“中国”。这表明编辑信息会主导并影响电路。
- 意外现象： 即使在原始模型中，如果移除第一跳文本的上下文，模型也会直接提供答案（原文 Figure 10）。这进一步证实了模型依赖于关系和主题相关信息，而非严格的语法结构。
  
  下图（原文 Figure 10）展示了多跳推理中的特定案例：
  
  该图像是一个示意图，展示了多跳推理中的知识类型。图中列举了三种知识表现形式：事实知识、多跳知识和损坏知识，并分别指向相关答案，突出即使在移除第一跳上下文后，模型仍能直接给出部分答案的现象。
即使移除第一跳问题的上下文，模型也直接给出答案。这表明模型在进行事实召回时，可能更侧重于关系头和主题相关信息，而非严格的文本上下文。

以下是原文 Table 5 的结果：

First-hop Second-hop Integrate

node 83.33 70.27 71.42

edge 63.20 45.27 49.42
电路重用： 单跳电路 (single-hop circuit) 和 多跳电路 (multi-hop circuit) 之间存在节点重叠，特别是在 搬运头 (mover head) 上。这表明模型在进行推理时会重用单跳信息。

	First-hop	Second-hop	Integrate
node	83.33	70.27	71.42
edge	63.20	45.27	49.42

6.3. 知识电路解释语言模型行为

6.3.1. 事实幻觉 (Factual Hallucination)

下图（原文 Figure 5 左侧）展示了事实幻觉案例：

Figure 5: Left: fact hallucination case "The official currency of Malaysia is called", we observe that, at layer 15, the Mover Head selects incorrect information. Right: In-context learning case, we notice that some new heads focusing on the demonstration appear in the knowledge circuit. 该图像是图表，展示了两个案例：左侧是关于马来西亚官方货币的事实幻觉案例，在第15层，Mover Head选择了错误信息；右侧是关于上下文学习的案例，注意到一些新的关注头出现在知识电路中。

观察： 以“马来西亚的官方货币被称为”为例。正确的答案“Ringgit”和不正确的答案“Malaysian”在第 15 层之前都得到了积累。
失败机制： 然而，在第 16 层，搬运头 (mover head) L15H10 错误地提取了不正确的信息“Malaysian”。尽管在第 20-22 层，正确答案的排名有所下降，但这不足以纠正之前的错误。
结论： 幻觉发生时，模型在早期层未能将正确知识传输到最终令牌，表现为知识电路缺乏有效的 搬运头 (mover head) 或 搬运头 (mover head) 选择了错误信息。这可能涉及到电路竞争 (circuit competition)。

6.3.2. 上下文学习 (In-Context Learning)

下图（原文 Figure 5 右侧）展示了上下文学习案例：

实验设计： 关注模型在零样本 (zero-shot) 下给出错误答案，但在提供演示示例后能产生正确答案的场景。
观察： 引入演示示例（如“small 的比较级是 smaller”）后，在知识电路中出现了几个新的注意力头。
新注意力头的行为： 这些新头主要关注演示的上下文，并类似于 归纳头 (Induction Head) [50]，回顾序列中当前令牌的先前实例，并找到上次它之后出现的令牌。

消融实验： 消融这些新出现的注意力头会显著降低预测概率（原文 Table 2），证明了它们在上下文学习中的重要性。

以下是原文 Table 2 的结果：

	Knowledge	Origin Model	Ablating extra head	Ablating random head
Linguistic	adj_comparative	62.24	32.55	58.18
Commonsense	word_sentiment	89.02	55.50	88.61
Commonsense	substance_phase	78.74	52.85	71.24
Bias	occupation_gender	86.97	59.54	86.54
Factual	person_occupation	35.17	23.27	31.60

消融 上下文学习 (In-Context Learning, ICL) 电路中新出现的注意力头 (Ablating extra head 列) 导致性能显著下降，远低于消融随机注意力头 (Ablating random head 列) 的影响。这表明这些新头对于 上下文学习 (ICL) 任务至关重要。

6.3.3. 逆向关系 (Reverse Relation)

逆向诅咒 (Reverse Curse) [73]： 模型能成功预测 (s, r) 的目标 $o$ ，但对于逆向关系 $(\hat{r}, o)$ ，模型可能无法预测正确的主体 $s$ 。
实验： 针对“superhero_person”关系，计算给定知识与其逆向事实的电路重叠度。
观察： 两个电路的重叠度约为 70%，表明语言模型可能在相似位置存储相关信息。同时，激活的 搬运头 (mover heads) 对于这两种关系是相同的。

7. 总结与思考

7.1. 结论总结

本文提出了 知识电路 (Knowledge Circuits) 的新视角，通过因果中介分析在 GPT2 和 TinyLLAMA 模型中识别和分析了表达特定知识的关键计算子图。核心发现包括：

知识电路的有效性： 即使独立运作，知识电路也能保持模型大部分原始性能，证实了其作为隐式神经知识表示的有效性。
知识流转机制： 知识倾向于在中间层聚合，并在后期层得到增强，并通过 搬运头 (mover heads) 和 关系头 (relation heads) 等特殊组件进行信息传输和关系捕获。
知识编辑的洞察： ROME 通过 搬运头 (mover heads) 逐步传输编辑信息，而 FT-M 则直接将信息写入组件，可能导致过拟合。这揭示了现有编辑方法成功与局限的深层原因。
模型行为解释： 知识电路 (Knowledge Circuits) 有效解释了幻觉（搬运头 (mover head) 错误选择信息）和上下文学习（新注意力头的出现和 归纳头 (Induction Head) 行为）等复杂模型行为。本文为理解 Transformer 的知识机制提供了更深入的机械可解释性视角，并为改进知识编辑和模型设计提供了指导。

7.2. 局限性与未来工作

7.2.1. 局限性

粒度粗糙： 当前的 知识电路 (Knowledge Circuits) 分析粒度相对较粗，例如，MLP 内部的神经元可能需要更细粒度的分析才能完全捕获其行为和贡献。
激活机制不透明： 尽管识别了协同工作的组件，但它们如何被激活的深层机制仍然不透明。
Logit Lens 的局限性： 使用 Logit Lens 分析组件信息可能导致中间层与输出 反嵌入矩阵 (unembedding matrix) 之间存在差异，这会阻碍对早期层电路组件行为的全面分析。
计算成本高： 基于因果中介的电路发现方法计算密集且耗时。

7.2.2. 未来工作

更细粒度的电路分析： 探索更细粒度的电路发现方法，可能深入到神经元级别，以全面理解 MLP 等组件内部的运作。
激活机制研究： 深入研究 知识电路 (Knowledge Circuits) 中组件的激活机制，解释为何某些组件在特定情境下被激活。
改进信息分析技术： 采用更先进的信息分析技术，如 Attention Lens [86]，或开发新的方法来弥合中间表示和最终输出之间的差距，以获得更准确的电路分析。
特殊组件的激活条件： 进一步探索 搬运头 (mover heads) 等重用组件的激活机制和条件，以理解它们为何在不同知识或关系上下文中被重用，以及其“单义性”与“多义性”的形成机制。
高效电路发现方法： 探索更高效的电路发现方法，如基于掩码训练 (mask training) [63, 64] 或 稀疏自编码器 (Sparse Auto-Encoders) [36, 65] 的技术。
安全和隐私应用： 将 知识电路 (Knowledge Circuits) 应用于开发 电路断路器 (circuit breakers) [66] 等工具，以管理可能有害的输出，从而提升 AI 的安全性和隐私保护。

7.3. 个人启发与批判

个人启发：

对 LLMs 内部机制的新理解： 本文提供了一个有价值的框架，将 LLMs 的“黑箱”内部机制，特别是知识存储和利用，具象化为可分析的“电路”。这对于从工程和科学角度理解 LLMs 的工作原理至关重要。
知识编辑的新方向： 揭示了现有知识编辑方法对模型内部电路的不同影响，为设计更精准、副作用更小、泛化能力更强的知识编辑技术提供了理论依据。例如，未来可以针对特定 知识电路 (Knowledge Circuits) 进行定向编辑，而不是粗暴地修改整个层。
解释模型缺陷： 利用 知识电路 (Knowledge Circuits) 解释幻觉和上下文学习等复杂行为，为诊断和解决这些模型缺陷提供了新的工具和视角。理解幻觉为何发生，可以指导我们设计避免错误信息传播的电路。
可解释性与安全性融合： 将可解释性研究与 AI 安全（如幻觉、偏见）和隐私（如知识编辑的副作用）紧密结合，强调了理解模型内部机制对于构建可信赖 AI 的重要性。

批判：

“电路”的复杂性和可扩展性：尽管“电路”概念很有吸引力，但在超大规模 LLMs（如 GPT-3/4）中，单个知识可能涉及的路径极其复杂，甚至可能没有清晰、独立的电路。如何高效地发现并分析这些超大规模模型中的电路，以及这些电路是否依然具有“可解释性”，是一个巨大的挑战。
“知识”的定义与粒度：本文聚焦于事实性知识，但 LLMs 存储的知识远不止于此，还包括语言学知识、推理能力、世界模型等。这些更抽象、更复杂的“知识”是否也能以类似“电路”的形式被表示和发现？如果可以，其电路结构和分析方法可能需要进一步的创新。
因果中介分析的局限性： 依赖 消融 (ablation) 进行因果中介分析，其计算成本高昂，尤其是在模型规模持续扩大的背景下。此外，零消融 (zero ablation) 可能会引入分布外输入 (out-of-distribution input)，对模型行为产生不可预测的影响。
“解释”的深度：本文识别了 搬运头 (mover heads) 和 关系头 (relation heads) 等特殊组件，并对其功能进行了推测。然而，这些头内部的机制，即它们是如何“提取”或“移动”信息的，仍然是一个待解的谜团。更深层次的解释可能需要结合 稀疏自编码器 (Sparse Auto-Encoders) 等技术，对神经元级别的特征进行分析。
泛化性挑战： 知识电路是否具有良好的泛化性？即针对某个事实发现的电路，是否能适用于类似的或相关的事实？如果每个事实都需要重新发现电路，那么其应用价值将大打折扣。
与传统符号 AI 的关联： 知识电路的概念在某种程度上与传统符号 AI 中的知识图谱有异曲同工之妙。如何将这种神经网络中的“电路”与符号知识表示进行连接，可能会是未来一个有趣的研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。