AiPaper
论文状态:已完成

Attention is not Explanation

发表:2019/02/27
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文系统评估了注意力机制在NLP模型中作为解释手段的有效性。通过多任务实验证明,注意力权重与模型预测的实际关联度低,可替代的注意力分布产生相似预测,表明注意力机制本身不足以提供可靠解释,挑战了“注意力即解释”的普遍认知。

摘要

Attention mechanisms have seen wide adoption in neural NLP models. In addition to improving predictive performance, these are often touted as affording transparency: models equipped with attention provide a distribution over attended-to input units, and this is often presented (at least implicitly) as communicating the relative importance of inputs. However, it is unclear what relationship exists between attention weights and model outputs. In this work, we perform extensive experiments across a variety of NLP tasks that aim to assess the degree to which attention weights provide meaningful `explanations' for predictions. We find that they largely do not. For example, learned attention weights are frequently uncorrelated with gradient-based measures of feature importance, and one can identify very different attention distributions that nonetheless yield equivalent predictions. Our findings show that standard attention modules do not provide meaningful explanations and should not be treated as though they do. Code for all experiments is available at https://github.com/successar/AttentionExplanation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Attention is not Explanation (注意力不是解释)

这篇论文的标题言简意赅,直接提出了一个具有挑战性的核心论点:在神经网络模型中,尤其是自然语言处理(NLP)领域,被广泛使用的注意力(Attention)机制,并不等同于对模型预测行为的可靠解释。

1.2. 作者

  • Sarthak Jain: 东北大学(Northeastern University)

  • Byron C. Wallace: 东北大学(Northeastern University)

    两位作者均来自美国东北大学。Byron C. Wallace 教授是机器学习领域,特别是其在健康信息学和自然语言处理中应用方向的知名学者,他在模型可解释性方面有深入的研究。

1.3. 发表期刊/会议

本文发表于 2019 年的 EMNLP (Conference on Empirical Methods in Natural Language Processing)。EMNLP 是自然语言处理领域的顶级国际会议之一,与 ACL、NAACL 并列,享有极高的学术声誉。发表在该会议上的论文通常代表了该领域的最新研究成果和重要进展。

1.4. 发表年份

2019年 (ArXiv 预印本于 2019-02-26 发布)

1.5. 摘要

注意力机制在神经网络NLP模型中被广泛采用。除了提升预测性能,它通常被宣传为能提供模型的透明度 (transparency):带有注意力机制的模型会生成一个关于输入单元的权重分布,这通常被(至少是隐式地)呈现为传达了各输入的相对重要性。然而,目前尚不清楚注意力权重和模型输出之间到底存在何种关系。在这项工作中,作者们跨越多种NLP任务进行了广泛的实验,旨在评估注意力权重在多大程度上为模型预测提供了有意义的“解释”。他们的发现是:在很大程度上,注意力并不能提供有意义的解释。例如,学习到的注意力权重经常与基于梯度的特征重要性度量不相关,并且人们可以找到非常不同的注意力分布,却能产生等效的预测结果。作者们的发现表明,标准的注意力模块不能提供有意义的解释,也不应该被当作解释来对待。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 在自然语言处理领域,注意力机制 (Attention Mechanism) 已经成为提升模型性能的标配组件。研究者们普遍认为,注意力权重(即模型对输入各部分“关注”的程度)可以用来解释模型为何做出某个特定的预测。例如,在情感分析任务中,如果模型将高注意力权重分配给了单词 "terrible",人们通常会认为这个词是导致模型预测为“负面”情感的主要原因。然而,这种“注意力即解释”的观点很大程度上是一种未经严格验证的直觉假设。

  • 问题重要性: 模型可解释性 (Interpretability) 对于建立值得信赖的人工智能系统至关重要,尤其是在医疗、金融等高风险领域。如果研究者和开发者依赖一种错误的解释方法(如注意力权重),他们可能会对模型的决策过程产生误解,从而导致错误的信任和潜在的风险。

  • 研究空白 (Gap): 尽管注意力作为解释工具被广泛使用和引用,但学术界缺乏系统性的、跨任务的实证研究来检验这一假设的忠实性 (faithfulness)。所谓忠实性,指的是解释是否真正反映了模型做出决策的内部逻辑。

  • 切入点: 本文的创新之处在于,它没有提出一种新的模型,而是对一个广泛存在的“共识”提出了直接的、基于实验的质疑。作者设计了一系列实验,从两个核心角度出发,来量化检验注意力权重作为解释的可靠性:

    1. 一致性 (Agreement): 注意力权重是否与其他公认的特征重要性度量方法(如梯度法)的结论一致?
    2. 唯一性 (Uniqueness): 产生某个特定预测的注意力分布是否是唯一的?如果存在其他截然不同的注意力分布也能导致相同的预测,那么最初的注意力分布作为“解释”的地位就会被动摇。

2.2. 核心贡献/主要发现

  • 核心贡献:

    1. 本文首次对“注意力是否是解释”这一基本问题进行了大规模、多任务的实证研究,涵盖了文本分类、问答和自然语言推断等多个典型NLP任务。
    2. 提出了一种寻找对抗性注意力 (adversarial attention) 的方法,可以系统地找到与原始注意力分布差异巨大但预测结果几乎不变的“反事实”解释。
  • 主要发现:

    1. 注意力与特征重要性不相关: 在使用循环神经网络(如 BiLSTM)作为编码器的模型中,注意力权重与两种经典的特征重要性度量方法——基于梯度 (gradient-based) 的方法和留一法 (leave-one-out)——的相关性非常弱且不稳定
    2. 存在等效的对抗性解释: 在许多情况下,可以找到一个与原始注意力分布截然不同的“对抗性”注意力分布,它也能使模型产生几乎完全相同的预测结果。这表明,被高亮显示的“重要”词语可能并非不可替代。
    3. 随机打乱注意力影响甚微: 实验发现,即使将一个实例的注意力权重随机打乱并重新分配给不同的词,模型的最终预测结果也常常只有微小的变化。
    4. 简单模型表现更佳: 有趣的是,当使用更简单的非循环编码器(如简单的加权平均模型)时,注意力权重与特征重要性的相关性会显著提高。这暗示问题可能源于循环网络(RNN)复杂的内部状态混合了输入信息,使得单一的注意力权重难以追溯到原始输入的真实贡献。

一言以蔽之,这篇论文通过扎实的实验证据得出结论:至少在标准的循环神经网络架构中,我们不能想当然地将注意力权重视为对模型决策的忠实解释。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 注意力机制 (Attention Mechanism)

注意力机制最初是为了解决神经机器翻译中长句子信息丢失的问题而提出的。其核心思想是,当模型在生成输出的每一步时,能够“关注”输入序列中不同的部分,并赋予它们不同的权重。

一个标准的注意力过程通常包括三个步骤:

  1. 计算对齐分数 (Alignment Score): 对于输出的某个部分(通常由一个查询向量 QQ 代表),计算它与输入序列中每个部分(由键向量 KK 代表)的“相关性”或“匹配度”。这个分数由一个函数 ϕ\phi 计算得出:et=ϕ(ht,Q)e_t = \phi(\mathbf{h}_t, \mathbf{Q}),其中 ht\mathbf{h}_t 是输入序列第 tt 个位置的表示。
  2. 计算注意力权重 (Attention Weights): 使用 softmax 函数将对齐分数归一化,得到一个概率分布,即注意力权重 α\alpha。权重越高的输入部分表示模型在当前步骤越“关注”它。 αt=exp(et)j=1Texp(ej) \alpha_t = \frac{\exp(e_t)}{\sum_{j=1}^T \exp(e_j)}
  3. 计算上下文向量 (Context Vector): 将输入序列的各个部分(由值向量 VV 代表,在本文中 K=V=hK=V=\mathbf{h})根据注意力权重进行加权求和,得到一个综合了所有输入信息的上下文向量 c\mathbf{c}c=t=1Tαtht \mathbf{c} = \sum_{t=1}^T \alpha_t \mathbf{h}_t 这个上下文向量随后被用于模型的下游任务,如生成下一个词或进行分类。

3.1.2. BiLSTM (Bidirectional Long Short-Term Memory)

  • RNN (Recurrent Neural Network): 循环神经网络,专门用于处理序列数据(如文本)。它的核心特征是神经元可以接收来自先前时间步的信息,从而捕捉序列中的依赖关系。

  • LSTM (Long Short-Term Memory): 是 RNN 的一种变体,通过引入“门控机制”(输入门、遗忘门、输出门)来解决标准 RNN 在处理长序列时容易出现的梯度消失/爆炸 (vanishing/exploding gradients) 问题,从而能够学习到更长期的依赖关系。

  • BiLSTM (Bidirectional LSTM): 双向 LSTM。标准的 LSTM 只能按从前到后的顺序处理序列,因此在任意时间点 tt 的隐藏状态 ht\mathbf{h}_t 只包含了 tt 时刻之前的信息。而 BiLSTM 包含两个并行的 LSTM 层:一个正向处理序列,一个反向处理序列。在每个时间点 tt,它将正向 LSTM 的输出和反向 LSTM 的输出拼接起来,得到最终的隐藏状态。这样做的好处是,ht\mathbf{h}_t 能够同时编码来自过去(左侧)和未来(右侧)的上下文信息。

    关键点: BiLSTM 的隐藏状态 ht\mathbf{h}_t 并不仅仅代表输入词 xtx_t 的信息,而是 xtx_t 与其前后所有上下文信息经过复杂非线性变换后的融合体。这是理解本文核心论点的关键,因为注意力是施加在 ht\mathbf{h}_t 上的,将其重要性直接归因于 xtx_t 可能是不准确的。

3.1.3. 特征重要性度量 (Feature Importance Measures)

本文使用两种与注意力无关的方法来评估输入特征(词)的重要性,作为比较的基准:

  • 基于梯度 (Gradient-based): 计算模型最终输出(或损失)关于某个输入特征的梯度。梯度的绝对值越大,意味着该特征的一个微小变动会对输出产生更大的影响,因此该特征被认为更重要。公式为:Importance(xt)y^xt\text{Importance}(x_t) \approx |\frac{\partial \hat{y}}{\partial x_t}|
  • 留一法 (Leave-One-Out / Feature Erasure): 一种简单直接的方法。从输入中移除某个特征(如一个词),然后观察模型预测结果的变化程度。如果移除该特征导致预测发生巨大变化,则说明该特征非常重要。

3.2. 前人工作

  • 将注意力作为解释的主流观点: 作者引用了大量先前的工作(如 Xu et al., 2015; Mullenbach et al., 2018 等),这些工作在各自的论文中,或显式或隐式地将注意力热力图作为模型可解释性的证据,用以说明模型“关注”了哪些输入来做出决策。这代表了本文所要挑战的普遍看法。
  • 其他可解释性方法: 论文也提到了与注意力无关的可解释性研究,这些研究为本文提供了进行比较的“参照物”。
    • 梯度法: Ross et al. (2017) 和 Sundararajan et al. (2017) 等工作利用梯度信息来解释模型预测。
    • 表示擦除法: Li et al. (2016) 通过系统性地擦除(置零)神经网络内部表示的某些维度来探究其对模型行为的影响,这与本文使用的“留一法”思想类似。
  • 为可解释性设计的注意力: 还有一些工作尝试设计本质上更具可解释性的注意力机制,例如:
    • 稀疏注意力 (Sparse Attention): Lei et al. (2016) 提出的方法强制模型只从输入中选择一个小的子集(称为 rationale)来做预测,这样被选中的部分就“根据定义”是预测的原因。
    • 结构化注意力 (Structured Attention): Kim et al. (2017) 提出了一个通用框架,可以施加各种结构化先验(如局部性、稀疏性)到注意力上,使其更符合人类的直觉。

3.3. 技术演进

注意力机制自 Bahdanau et al. (2014) 在机器翻译中提出以来,迅速演变成 NLP 领域的一项基础技术,并扩展到计算机视觉等多个领域。早期,它主要被视为提升性能的工具。随着模型变得越来越复杂(“黑箱”),研究者们开始渴望理解模型内部工作原理,注意力机制因其直观的权重分布,自然而然地被当成了解释模型的“窗口”。本文的工作可以看作是可解释性研究领域的一次重要的“反思”和“拨乱反正”,它标志着社区从“直觉地相信”转向“严谨地验证”这一关键转变。

3.4. 差异化分析

本文与之前工作的核心区别在于:

  • 目的不同: 大多数先前工作旨在使用注意力进行解释,或提出新的模型。而本文旨在批判性地评估这种使用的有效性。

  • 方法不同: 本文不提出新模型,而是设计了一套系统的、具有对抗思想的评估框架,通过定量实验来证伪一个普遍的假设。

  • 结论不同: 在许多人接受“注意力即解释”时,本文明确地给出了一个相反的、基于证据的结论:“注意力不是(可靠的)解释”。


4. 方法论

本节详细拆解论文中用于检验注意力可靠性的实验方法。作者的核心思路是通过一系列实验来回答两个关键问题:

  1. 相关性问题: 注意力权重与公认的特征重要性度量方法(梯度法、留一法)的相关性有多强?
  2. 反事实问题: 如果模型当初关注了不同的输入,预测结果会改变吗?是否存在与原始注意力分布截然不同,但能产生相同预测的“替代解释”?

4.1. 方法原理

论文采用的实验模型是一个通用的、带有注意力机制的神经网络架构,可以应用于分类、问答等多种任务。其基本流程如下:

  1. 输入与编码: 输入文本 x\mathbf{x} 首先通过词嵌入层转换为向量序列 xe\mathbf{x}_e。然后,一个编码器 (Encoder)(主要是 BiLSTM)将 xe\mathbf{x}_e 编码为一系列隐藏状态 h={h1,h2,...,hT}\mathbf{h} = \{\mathbf{h}_1, \mathbf{h}_2, ..., \mathbf{h}_T\}
  2. 注意力计算: 一个注意力模块计算输入各部分的重要性。
    • 首先,一个对齐函数 ϕ\phi 计算每个隐藏状态 ht\mathbf{h}_t 与一个任务相关的查询向量 (query vector) Q\mathbf{Q} 之间的分数。例如,在问答任务中,Q\mathbf{Q} 可能是问题的向量表示。
    • 论文测试了两种常见的对齐函数:
      • 加性注意力 (Additive Attention): ϕ(h,Q)=vTtanh(W1h+W2Q) \phi(\mathbf{h}, \mathbf{Q}) = \mathbf{v}^T \tanh(\mathbf{W}_1 \mathbf{h} + \mathbf{W}_2 \mathbf{Q}) 符号解释:
        • hRT×m\mathbf{h} \in \mathbb{R}^{T \times m}:编码器输出的隐藏状态序列。
        • QRm\mathbf{Q} \in \mathbb{R}^{m}:查询向量。
        • W1,W2\mathbf{W}_1, \mathbf{W}_2:可学习的权重矩阵,用于对隐藏状态和查询向量进行线性变换。
        • tanh\tanh:双曲正切激活函数。
        • v\mathbf{v}:可学习的权重向量,将变换后的结果映射为一个标量分数。
      • 缩放点积注意力 (Scaled Dot-Product Attention): ϕ(h,Q)=hQm \phi(\mathbf{h}, \mathbf{Q}) = \frac{\mathbf{hQ}}{\sqrt{m}} 符号解释:
        • hQ\mathbf{hQ}:计算隐藏状态向量与查询向量的点积。
        • m\sqrt{m}:缩放因子,其中 mm 是向量维度。用于防止点积结果过大导致 softmax 进入梯度饱和区。
    • 然后,将这些分数通过 softmax 函数转换为注意力权重 α^\hat{\alpha}
  3. 上下文向量与预测: 将注意力权重 α^\hat{\alpha} 与隐藏状态 h\mathbf{h} 加权求和,得到上下文向量 hα=t=1Tα^tht\mathbf{h}_\alpha = \sum_{t=1}^T \hat{\alpha}_t \cdot \mathbf{h}_t。最后,一个解码器 (Decoder)(通常是一个全连接层)基于 hα\mathbf{h}_\alpha 做出最终预测 y^\hat{y}

4.2. 核心方法详解 (逐层深入)

4.2.1. 实验一:与特征重要性的相关性分析

此实验旨在量化注意力权重与两种公认的特征重要性度量方法的一致性。论文中的 Algorithm 1 描述了此流程。

步骤 1: 获取模型原始输出和注意力权重 对于一个输入 x\mathbf{x},首先通过模型前向传播,得到原始的注意力权重 α\alpha 和预测结果 yy

h ← Enc(x)
α ← softmax(φ(h, Q))
y ← Dec(h, α)

步骤 2: 计算基于梯度的重要性分数 gg 计算最终输出 yy 关于每个输入词元 xtx_t 的梯度,并取其绝对值作为重要性分数。 gtw=1V1[xtw=1]yxtw,t[1,T] g_t \leftarrow \left|\sum_{w=1}^{|V|} \mathbb{1}[x_{tw}=1] \frac{\partial y}{\partial x_{tw}}\right|, \quad \forall t \in [1, T] 符号解释与分析:

  • xtwx_{tw} 是一个指示符,表示在位置 tt 的词是否是词汇表中的第 ww 个词。
  • yxtw\frac{\partial y}{\partial x_{tw}} 是输出 yy 对输入 xtwx_{tw} 的偏导数。
  • 关键细节: 作者在计算梯度时,特意切断了从注意力模块回传的梯度流。这意味着,这里计算的梯度衡量的是“在保持当前注意力分布不变的情况下,微调输入词本身会对最终输出产生多大影响”。这是一种合理的选择,因为它将“输入内容的重要性”和“模型对输入内容的关注度”分离开来。

步骤 3: 计算基于留一法 (LOO) 的重要性分数 Δy^\Delta \hat{y} 对于输入的每个位置 tt,暂时移除该位置的词元,得到新输入 xt\mathbf{x}_{-t}。然后将新输入送入模型,得到新的预测结果 y^(xt)\hat{y}(\mathbf{x}_{-t})。该词的重要性由原始预测与新预测之间的差异来衡量。 Δy^tTVD(y^(xt),y^(x)),t[1,T] \Delta\hat{y}_t \leftarrow \mathrm{TVD}(\hat{y}(\mathbf{x}_{-t}), \hat{y}(\mathbf{x})), \quad \forall t \in [1, T] 符号解释:

  • y^(x)\hat{y}(\mathbf{x}):对原始输入 x\mathbf{x} 的预测。
  • y^(xt)\hat{y}(\mathbf{x}_{-t}):移除了第 tt 个词后的预测。
  • TVD\mathrm{TVD} (Total Variation Distance): 总变差距离,用于衡量两个概率分布的差异。

步骤 4: 计算相关性 最后,使用肯德尔等级相关系数 (Kendall's Tau, τ\tau) 分别计算注意力权重序列 α\alpha 与梯度重要性分数序列 gg、以及与 LOO 重要性分数序列 Δy^\Delta\hat{y} 之间的相关性。

τg ← Kendall-τ(α, g)
τloo ← Kendall-τ(α, Δŷ)  // 论文中未显式写出,但逻辑对称

Kendall's τ\tau 是一种衡量两个排序变量之间一致性的指标,取值范围为 [-1, 1]。1 表示完全正相关,-1 表示完全负相关,0 表示不相关。如果注意力是好的解释,我们期望得到一个接近 1 的正相关值。

4.2.2. 实验二:反事实注意力权重分析

此实验旨在探究是否存在与模型原始注意力权重非常不同,但仍能产生相同预测的“替代解释”。

4.2.2.1. 注意力置换 (Attention Permutation)

这是一个简单的思想实验,如 Algorithm 2 所述:

  1. 对于一个实例,得到其原始的注意力权重向量 α\alpha

  2. α\alpha 中的权重值进行随机置换,得到一个新的权重向量 αp\alpha_p。这意味着,原来分配给词 A 的高权重现在可能被分配给了词 B。

  3. 保持编码器的隐藏状态 h\mathbf{h} 不变,使用新的权重向量 αp\alpha_p 计算新的上下文向量 hαp\mathbf{h}_{\alpha_p} 和新的预测 y^p\hat{y}_p

  4. 计算新旧预测之间的差异 TVD(y^p,y^)\mathrm{TVD}(\hat{y}_p, \hat{y})

  5. 重复此过程 100 次,并记录预测差异的中位数 Δy^med\Delta\hat{y}^{med}

    如果注意力权重真的很重要,那么随机打乱它们应该会导致预测发生剧烈变化。反之,如果变化很小,则说明模型对注意力的具体分配不敏感。

4.2.2.2. 对抗性注意力 (Adversarial Attention)

这是本文最具创新性的方法。其目标是主动寻找一个与原始注意力权重 α^\hat{\alpha} 差异最大,但导致模型预测变化最小(小于某个阈值 ϵ\epsilon)的新的注意力权重 α(i)\alpha^{(i)}。 如下图(原文 Figure 1)所示,左侧是模型原始的注意力热力图,重点关注了 "waste" 一词。右侧是找到的对抗性注意力热力图,重点关注了 "was",但两者产生的预测几乎完全相同(均为 0.01)。这动摇了 "waste" 是唯一原因的解释。

Figure 1: Heatmap of attention weights induced over a negative movie review. We show observed model attention (left) and an adversarially constructed set of attention weights (right). Despite being q… 该图像是论文中的示意图,展示了负面电影评论中原始注意力权重和对抗构造的注意力权重的对比,尽管两者显著不同,但预测结果均为f(xα,θ)=0.01f(x|\alpha,\theta)=0.01,体现注意力权重与模型输出的独立性。

作者将此问题形式化为一个优化问题。目标是找到 kk 个满足条件的对抗性注意力分布 {α(1),...,α(k)}\{\alpha^{(1)}, ..., \alpha^{(k)}\}

优化目标: maximizeα(1),,α(k)f({α(i)}i=1k)subject toiTVD[y^(x,α(i)),y^(x,α^)]ϵ \begin{array} { r l } { \underset { \alpha ^ { ( 1 ) } , \ldots , \alpha ^ { ( k ) } } { \mathrm { m a x i m i z e } } } & { f ( \{ \alpha ^ { ( i ) } \} _ { i = 1 } ^ { k } ) } \\ { \mathrm { s u b j e c t ~ t o } } & { \forall i \mathrm { T VD } [ \hat { y } ( \mathbf { x } , \alpha ^ { ( i ) } ) , \hat { y } ( \mathbf { x } , \hat { \alpha } ) ] \leq \epsilon } \end{array} 其中,目标函数 ff 定义为: f({α(i)}i=1k)=i=1kJSD[α(i),α^]+1k(k1)i<jJSD[α(i),α(j)] f ( \{ \alpha ^ { ( i ) } \} _ { i = 1 } ^ { k } ) = \sum _ { i = 1 } ^ { k } \mathbf { J } \mathbf { S D } [ { \boldsymbol \alpha } ^ { ( i ) } , { \hat { \alpha } } ] + { \frac { 1 } { k ( k - 1 ) } } \sum _ { i < j } \mathbf { J } \mathbf { S D } [ { \boldsymbol \alpha } ^ { ( i ) } , { \boldsymbol \alpha } ^ { ( j ) } ] 符号解释与分析:

  • 第一项 JSD[α(i),α^]\sum \mathbf{JSD}[\alpha^{(i)}, \hat{\alpha}]: 最大化每个找到的对抗性分布 α(i)\alpha^{(i)} 与原始分布 α^\hat{\alpha} 之间的杰森-香农散度 (Jensen-Shannon Divergence, JSD)。JSD 是衡量两个概率分布差异的指标,值越大差异越大。

  • 第二项 JSD[α(i),α(j)]\sum \mathbf{JSD}[\alpha^{(i)}, \alpha^{(j)}]: 最大化找到的多个对抗性分布之间的 JSD,目的是使它们相互之间也尽可能不同,以寻找多样化的“替代解释”。

  • 约束条件 TVD[...]ϵ\mathrm{TVD}[...] \leq \epsilon: 确保每个对抗性分布产生的预测与原始预测之间的差异不超过一个很小的阈值 ϵ\epsilon(例如 0.01)。

    在实践中,这种带约束的优化问题难以直接求解。作者采用了一种标准技巧,将其转化为一个无约束的松弛优化问题 (relaxed optimization problem),使用梯度下降法(Adam 优化器)求解: maximizef({α(i)}i=1k)λki=1kmax(0,TVD[y^(x,α(i)),y^(x,α^)]ϵ) \text{maximize} \quad f ( \{ \alpha ^ { ( i ) } \} _ { i = 1 } ^ { k } ) - \frac { \lambda } { k } \sum _ { i = 1 } ^ { k } \operatorname* { m a x } ( 0 , \mathrm { T V D } [ \hat { y } ( \mathbf { x } , \alpha ^ { ( i ) } ) , \hat { y } ( \mathbf { x } , \hat { \alpha } ) ] - \epsilon ) 分析:

  • 这里将原始目标函数中的最大化改写为最小化其负数,并将约束条件变成了一个惩罚项 (penalty term)

  • max(0,TVDϵ)\operatorname{max}(0, \text{TVD} - \epsilon):这个惩罚项的含义是,只有当预测差异 TVD 超过了阈值 ϵ\epsilon 时,惩罚项才为正,优化器会努力减小这个差异。如果差异在 ϵ\epsilon 范围内,惩罚项为 0,优化器就只专注于最大化 JSD。λ\lambda 是一个超参数,用于平衡原始目标和惩罚项的权重。

  • 最终,作者报告找到的最大 JSD (max JSD)。如果这个值很大(接近 JSD 的理论上限 0.69),就说明存在与原始解释截然不同但结果等效的“对抗性解释”。


5. 实验设置

5.1. 数据集

为了保证结论的普适性,作者在三大类共计 10 个不同的 NLP 数据集上进行了实验。

以下是原文 Table 1 的完整转录,展示了数据集的统计信息和模型性能:

Dataset |V| Avg. length Train size Test size Test performance (LSTM)
SST 16175 19 3034 / 3321 863 / 862 0.81
IMDB 13916 179 12500 / 12500 2184 / 2172 0.88
ADR Tweets 8686 20 14446 / 1939 3636 / 487 0.61
20 Newsgroups 8853 115 716 / 710 151 / 183 0.94
AG News 14752 36 30000 / 30000 1900 / 1900 0.96
Diabetes (MIMIC) 22316 1858 6381 / 1353 1295 / 319 0.79
Anemia (MIMIC) 19743 2188 1847 / 3251 460 / 802 0.92
CNN 74790 761 380298 3198 0.64
bAbI (Task 1 / 2 / 3) 40 8 / 67 / 421 10000 1000 1.0 / 0.48 / 0.62
SNLI 20982 14 182764 / 183187 / 183416 3219 / 3237 / 3368 0.78

数据集类别与示例:

  • 二元文本分类 (Binary Text Classification):

    • SST: 电影评论情感分类(正/负)。
      • 示例(负面): reggio falls victim to relying on the very digital technology that he fervently scorns creating a meandering inarticulate and ultimately disappointing film
    • IMDB: 电影评论情感分类(正/负),篇幅比 SST 长。
    • Twitter ADR: 推文是否提及药物不良反应 (Adverse Drug Reaction)
    • 20 Newsgroups: 新闻组帖子分类,作者选用 棒球 vs. 曲棍球 的二分类任务。
    • AG News: 新闻文章分类,作者选用 商业 vs. 世界 的二分类任务。
    • MIMIC ICD9: 基于出院小结的医疗任务。Diabetes 任务判断病人是否患有糖尿病;Anemia 任务判断贫血类型是急性还是慢性。这些文档非常长。
  • 问答 (Question Answering - QA):

    • CNN News: 完形填空式问答,答案是文章中的某个实体。
    • bAbI: 一系列合成的、需要简单推理的问答任务。
  • 自然语言推断 (Natural Language Inference - NLI):

    • SNLI: 判断一对句子(前提 premise 和假设 hypothesis)之间的关系是蕴含 (entailment)矛盾 (contradiction) 还是中立 (neutral)
      • 示例(矛盾):
        • Hypothesis: a man is running on foot

        • Premise: a man in a gray shirt and blue shorts is standing outside...

          选择这些多样化的数据集,可以检验结论是否在不同任务类型、文本长度和领域中都成立。

5.2. 评估指标

论文中使用了多个指标来量化实验结果,以下是它们的详细解释。

5.2.1. 肯德尔等级相关系数 (Kendall's Tau, τ\tau)

  1. 概念定义: Kendall's τ\tau 是一种非参数的统计指标,用于衡量两个排序变量之间的一致性。它不关心数值本身的大小,只关心它们的排列顺序。例如,有两个列表 A 和 B,如果 A 中排名靠前的元素在 B 中也排名靠前,则它们具有高的正相关性。在本文中,它被用来衡量“由注意力权重给出的词语重要性排序”与“由梯度法或LOO法给出的词语重要性排序”是否一致。
  2. 数学公式: τ=NcNd12n(n1) \tau = \frac{N_c - N_d}{\frac{1}{2} n(n-1)}
  3. 符号解释:
    • nn: 序列的长度(词语数量)。
    • NcN_c: 一致对 (Concordant Pairs) 的数量。即在两个排序中,任意两个元素对 (xi,yi)(x_i, y_i)(xj,yj)(x_j, y_j),如果 xi>xjx_i > x_jyi>yjy_i > y_j,或者 xi<xjx_i < x_jyi<yjy_i < y_j,则它们是一致的。
    • NdN_d: 不一致对 (Discordant Pairs) 的数量。即如果 xi>xjx_i > x_jyi<yjy_i < y_j,或者 xi<xjx_i < x_jyi>yjy_i > y_j
    • τ\tau 的取值范围是 [1,1][-1, 1]。1 表示完美一致,-1 表示完美相反,0 表示完全不相关。

5.2.2. 总变差距离 (Total Variation Distance, TVD)

  1. 概念定义: TVD 用于衡量两个概率分布之间的差异。它的直观含义是,为了使一个分布变为另一个分布,需要移动的总概率质量的一半。在本文中,它被用来衡量两个模型预测(都是概率分布)之间的差异。
  2. 数学公式: TVD(y^1,y^2)=12i=1Vy^1iy^2i \mathrm{TVD}(\hat{y}_1, \hat{y}_2) = \frac{1}{2} \sum_{i=1}^{|\mathcal{V}|} |\hat{y}_{1i} - \hat{y}_{2i}|
  3. 符号解释:
    • y^1,y^2\hat{y}_1, \hat{y}_2: 两个概率分布(例如,两个模型的预测输出)。
    • V|\mathcal{V}|: 类别总数(例如,对于二分类是 2)。
    • y^1i,y^2i\hat{y}_{1i}, \hat{y}_{2i}: 两个分布在第 ii 个类别上的概率值。
    • TVD 的取值范围是 [0, 1]。0 表示两个分布完全相同,1 表示完全不同。

5.2.3. 杰森-香农散度 (Jensen-Shannon Divergence, JSD)

  1. 概念定义: JSD 也是衡量两个概率分布之间差异的指标。它基于KL 散度 (Kullback-Leibler Divergence),但解决了 KL 散度的两个问题:JSD 是对称的(即 JSD(PQ)=JSD(QP)JSD(P||Q) = JSD(Q||P))并且取值范围是有限的 [0,ln(2)][0, \ln(2)](或以 2 为底的 [0, 1])。在本文中,它被用来衡量两个注意力分布(也是概率分布)之间的差异。
  2. 数学公式: JSD(α1,α2)=12KL(α1α1+α22)+12KL(α2α1+α22) \mathrm{JSD}(\alpha_1, \alpha_2) = \frac{1}{2} \mathrm{KL}\left(\alpha_1 \middle\| \frac{\alpha_1 + \alpha_2}{2}\right) + \frac{1}{2} \mathrm{KL}\left(\alpha_2 \middle\| \frac{\alpha_1 + \alpha_2}{2}\right)
  3. 符号解释:
    • α1,α2\alpha_1, \alpha_2: 两个注意力权重分布。
    • α1+α22\frac{\alpha_1 + \alpha_2}{2}: 两个分布的平均分布。
    • KL(PQ)=iP(i)logP(i)Q(i)\mathrm{KL}(P\|Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}: 从分布 QQ 到分布 PP 的 KL 散度。
    • JSD 的值越大,表示两个注意力分布差异越大。本文中 JSD 的上限约为 0.69(使用自然对数时为 ln(2)\ln(2))。

5.3. 对比基线

本文的实验设计中,“基线”的概念与传统模型性能对比有所不同。

  • 相关性分析中,梯度法留一法作为两种公认的特征重要性评估方法,充当了“参照基线”,用来检验注意力权重的表现。
  • 模型架构层面,作者主要对比了两种不同的编码器:
    • BiLSTM Encoder: 一个复杂的、带有循环结构的模型,是实验的主要对象。

    • Average Encoder: 一个简单的、非循环的模型,它将词嵌入通过一个线性层和一个 ReLU 激活函数,然后直接对其施加注意力。这个简单的模型作为一个“对比基线”,用于探究问题的根源是否在于编码器的复杂性。


6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 注意力与特征重要性的相关性极弱

实验一的核心结果体现在原文的 Table 2Figure 2 中。

以下是原文 Table 2 的完整内容,展示了不同数据集上,注意力权重与梯度重要性 (Gradient) / 留一法重要性 (Leave-One-Out) 之间的 Kendall τ\tau 相关性均值和标准差。

Dataset Class Gradient (BiLSTM) τg Gradient (Average) τg Leave-One-Out (BiLSTM) τloo
Mean ± Std. Sig. Frac. Mean ± Std. Sig. Frac. Mean ± Std. Sig. Frac.
SST 0 0.40 ± 0.21 0.59 0.69 ± 0.15 0.93 0.34 ± 0.20 0.47
1 0.38 ± 0.19 0.58 0.69 ± 0.14 0.94 0.33 ± 0.19 0.47
IMDB 0 0.37 ± 0.07 1.00 0.65 ± 0.05 1.00 0.30 ± 0.07 0.99
1 0.37 ± 0.08 0.99 0.66 ± 0.05 1.00 0.31 ± 0.07 0.98
ADR Tweets 0 0.45 ± 0.17 0.74 0.71 ± 0.13 0.97 0.29 ± 0.19 0.44
1 0.45 ± 0.16 0.77 0.71 ± 0.13 0.97 0.40 ± 0.17 0.69
20News 0 0.08 ± 0.15 0.31 0.65 ± 0.09 0.99 0.05 ± 0.15 0.28
1 0.13 ± 0.16 0.48 0.66 ± 0.09 1.00 0.14 ± 0.14 0.51
AG News 0 0.42 ± 0.11 0.93 0.77 ± 0.08 1.00 0.35 ± 0.13 0.80
1 0.35 ± 0.13 0.81 0.75 ± 0.07 1.00 0.32 ± 0.13 0.73
Diabetes 0 0.47 ± 0.06 1.00 0.68 ± 0.02 1.00 0.44 ± 0.07 1.00
1 0.38 ± 0.08 1.00 0.68 ± 0.02 1.00 0.38 ± 0.08 1.00
Anemia 0 0.42 ± 0.05 1.00 0.81 ± 0.01 1.00 0.42 ± 0.05 1.00
1 0.43 ± 0.06 1.00 0.81 ± 0.01 1.00 0.44 ± 0.06 1.00
CNN Overall 0.20 ± 0.06 0.99 0.48 ± 0.11 1.00 0.16 ± 0.07 0.95
bAbI 1 Overall 0.23 ± 0.19 0.46 0.66 ± 0.17 0.97 0.23 ± 0.18 0.45
bAbI 2 Overall 0.17 ± 0.12 0.57 0.84 ± 0.09 1.00 0.11 ± 0.13 0.40
bAbI 3 Overall 0.30 ± 0.11 0.93 0.76 ± 0.12 1.00 0.31 ± 0.11 0.94
SNLI 0 0.36 ± 0.22 0.46 0.54 ± 0.20 0.76 0.44 ± 0.18 0.60
1 0.42 ± 0.19 0.57 0.59 ± 0.18 0.84 0.43 ± 0.17 0.59
2 0.40 ± 0.20 0.52 0.53 ± 0.19 0.75 0.44 ± 0.17 0.61

分析:

  • BiLSTM 表现差: 对于 BiLSTM 编码器,无论是与梯度法还是留一法比较,Kendall τ\tau 的均值普遍较低,大多在 0.1 到 0.4 之间。这表明注意力权重给出的重要性排序与这两种公认方法给出的排序几乎不相关。在某些数据集上(如 20News),相关性甚至接近于 0。

  • Average Encoder 表现好: 相比之下,对于简单的 Average 编码器,与梯度法的相关性显著提高,大多在 0.6 到 0.8 之间。这说明注意力机制本身并非完全无效,而是当它与复杂的 BiLSTM 编码器结合时,其可解释性就大大降低了。

  • 显著性误导: Sig. Frac. (Significance Fraction) 列表示相关性在统计上显著的样本比例。虽然在很多长文本数据集(如 IMDB, MIMIC)上这个比例接近 100%,但这仅仅是因为样本量(词数)足够大,使得即使很微弱的相关性也能在统计上被检测出来。这并不代表相关性本身很强。

    下图(原文 Figure 2)直观地展示了 BiLSTM 和 Average 编码器在 SST 数据集上的相关性分布。BiLSTM 的直方图(左)集中在 0.4 附近,而 Average 编码器(右)的直方图则明显右移,集中在 0.7 附近,证明了后者的相关性更强。

    Figure 2: Histogram of Kendall \(\\tau\) between attention and gradients. Encoder variants are denoted parenthetically; colors indicate predicted classes. Exhaustive results are available for perusal on… 该图像是论文中图2,展示了不同任务和编码器变体中注意力权重与梯度相关性的Kendall τ值直方图,颜色区分预测类别,展示了注意力机制与特征重要性之间的一致性分布。

6.1.2. 反事实实验揭示注意力的不稳定性

注意力置换 (Attention Permutation)

下图(原文 Figure 6)展示了在随机打乱注意力权重后,模型输出的中位数变化 (Δy^med\Delta \hat{y}^{med}) 与原始最大注意力权重 (max α^\text{max } \hat{\alpha}) 之间的关系。

Figure 6: Median change in output \(\\Delta \\hat { y } ^ { m e d }\) \(\\mathbf { \\bar { X } }\) xi dnsti elation he max atton \(\\operatorname { \\bf ( m a x } \\hat { \\alpha } )\) (y axiobtained by randmy per… 分析:

  • 横轴是模型输出变化的中位数,纵轴是原始注意力的最大值。
  • 我们关注图中的右下角区域。这个区域存在大量数据点,它们代表了“原始注意力非常集中(max α^\hat{\alpha} 很高),但随机打乱权重后预测结果几乎不变(Δy^med\Delta \hat{y}^{med} 很小)”的情况。
  • 这与直觉严重相悖。如果模型真的依赖于那个被高度关注的词,那么当它的高权重被随机分配给其他词时,预测结果理应发生巨大变化。然而事实并非如此。这表明,在很多情况下,模型对注意力的具体分配方案并不敏感。
  • 例外情况: 在 Diabetes (糖尿病) 数据集的正类样本上,这种现象较少。作者推测这是因为该任务中存在一些高精度的指示性词语(如药物名称),移除对它们的关注会显著影响结果。但这恰恰是例外,而非普遍规律。

对抗性注意力 (Adversarial Attention)

下图(原文 Figure 7)展示了在各个数据集上找到的最大对抗性 JSD 的分布。JSD 衡量了对抗性注意力分布与原始分布的差异,其理论上限约为 0.69。

Figure 7: Histogram of maximum adversarial JS Divergence \({ \\bf \\Pi } _ { \\epsilon = \\mathbf { m } \\mathbf { a } \\mathbf { X } }\) JSD) between original and adversarial atnsvet. I wn, \$| \\hat { y } ^… 分析:

  • 在大多数数据集上(如 SST, IMDB, AG News),直方图的质量都集中在右侧,非常接近 0.69 的上限

  • 这说明,对于绝大多数样本,我们都能轻易地找到一个与原始注意力分布截然不同(JSD 极大)的对抗性分布,而它产生的预测结果与原始结果几乎完全相同(差异小于 ϵ\epsilon)。

  • 这一发现是本文最有力的证据之一。它表明,我们展示给用户的那个注意力热力图,可能只是众多能够产生同样结果的“可能解释”中的一个,并且存在其他视觉上完全不同的“等效解释”。因此,将任何单一的注意力热力图作为“唯一”或“真实”的解释是极具误导性的。

    下图(原文 Figure 8)进一步分析了最大注意力权重与可找到的最大 JSD 之间的关系。

    Figure 8: Densities of maximum JS divergences (e-max JSD) \$\\mathbf { \\dot { X } } - \\mathbf { \\dot { X } } - \\mathbf { \\dot { X } } - \\mathbf { \\dot { X } } - \\mathbf { \\dot { X } } = \\mathbf { \\dot… 分析:

  • 直觉上,如果原始注意力非常“尖锐”(即某个词的权重特别高),那么要找到一个差异巨大但结果等效的对抗性注意力应该会更困难(即最大 JSD 会更小)。

  • 图中确实显示出一种微弱的负相关趋势(分布的峰值随着最大注意力的增加而略微下降)。

  • 然而,这种趋势非常微弱。即使在最大注意力权重很高的情况下(y 轴上半部分),我们仍然可以找到 JSD 非常大(接近 0.69)的对抗性分布。这再次证明,即使模型看起来“非常确定地”关注了某个词,也往往存在着其他的可能性。


7. 总结与思考

7.1. 结论总结

这篇论文通过一系列精心设计的实验,对“注意力即解释”这一在 NLP 领域广为流传的观点提出了强有力的挑战。其核心结论可以总结如下:

  1. 注意力与忠实的解释相去甚远: 对于目前广泛使用的、基于循环神经网络(如 BiLSTM)的注意力模型,其产生的注意力权重不应被视为对模型预测行为的忠实解释

  2. 缺乏一致性: 注意力权重与两种公认的特征重要性度量方法(梯度法和留一法)的相关性非常弱且不稳定

  3. 缺乏唯一性: 在绝大多数情况下,都可以通过优化方法找到与原始注意力分布截然不同的对抗性注意力分布,它们能产生几乎完全相同的预测结果。这表明,任何单一的注意力热力图都可能具有误导性。

  4. 问题的根源可能在于编码器: 实验表明,在简单的非循环(前馈)编码器上,注意力的可解释性表现要好得多。这暗示问题可能源于循环网络(RNN)通过其隐藏状态对输入信息进行了复杂的、非线性的混合,使得施加在隐藏状态上的注意力权重难以直接、清晰地映射回原始的输入词元。

    作者最后告诫研究者和实践者,应避免仅仅基于注意力热力图来构建关于模型行为的“想当然的故事” (just-so stories)。

7.2. 局限性与未来工作

论文作者严谨地指出了本研究存在的几个局限性:

  • “真值”解释的缺失: 本文使用的梯度法和留一法本身也并非完美的“黄金标准”解释,它们的解释在非线性网络中也可能很复杂。但作者认为,注意力与多种不同方法的持续不一致性本身就足以引起警惕。

  • 相关性度量的噪声: Kendall τ\tau 相关性可能会受到大量不相关特征(低权重词)的噪声影响。但作者通过对比简单编码器和复杂编码器的表现(前者相关性高得多),反驳了这完全是噪声所致的观点。

  • 研究范围有限: 研究主要集中在带有 BiLSTM 的注意力模型上,并未涵盖所有类型的注意力机制(如 Transformer 中的自注意力)或所有模型架构。同时,研究未涉及序列到序列(seq2seq)任务。

  • 对抗性解释的诠释: 找到对抗性注意力分布证明了原始解释的非唯一性。但存在一种可能性是,这些对抗性分布虽然能产生相同结果,但它们本身在模型的注意力参数下是“极不可能”生成的。此外,一个决策可能存在多个同样合理的解释,这本身也给“解释”的定义带来了复杂性。

    未来工作: 本文的工作极大地激励了后续对更可靠、更具原则性的可解释性方法的研究。作者也提到了几个有前景的方向,例如:

  • 开发天生具有可解释性的注意力变体,如强制稀疏的注意力机制。

  • 将注意力机制与人类提供的标注理由 (human-provided rationales) 相结合进行训练。

7.3. 个人启发与批判

  • 启发:

    1. 批判性思维的重要性: 这篇论文是科学研究中批判性思维的绝佳典范。它没有盲从一个被广泛接受的“常识”,而是通过严谨的实验设计去质疑和验证它。这提醒我们,在科研中,直觉需要被证据检验。
    2. “负面结果”的价值: 这项研究的主要贡献是一个“负面结果”(Attention is not Explanation),但它对社区的健康发展起到了至关重要的积极作用,推动了对模型可解释性更深入、更诚实的探索。
    3. 问题的根源: 论文最重要的洞见在于揭示了模型组件的复杂交互是可解释性的主要障碍。将注意力施加在经过 RNN 复杂混合后的隐藏状态上,再想当然地把这个权重归因于原始输入,这个逻辑链条本身是有问题的。这启发我们在设计可解释模型时,需要考虑整个数据流路径的清晰度。
  • 批判与思考:

    1. “不是解释” vs “不是一个好的解释”: 论文的标题非常有力,但后续的研究(例如,"Attention is not not Explanation")也提出了一些反驳,认为尽管注意力不是一个完全忠实的因果解释,但它在一定程度上仍然可以作为一种有用的启发式线索 (heuristic),指示出模型决策时可能依赖的区域。它可能不是“原因”,但可能是“症状”。

    2. 解释的定义: 这篇论文也引发了关于“什么是一个好的解释”的更深层次的哲学讨论。解释需要是唯一的吗?解释是需要提供充分条件还是必要条件?这些问题并没有简单的答案。

    3. 对 Transformer 的影响: 本文主要关注 RNN。虽然其核心思想对基于 Transformer 的模型(如 BERT)同样具有警示意义,但 Transformer 中的自注意力机制更加复杂(多头、多层),其可解释性问题需要更专门的研究。后续大量工作也确实沿着这个方向展开了探索。

      总而言之,"Attention is not Explanation" 是一篇里程碑式的论文,它不仅揭示了一个具体技术(注意力)在可解释性上的局限,更重要的是,它促进了整个AI社区对模型可解释性问题的审慎态度和更高标准的研究追求。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。