Attention is not not Explanation
TL;DR 精炼摘要
本文反驳“注意力不是解释”观点,提出四种严格实验方法评估注意力机制在RNN中的解释能力,包括均匀权重基线、多次随机方差校准、冻结预训练权重诊断和对抗性训练。结果表明注意力机制仍具备一定可解释性,取决于解释定义及实验设计。
摘要
Attention mechanisms play a central role in NLP systems, especially within recurrent neural network (RNN) models. Recently, there has been increasing interest in whether or not the intermediate representations offered by these modules may be used to explain the reasoning for a model's prediction, and consequently reach insights regarding the model's decision-making process. A recent paper claims that `Attention is not Explanation' (Jain and Wallace, 2019). We challenge many of the assumptions underlying this work, arguing that such a claim depends on one's definition of explanation, and that testing it needs to take into account all elements of the model, using a rigorous experimental design. We propose four alternative tests to determine when/whether attention can be used as explanation: a simple uniform-weights baseline; a variance calibration based on multiple random seed runs; a diagnostic framework using frozen weights from pretrained models; and an end-to-end adversarial attention training protocol. Each allows for meaningful interpretation of attention mechanisms in RNN models. We show that even when reliable adversarial distributions can be found, they don't perform well on the simple diagnostic, indicating that prior work does not disprove the usefulness of attention mechanisms for explainability.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Attention is not not Explanation
论文标题采用了双重否定的形式,直接回应了同期发表的另一篇影响力很大的论文《Attention is not Explanation》(Jain and Wallace, 2019)。这种标题巧妙地表明了本文的核心立场:我们不应该草率地断定注意力机制完全不具备可解释性。它暗示了注意力是否是“解释”这个问题比一个简单的“是”或“否”要复杂得多,需要更严谨的定义和实验设计来探讨。
1.2. 作者
-
Sarah Wiegreffe: 佐治亚理工学院(Georgia Institute of Technology)交互计算学院。
-
Yuval Pinter: 佐治亚理工学院(Georgia Institute of Technology)交互计算学院。
两位作者均来自学术界,专注于自然语言处理(NLP)和机器学习领域的研究。
1.3. 发表期刊/会议
本文发表于 ACL 2019 (Association for Computational Linguistics),这是自然语言处理领域的顶级国际会议,具有极高的学术声誉和影响力。与它所回应的论文《Attention is not Explanation》(发表于 NAACL 2019,ACL 的北美分会)在同一年份发表,形成了一场关于注意力可解释性的直接学术对话。
1.4. 发表年份
2019年
1.5. 摘要
注意力机制在 NLP 系统中,尤其是在循环神经网络(RNN)模型中,扮演着核心角色。近年来,学界越来越关注这些模块提供的中间表征是否可以用来解释模型的预测,并进而洞察模型的决策过程。最近一篇论文声称“注意力不是解释”(Jain and Wallace, 2019)。本文挑战了这项工作背后的许多假设,认为这一论断取决于人们对“解释”的定义,并且对其进行测试需要考虑模型的所有元素,并采用严谨的实验设计。我们提出了四种替代测试来确定注意力何时/是否可以用作解释:一个简单的均匀权重基线;一个基于多种子随机运行的方差校准;一个使用预训练模型冻结权重的诊断框架;以及一个端到端的对抗性注意力训练协议。每种方法都允许对 RNN 模型中的注意力机制进行有意义的解读。我们表明,即使能够找到可靠的对抗性分布,它们在简单的诊断测试中也表现不佳,这表明先前的工作并未否定注意力机制在可解释性方面的作用。
1.6. 原文链接
-
发布状态: 本文为发表于 ACL 2019 的正式论文的预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 在深度学习模型(特别是 NLP 领域的 RNN 和 Transformer 模型)中,注意力(Attention)机制计算出的权重分数,是否能够“忠实地”解释模型为什么会做出某个特定的预测? 例如,在一个情感分类任务中,如果模型将一句评论预测为“正面”,我们能否通过查看注意力权重,找出是哪些词(如“excellent”、“amazing”)导致了这一预测?
-
重要性与挑战:
- 重要性: 如果注意力权重确实能提供可靠的解释,它将成为一个强大的工具,用于模型调试、提升模型鲁棒性、增强用户信任以及确保AI决策的公平性和透明度。
- 挑战 (Gap): Jain 和 Wallace 在 2019 年发表的论文《Attention is not Explanation》对此提出了严重质疑。他们通过实验证明,对于同一个预测结果,可以找到许多与原始注意力分布截然不同的“对抗性”注意力分布,而模型的预测结果几乎不变。他们据此得出结论:既然存在多种可行的“解释”,那么原始的注意力分布就不是唯一的、忠实的解释,因此“注意力不是解释”。
-
本文切入点: 本文作者认为 Jain 和 Wallace 的结论过于绝对,其实验设计存在重大缺陷。具体来说,Jain 和 Wallace 的方法是在模型推理时,将注意力分数从模型中“剥离”出来,独立地为每个样本寻找一个对抗性分布。作者认为这种做法破坏了模型的完整性,因为注意力分数是由模型参数计算出来的,并非可以随意替换的独立单元。一个真正有说服力的对抗性“解释”,必须由一个完整、参数一致的对抗性模型生成,而不是针对单个样本的“即兴创作”。
2.2. 核心贡献/主要发现
本文的核心贡献是对“注意力是否是解释”这一辩论进行了更深入、更严谨的探讨,并提供了一套可操作的评估框架。
-
批判性地分析了先前工作: 深入剖析了《Attention is not Explanation》论文实验设计的两大核心缺陷:
- 模型完整性被破坏: 将注意力分布与其生成参数解耦,使其失去了与模型其他部分的内在联系。
- 自由度过高: 针对每个样本独立寻找对抗性分布,使得找到替代方案变得异常容易,尤其是在输出维度很低(如二分类)而输入序列很长的情况下。
-
提出了四种严谨的替代测试方案: 为了更合理地评估注意力的解释性,本文设计了四个由浅入深的实验:
- 均匀权重基线: 检验注意力对于任务本身是否必要。
- 随机种子方差校准: 建立一个“正常”的注意力分布变化范围,用于衡量对抗性分布的差异是否显著。
- 诊断性 MLP 框架: 测试从复杂模型中提取的注意力权重是否蕴含了可迁移的、与模型无关的“词元重要性”信息。
- 端到端对抗性模型训练: 提出一种模型一致的对抗性训练方法,寻找一个能生成系统性对抗性注意力的完整模型,而非零散的权重。
-
得出了更细致的结论: 实验发现,虽然确实可以训练出生成不同注意力分布的对抗性模型,但:
-
这些“对抗性注意力”的质量远不如原始注意力。在诊断性 MLP 测试中,它们无法有效指导简单模型进行预测,表明它们丢失了关于词元重要性的关键信息。
-
先前工作由于实验设置的自由度过大,严重夸大了找到对抗性注意力的容易程度。
-
最终结论:注意力可能不是唯一的、绝对忠实的解释,但它也绝非毫无意义的噪声。它确实学习到了关于数据和任务的有用信息。注意力是否是“解释”,取决于你对“解释”的定义和需求。
-
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,需要了解以下几个核心概念:
-
循环神经网络 (Recurrent Neural Network, RNN): 一种专门用于处理序列数据(如文本、时间序列)的神经网络。它的核心特点是神经元可以接收来自自身上一时刻的输出作为输入,从而在网络中形成一个“记忆”环路。这使得 RNN 能够捕捉序列中的时间依赖关系。
LSTM (Long Short-Term Memory)是 RNN 的一种高级变体,通过引入“门控机制”来解决标准 RNN 中的梯度消失/爆炸问题,能够更好地学习长距离依赖。 -
注意力机制 (Attention Mechanism): 最初为解决机器翻译中长句子信息瓶颈问题而提出。在处理一个长输入序列时,注意力机制允许模型在生成输出的每一步,动态地决定应该“关注”输入序列的哪些部分。它通过计算一个权重分布(即注意力分数)来实现,权重越高的部分表示模型认为该部分对当前任务越重要。 本文主要讨论的是加性注意力 (Additive Attention),也称为 Bahdanau 注意力,其计算过程大致如下:
-
计算对齐分数 (Alignment Score): 对于输出的某个位置,模型会计算其与输入序列中每个位置的“相关性”或“对齐”程度。这个分数通常由一个小型前馈神经网络计算。
- : 输入序列中第 个词元的隐状态向量。
- : 解码器在生成第 个输出前一刻的隐状态向量。
- : 都是可学习的权重参数。
-
归一化得到注意力权重: 使用
softmax函数将所有对齐分数转换成一个概率分布,即注意力权重 。所有权重之和为 1。 -
计算上下文向量 (Context Vector): 将输入序列的各个隐状态向量按注意力权重进行加权求和,得到一个“上下文向量” ,它浓缩了当前步骤最需要关注的输入信息。 这个上下文向量 随后会与解码器状态结合,用于生成最终的输出。本文讨论的“注意力解释性”,核心就在于这个权重分布 是否能反映真实的重要性。
-
-
可解释性 (Explainability) vs. 可解释性/透明度 (Interpretability/Transparency): 论文在第 5 节中对这些概念进行了区分。
- 透明度 (Transparency): 指人类能够从整体上理解模型的工作原理,或者模型的某个特定部分(如注意力层)对应于一个人类可理解的概念(如“重要性权重”)。
- 可解释性 (Explainability): 通常指对模型为何做出某个具体决策提供一个看似合理 (plausible) 的事后解释或理由。这种解释不一定完全忠实于模型内部的真实计算过程,但能让用户理解和信任。
- 可诠释性 (Interpretability): 一个更严格的要求,指提供一个对模型输入-输出关系的忠实 (faithful) 的、全局性的理解。它要求解释能准确反映模型的决策依据。Jain and Wallace (2019) 寻找的正是这种忠实的解释,并认为注意力不满足这个要求。
3.2. 前人工作
本文的核心对话对象是 Jain and Wallace (2019) 的《Attention is not Explanation》。该论文的主要论点和实验如下:
-
与其它特征重要性方法的相关性低: 他们发现,通过注意力机制得到的词元重要性分数,与通过其他公认的特征重要性方法(如基于梯度的重要性 (gradient-based importance) 和“留一法” (leave-one-out))计算出的分数相关性很低。这表明注意力可能没有捕捉到与其他方法一致的重要性信号。
-
存在对抗性注意力分布: 这是他们的核心论证。他们在一个已经训练好的模型上进行实验,固定所有模型参数。对于测试集中的每一个样本,他们执行一个优化过程,目标是找到一个新的注意力权重向量 ,使得:
-
与模型原始的注意力向量 尽可能不同(例如,詹森-香农散度 (JSD) 最大化)。
-
使用 替换 来计算模型的最终输出,其预测结果与原始预测结果的变化尽可能小。
他们发现,在很多任务上都能轻易找到这样的 。因此他们认为,如果一个与原始“解释”天差地别的“解释”能导致相同的结果,那么原始的“解释”就不是唯一的 (exclusive) 或忠实的 (faithful)。
-
3.3. 技术演进
该领域关于可解释性的研究经历了从简单模型到复杂模型的演进。
- 早期,线性模型(如逻辑回归)的系数被认为是可解释的。
- 随着深度学习“黑箱”模型的兴起,研究者开始探索各种事后解释方法,如 LIME、SHAP、基于梯度的方法等。
- 注意力机制的出现,因其直观的权重形式,被自然而然地视为一种“内置”的解释机制,并被广泛应用于可视化和模型分析中。
- Jain and Wallace (2019) 的工作是对此“自然”假设的第一次系统性质疑,引发了学界的广泛讨论。
- 本文则是在这场辩论中的一次重要回应,它没有全盘否定注意力的价值,而是倡导用更严谨的科学方法来界定其可解释性的边界和条件,推动了研究从“是/否”的二元对立走向“何时/如何”的细致分析。
3.4. 差异化分析
本文与 Jain and Wallace (2019) 的核心区别在于对“对抗性解释”的定义和寻找方法。
| 特征 | Jain and Wallace (2019) 的方法 | 本文 (Wiegreffe & Pinter) 的方法 | 核心差异 |
|---|---|---|---|
| 对抗性分布的来源 | 在一个已固定的模型上,通过优化算法为每个样本独立生成一个对抗性权重向量。 | 训练一个全新的、参数化的对抗性模型,该模型本身就能为所有输入生成对抗性注意力分布。 | 模型一致性:本文的对抗性解释是由一个端到端训练的、参数一致的模型产生的,而前者是脱离模型参数生成的“无根之萍”。 |
| 自由度 | 极高。为每个样本单独优化,没有跨样本的约束。 | 受约束。对抗性模型的所有参数需要在整个训练集上学习,必须找到一个对所有样本都适用的“作弊”策略。 | 本文的方法更接近于证明是否存在另一个同样合理的模型,而不是仅仅证明是否存在另一个权重向量。 |
| 对模型的假设 | 假设注意力权重可以从模型中分离出来,作为独立的变量进行操纵。 | 坚持注意力权重是模型不可分割的一部分,其行为由模型的参数决定。 | 本文的方法更忠实于神经网络的实际工作方式。 |
4. 方法论
本文提出了四种实验方法来系统性地评估注意力的解释能力。这些方法层层递进,从宏观到微观,从简单到复杂。
下图(原文 Figure 1)展示了标准的带注意力机制的 RNN 模型结构,并标注了本文各实验所操纵或替换的部分。
该图像是论文中的示意图,展示了一个带注意力机制的分类LSTM模型结构,包括词嵌入、LSTM层、注意力参数与得分,以及最终的预测得分,反映了各组件的连接关系。
4.1. 方法一:均匀权重基线 (Uniform as the Adversary, §3.2)
-
方法原理: 这是最基础的健全性检查 (sanity check)。如果一个复杂的、需要学习的注意力机制,其性能和一个最简单的“无注意力”(即所有输入同等重要)基线相比没有显著提升,那么这个注意力机制本身对该任务就没有提供实质性帮助。在这种情况下,讨论其是否能提供“解释”就失去了意义。
-
核心方法详解:
- 首先,训练一个标准的带注意力机制的 LSTM 模型,称之为基线模型 (Base Model)。
- 然后,构建一个均匀权重模型 (Uniform Model)。该模型的架构与基线模型完全相同,唯一的区别是它的注意力层被“冻结”了:对于任何长度为 的输入序列,其注意力权重 被强制设置为一个均匀分布,即每个词元的权重都是 。
- 比较这两个模型在测试集上的性能(如 F1 分数)。如果两者性能相近,则说明在该任务上,学习到的注意力分布并没有比简单的平均池化带来更多好处。
4.2. 方法二:多随机种子方差校准 (Variance within a Model, §3.3)
-
方法原理: 深度学习模型的训练过程具有随机性(如权重初始化、数据批次顺序等)。这意味着即使使用完全相同的设置训练两次,得到的模型参数和注意力分布也可能存在差异。在声称某个“对抗性”分布与原始分布“差异巨大”之前,我们必须先了解这种自然的、随机的差异有多大。这为后续比较提供了一个基准。
-
核心方法详解:
- 选择一个固定的模型架构和超参数配置。
- 使用多个不同的随机种子(例如,8个)来初始化和训练该模型,得到多个独立的模型实例。
- 在测试集上,计算这些不同模型实例生成的注意力分布之间的差异(例如,使用 詹森-香农散度 (JSD))。
- 通过这些差异,可以得到一个注意力分布在“正常”训练波动下的变化范围。任何对抗性方法产生的分布差异,都应该与这个“自然方差”进行比较,才能判断其是否真正“异常”。
4.3. 方法三:诊断性 MLP 框架 (Diagnosing Attention Distributions, §3.4)
-
方法原理: 该方法旨在检验注意力权重是否捕捉到了与模型无关 (model-agnostic) 的、可迁移的词元重要性信息。其核心思想是:如果从一个强大的上下文模型(如 LSTM)中学到的注意力权重是真正有意义的,那么即使将它们应用到一个无法感知上下文的简单模型(如 MLP)上,也应该能帮助这个简单模型做出更好的预测。
-
核心方法详解:
-
首先,在一个任务上训练一个标准的 基线 LSTM (Base LSTM) 模型,并保存其在测试集上为每个样本生成的注意力权重。
-
构建一个简单的诊断模型,其结构如下图(原文 Figure 4)所示。这个模型是一个非上下文的多层感知机 (MLP),它独立地为输入序列中的每个词元生成一个分数。
该图像是一幅示意图,展示了来自论文中第3.4节的模型结构。图中从底层的单词嵌入(Embedding)开始,经由仿射变换(Affine)和强加权重(Weights Imposed)层,最终得到预测分数(Prediction Score)。 -
在聚合这些词元分数以进行最终分类时,该诊断模型不学习自己的注意力权重,而是直接使用预先设定好的、冻结的权重。
-
通过使用不同的“指导权重”来训练和评估这个诊断 MLP,可以比较这些权重的“质量”:
- 指导权重 1 (UNIFORM): 使用均匀权重。这是最弱的基线。
- 指导权重 2 (Trained MLP): 让 MLP 自己学习一套注意力权重。这代表了简单模型自身的能力。
- 指导权重 3 (Base LSTM): 使用从基线 LSTM 模型中提取的、预训练好的注意力权重。这是测试的核心。
- 指导权重 4 (ADVERSARY): 使用后续方法(4.4节)生成的对抗性注意力权重。
-
评估逻辑: 如果使用
Base LSTM权重的诊断模型性能显著优于使用Trained MLP和UNIFORM权重的模型,则证明 LSTM 学到的注意力权重确实包含了超越简单模型能力的、有价值的重要性信息。
-
4.4. 方法四:端到端对抗性注意力训练 (Training an Adversary, §4)
-
方法原理: 这是对 Jain and Wallace (2019) 方法的最直接改进。它旨在寻找一个模型一致的 (model-consistent) 对抗性解释。它不再是为每个样本即时生成一个权重向量,而是训练一个完整的、参数化的对抗性模型 。这个模型的目标是在整个数据集上系统性地生成与基线模型 预测相似但注意力分布不同的输出。
-
核心方法详解 (融合讲解):
-
目标定义: 给定一个已经训练好的基线模型 ,我们的目标是训练一个新的对抗性模型 ,使其对于任何输入样本 ,同时满足两个条件:
- 其预测的概率分布 与基线模型的预测 尽可能接近。
- 其生成的注意力分布 与基线模型的注意力分布 尽可能远离。
-
损失函数设计: 为了实现这一双重目标,作者设计了一个特殊的损失函数 ,通过随机梯度下降来优化模型 的参数。对于批次中的每个样本 ,损失函数定义如下: 公式拆解与分析:
- 第一部分:
- 这是总变差距离 (Total Variation Distance, TVD),用于衡量两个预测概率分布的差异。
- 目标: 最小化这一项,使得对抗性模型 的预测结果模仿基线模型 。
- 符号解释:
- : 对抗性模型对样本 的预测概率向量。
- : 基线模型对样本 的预测概率向量。
- 第二部分:
- 这是加权的KL 散度 (Kullback-Leibler Divergence)。KL 散度 衡量从分布 到分布 的差异性,它是不对称的。
- 目标: 我们的目标是最大化两个注意力分布的差异。由于优化器通常是最小化损失函数,所以这里通过在 KL 散度前加上一个负号,将最大化问题转化为了最小化问题。
- 符号解释:
- : 对抗性模型为样本 生成的注意力权重向量。
- : 基线模型为样本 生成的注意力权重向量。
- : 一个正的超参数,用于权衡两个目标的重要性。 越大,模型就越倾向于产生差异大的注意力分布,即使这会牺牲一些预测上的一致性。
- 第一部分:
-
训练过程: 在训练过程中,基线模型 的参数是固定的,仅用于提供目标预测 和目标注意力 。只有对抗性模型 的参数会根据上述损失函数进行更新。通过调整超参数 ,可以探索在不同程度上偏离原始注意力分布时,模型预测性能的变化情况。
-
5. 实验设置
5.1. 数据集
实验采用了六个英文文本分类数据集,涵盖了情感分析、主题分类和临床预测等多种任务。选择这些数据集是为了与 Jain and Wallace (2019) 的工作保持一致,并进行直接比较。
以下是原文 Table 1 的数据统计:
| Dataset | Avg. Length (tokens) | Train Size (neg/pos) | Test Size (neg/pos) |
|---|---|---|---|
| Diabetes | 1858 | 6381/1353 | 1295/319 |
| Anemia | 2188 | 1847/3251 | 460/802 |
| IMDb | 179 | 12500/12500 | 2184/2172 |
| SST | 19 | 3034/3321 | 863/862 |
| AgNews | 36 | 30000/30000 | 1900/1900 |
| 20News | 115 | 716/710 | 151/183 |
- SST (Stanford Sentiment Treebank): 句子级别的情感分析(正面/负面)。
- IMDb (Large Movie Reviews Corpus): 电影评论的情感分析,文本较长。
- 20 Newsgroups: 新闻文章主题分类(实验中简化为棒球 vs. 曲棍球的二分类)。
- AG News: 新闻文章主题分类(实验中简化为世界 vs. 商业的二分类)。
- Diabetes / Anemia (MIMIC-III): 基于 ICU 出院小结的临床预测任务,判断病人是否患有糖尿病或贫血症,文本非常长。
5.2. 评估指标
论文使用了三个主要指标来衡量模型性能和分布差异。
-
F1 Score:
- 概念定义: F1 分数是分类任务中常用的评估指标,它是精确率 (Precision) 和召回率 (Recall) 的调和平均值。它旨在同时平衡模型的查准率(预测为正的样本中有多少是真阳性)和查全率(所有真阳性样本中有多少被成功预测)。在类别不平衡的数据集上,F1 分数通常比准确率更能反映模型的真实性能。本文报告的是正类的 F1 分数。
- 数学公式:
- 符号解释:
TP(True Positives): 真正例,实际为正,预测也为正。FP(False Positives): 假正例,实际为负,预测为正。FN(False Negatives): 假负例,实际为正,预测为负。
-
Total Variation Distance (TVD):
- 概念定义: 总变差距离用于衡量两个概率分布之间的差异。其值域为 [0, 1],0 表示两个分布完全相同,1 表示两个分布支撑集完全不重叠。在本文中,它被用来量化两个模型(如基线模型和对抗性模型)对同一个样本给出的预测概率向量之间的差异。TVD 值越小,说明两个模型的预测结果越相似。
- 数学公式:
- 符号解释:
- : 两个不同的预测概率向量。
- : 类别总数(对于二分类,为2)。
- : 两个向量中对应第 个类的概率值。
-
Jensen-Shannon Divergence (JSD):
- 概念定义: 詹森-香农散度是 KL 散度的一种对称、平滑且有界的变体。它用于衡量两个概率分布的相似性。与 KL 散度不同,JSD 是对称的(即 )且其值总是在一个有限范围内(对于以 2 为底的对数,是 [0, 1];对于自然对数,是 [0, ln(2)] ≈ 0.693)。在本文中,JSD 被用来量化两个注意力分布之间的差异。JSD 值越大,说明两个注意力分布越不相同。
- 数学公式: 其中, 是两个分布的平均分布:
- 符号解释:
- : 两个不同的注意力权重分布向量。
- : 从分布 到分布 的 KL 散度。
5.3. 对比基线
-
基线模型 (Base Model): 一个标准的单层带加性注意力的双向 LSTM (Bi-LSTM) 模型,作为所有比较的出发点。
-
均匀权重模型 (Uniform Model): 在方法一中构建的模型,注意力权重被固定为均匀分布。
-
Jain and Wallace (2019) 的对抗性结果: 作为对比,展示了其“自由度过高”的对抗性方法所能达到的效果。
-
多随机种子模型: 在方法二中训练的多个模型,用于建立自然方差的基准。
6. 实验结果与分析
6.1. 核心结果分析
本文通过四个精心设计的实验,对注意力的可解释性进行了深入剖析。
6.1.1. 方法一:均匀权重基线的结果 (Table 2)
发现:对于某些任务,注意力机制并非必需。
以下是原文 Table 2 的结果,比较了基线模型和均匀权重模型的 F1 分数:
| Dataset | Attention (Base) | Uniform | |
|---|---|---|---|
| Reported | Reproduced | ||
| Diabetes | 0.79 | 0.775 | 0.706 |
| Anemia | 0.92 | 0.938 | 0.899 |
| IMDb | 0.88 | 0.902 | 0.879 |
| SST | 0.81 | 0.831 | 0.822 |
| AgNews | 0.96 | 0.964 | 0.960 |
| 20News | 0.94 | 0.942 | 0.934 |
- 分析:
- 在
Diabetes和Anemia数据集上,使用学习注意力的模型性能明显优于均匀权重模型,说明注意力机制在这些长文本、信噪比低的任务中起到了关键作用。 - 然而,在
AgNews,20News, 和SST数据集上,两者性能差距非常小。这表明这些任务可能过于简单,模型仅通过 Bi-LSTM 的上下文表示就足以做出准确预测,注意力层更像一个简单的聚合器,并未学习到复杂的权重模式。 - 结论: 作者据此明智地将
AgNews和20News排除在后续分析之外,因为在这些任务上讨论注意力的“解释性”是没有意义的——它本身就没起多大作用。
- 在
6.1.2. 方法二:方差校准的结果 (Figure 3)
发现:先前工作发现的“对抗性差异”可能被高估了,因为没有考虑自然随机性。
下图(原文 Figure 3)展示了不同模型之间的注意力分布差异 (JSD)。左侧 (a, b) 是由不同随机种子训练的模型之间的差异,右侧 (c, d, e, f) 是基线模型与对抗性模型之间的差异。
该图像是由六个小提琴图组成的图表,分别展示了IMDB、Anemia、SST和Diabetes数据集在不同随机种子与对抗训练条件下,最大注意力值与JSD散度的关系,体现了注意力机制的稳定性和对抗后的变化情况。
- 分析:
- 观察
Diabetes数据集,图 (d) 显示,仅仅因为随机种子不同,注意力分布的 JSD 就能达到一个较高的水平。这为图 (f) 中 Jain and Wallace 方法找到的“高 JSD”提供了一个重要的参照系:虽然对抗性分布差异更大,但并非是从一个零差异的基准上产生的。 - 相比之下,
SST数据集(图 c)在不同随机种子下表现出惊人的一致性(JSD 值集中在左侧,非常小),说明模型在该任务上学习到的注意力模式非常稳定和鲁棒。
- 观察
6.1.3. 方法三与四:诊断性 MLP 与对抗性训练的结果 (Tables 3 & 4, Figure 5)
这是本文最核心的发现,将方法三和方法四的结果结合分析,可以得出非常有力的结论。
发现 1:模型一致的对抗性注意力的确存在,但寻找它们的难度远高于先前工作的描述。
下图(原文 Figure 5)展示了 JSD (注意力差异) 和 TVD (预测差异) 的权衡曲线。横轴是 JSD,纵轴是 TVD。理想的对抗性攻击是在右下角:JSD 很高(注意力差异大),TVD 很低(预测结果几乎不变)。
该图像是由四个子图组成的图表,展示了SST、IMDB、ANEMIA和DIABETES数据集上不同模型变体的注意力JSD与预测TVD之间的关系,曲线表示随着参数变化的对抗设置表现。
- 分析:
- 虚线代表本文提出的端到端对抗性训练方法。随着超参数 的变化,模型可以在 JSD 和 TVD 之间做出权衡。曲线的凸形表明,在一定程度上,确实可以牺牲一点点预测一致性来换取较大的注意力差异。
+标记代表 Jain and Wallace (2019) 的方法。它远远位于虚线的右下方,意味着它能用极小的预测代价换来巨大的注意力差异。- 关键对比: 这张图直观地证明了本文的论点——Jain and Wallace 的方法由于自由度过高,严重夸大了寻找对抗性注意力的容易程度。本文提出的模型一致的对抗性方法(虚线)所能达到的效果要受限得多。
发现 2:对抗性注意力是“劣质”的解释,它们丢失了原始注意力中的重要信息。
这是通过结合方法三(诊断性 MLP)和方法四(对抗性模型)得到的最强有力的证据。
以下是原文 Table 3 的结果,展示了诊断性 MLP 在不同“指导权重”下的 F1 分数:
| Guide weights | Diab. | Anemia | SST | IMDb |
|---|---|---|---|---|
| UNIFORM | 0.404 | 0.873 | 0.812 | 0.863 |
| Trained MLP | 0.699 | 0.920 | 0.817 | 0.888 |
| Base LSTM | 0.753 | 0.931 | 0.824 | 0.905 |
| ADVERSARY (§4) | 0.503 | 0.932 | 0.592 | 0.700 |
-
分析:
-
Base LSTMvs.Trained MLP/UNIFORM: 在所有数据集上,使用基线 LSTM 的注意力权重作为指导时,诊断性 MLP 的性能都是最优的,甚至优于让 MLP 自己学习权重。这有力地证明了 LSTM 学到的注意力权重包含了有价值的、可迁移的、与模型无关的词元重要性信息。 -
ADVERSARY的惨败: 最关键的结果在最后一行。尽管方法四训练出的对抗性模型本身能很好地模仿基线模型的预测(见 Table 4,F1 分数很高),但它的注意力权重在指导诊断性 MLP 时却表现得一塌糊涂(在 SST 和 IMDb 上性能大幅下降,甚至不如均匀权重)。 -
最终结论: 这表明,对抗性模型虽然学会了“凑”出正确的预测分数,但它采用的是一种“投机取巧”的策略,其注意力机制并没有学到关于词元与任务之间关系的“真正理解”。因此,对抗性注意力分布和原始注意力分布并非“等效的解释”。原始注意力权重因其在诊断任务中的优越表现,而被证明是一种更“有意义”的解释。
下图(原文 Figure 2)提供了一个直观的例子,展示了在 IMDB 任务上,基线模型、本文的对抗性模型和 Jain & Wallace 的对抗性模型给出的注意力热力图。
该图像是论文中的示意图,展示了基线模型、Jain和Wallace(2019)方法及作者对抗模型在同一句子中的注意力分布差异,突出不同方法对词语的权重赋值情况。
-
-
分析:
-
Base: 基线模型将注意力分散在多个带有情感色彩的词上,如 "loved", "enjoyed", "wonderful"。
-
Ours (Adversary): 本文的对抗性模型也关注了部分情感词,但权重分布与基线不同。
-
Jain & Wallace (Adversary): 其对抗性方法将几乎所有权重集中到了一个看似无关的词 "it" 上。这再次说明了其方法的“不自然”之处。
-
7. 总结与思考
7.1. 结论总结
本文对“注意力是否是解释”这一复杂问题给出了一个严谨而细致的回答,核心结论可以总结为以下几点:
-
全盘否定是错误的: 直接断言“注意力不是解释”过于草率。本文通过一系列实验证明,在很多情况下,注意力机制确实学习到了关于词元重要性的有意义、可迁移的知识。
-
解释的质量需要评估: 并非所有注意力分布都具有同等的解释价值。本文发现,通过对抗性训练产生的注意力分布虽然能复现模型的预测,但在更严格的诊断性测试中表现很差,说明它们是“劣质”的、投机取巧的解释。
-
评估方法至关重要: 讨论注意力的可解释性,必须采用严谨、模型一致的实验设计。本文批判了先前工作中存在的缺陷(如破坏模型完整性、自由度过高),并提供了一套更可靠的评估工具箱(均匀基线、方差校准、诊断性 MLP、端到端对抗训练)。
-
视具体情况而定 (It Depends): 注意力是否是“好的”解释,取决于任务的难度、模型的架构,以及使用者对“解释”的定义(是追求看似合理的理由,还是忠实的决策过程还原)。本文倡导研究者使用其提供的工具来对自己的模型进行评估,而不是接受一个笼统的结论。
最终,论文的标题“Attention is not not Explanation”完美地概括了其立场:我们没有理由彻底抛弃注意力作为解释工具,但必须以更批判和严谨的态度来使用和评估它。
7.2. 局限性与未来工作
作者在论文中指出了当前工作的一些局限性,并展望了未来的研究方向:
- 任务扩展: 本文的实验主要集中在文本分类任务上。未来的工作需要将这些分析方法扩展到其他广泛使用注意力的任务,如序列到序列模型 (seq2seq)(机器翻译、摘要生成)、自然语言推理 (NLI) 和问答 (QA)。
- 语言扩展: 所有实验均在英文数据集上进行。将这些发现推广到其他语言,特别是形态和语法结构差异较大的语言,是很有价值的。
- 人类评估: 本文的评估是功能性的 (functionally-grounded),即通过代理任务(如诊断性 MLP)来评估解释的质量。未来的工作应该引入人类评估,直接检验不同注意力解释(原始的 vs. 对抗性的)在多大程度上符合人类的直觉和判断,以及它们对用户信任度的影响。
- 理论分析: 作者希望本文的工作能激励对注意力模型进行更深入的理论分析,从而能够基于数据集和模型属性,从理论上预测注意力在多大程度上可以作为一种有用的解释。
7.3. 个人启发与批判
这篇论文堪称学术辩论的典范,它不仅指出了前人工作的问题,更重要的是提出了建设性的解决方案,推动了整个领域的认知。
-
启发:
- 科学精神的体现: 本文展示了科学研究如何通过批判、反思和更严谨的实验来螺旋式上升。它教会我们在面对一个看似颠覆性的结论时,首先应该审视其背后的假设和方法论是否可靠。
- 方法论的价值: “诊断性 MLP”是一个非常巧妙的设计。它通过构建一个信息受限的简单环境,成功地“萃取”并检验了注意力权重中蕴含的纯粹的、与上下文无关的重要性信息。这种“控制变量+代理任务”的评估思想可以迁移到许多其他的模型可解释性研究中。
- 从“是什么”到“怎么样”: 这篇论文成功地将讨论从“注意力是不是解释”的二元对立,引导到“在什么条件下、多大程度上、以何种方式,注意力可以成为一种有用的解释”的建设性轨道上来。这对于应用领域的从业者来说,提供了更具操作性的指导。
-
批判性思考:
- 对 Transformer 的适用性: 本文的研究对象是基于 RNN/LSTM 的模型。而在 2019 年至今,Transformer 架构已经成为 NLP 领域的主流。Transformer 中的自注意力 (self-attention) 和多头注意力 (multi-head attention) 机制比 RNN 中的注意力更为复杂。虽然本文提出的评估原则(如模型一致性、诊断性测试)很可能同样适用,但需要针对 Transformer 的结构进行专门的实验验证。例如,一个头的注意力分布是“劣质”的,是否可以通过其他头的组合来补偿?这是一个待解的问题。
- “忠实解释”的定义仍然模糊: 尽管本文对“解释”进行了深入讨论,但“忠实的解释”究竟是什么,仍然是一个开放的哲学和技术问题。本文证明了原始注意力比对抗性注意力“更忠实”,但这是一种相对的比较。注意力权重是否以及在多大程度上反映了模型内部真正的因果关系,仍需更深入的研究。
相似论文推荐
基于向量语义检索推荐的相关论文。