Transformer Interpretability Beyond Attention Visualization

摘要¶

Self-attention 技术，特别是 Transformer（Transformers），正在主导文本处理领域，并且在计算机视觉分类任务中日益流行。为了可视化导致特定分类的图像部分，现有方法要么依赖于获得的注意力投影，要么使用启发式沿着注意力投影的传播。在这项工作中，我们提出了一种为 Transformer 网络计算相关性的新方法。该方法基于深泰勒分解原理分配局部相关性，然后通过层传播这些相关性得分。这种传播涉及注意力层和跳跃连接，这对现有方法构成挑战。我们的解决方案基于一种特定的公式，该公式已显示出能够在各层之间保持总相关性。我们在最新的视觉 Transformer 网络以及文本分类问题上对我们的方法进行了基准测试，并展示了相比现有可解释性方法的明显优势。我们的代码可以在以下链接获得：https://github.com/hilachefer/Transformer-Explainability。

1. 引言¶

目前，在几乎所有自然语言处理（NLP）基准测试中，Transformer 及其衍生方法 [41, 9, 22, 30] 被认为是最先进的方法。这些方法的强大功能已经被应用于语言和视觉领域 [23, 40, 38]。最近，Transformer 在传统的计算机视觉任务中也显示出领先地位，例如对象检测 [4] 和图像识别 [6, 11]。Transformer 网络的重要性使得开发可视化其决策过程的工具变得必要。这种可视化可以帮助调试模型，确保模型的公平和无偏见，并支持下游任务。

Transformer 网络的主要构建块是 Self-attention 层 [29, 7]，它在每两个 tokens 之间分配一对注意力值。在 NLP 中，tokens 通常是一个单词或单词的一部分。在视觉领域，每个 tokens 可以与一个补丁 [11, 4] 相关联。因此，可视化 Transformer 模型的一种常见做法是将这些注意力视为相关性得分 [41, 43, 4]。这通常是针对单个注意力层完成的。另一种选择是结合多个层。简单地对每个 tokens 获得的注意力进行平均，会导致信号模糊，且不考虑层的不同角色：较深的层更具语义性，但每次应用 Self-attention 时，每个 tokens 都会累积额外的上下文。

roll-out 方法 [1] 是一种替代方案，它通过考虑成对注意力并假设注意力在后续上下文中线性组合，重新分配所有注意力得分。该方法似乎改善了单个注意力层的使用结果。然而，正如我们展示的，依靠简单的假设，通常会导致突出无关的 tokens。

在这项工作中，我们遵循分配相关性并传播它的工作线，以便在各层之间保持相关性总和 [27]。尽管已尝试将此类方法应用于 Transformer [42]，但这种应用是部分的，没有在所有层中传播注意力。

Transformer 网络在很大程度上依赖跳过连接和注意力操作符，两者都涉及两个激活图的混合，每个都带来独特的挑战。此外，Transformer 应用的非线性不仅仅是 ReLU，这导致了正负特征的生成。由于非正值，跳过连接会导致，如果不小心处理，数值不稳定。例如，线性回归传播（LRP）[3] 在这些情况下往往会失败。Self-attention 层构成挑战，因为通过这些简单传播不会保持总相关性。

我们通过首先引入一个适用于正负属性的相关性传播规则来处理这些挑战。其次，我们为非参数层（如“add”（例如跳过连接）和矩阵乘法）提供了一个标准化项。第三，我们整合了注意力和相关性得分，并结合了多个注意力块的综合结果。

在计算机视觉中使用的许多可解释性方法在实践中并不是针对特定类别的，即尝试可视化的类别相同，返回相同的可视化，即使是包含多个对象的图像也是如此。尤其是对于将所有方式传播到输入的方法，类别特定的信号通常被图像的突出区域模糊。一些方法通过不传播到较低层 [32] 来避免这种情况，而其他方法通过对比不同类别来强调差异 [15]。我们的方法通过设计提供基于类别的分离，并且就我们所知，它是唯一一种展示这种属性的 Transformer 可视化方法。

可解释性、可理解性和相关性在文献中没有统一定义 [26]。例如，尚不清楚人们是否期望结果图像包含识别对象的所有像素，这将有助于改善下游任务 [21] 并获得有利的人类印象，或识别导致预测标签占主导地位的稀疏图像位置。虽然一些方法提供了清晰的理论框架 [24]，这些方法依赖于特定假设，并且通常不会在实际数据上提升性能。我们的方法是机械性的，并避免了争议性问题。我们的目标是在该领域可接受的基准上提高性能。这一目标通过代表可解释性多种方法的多样化和互补的计算机视觉基准测试实现。

这些基准测试包括在 ImageNet 数据集的子集上的图像分割，以及在 ImageNet 验证集上的正向和负向扰动。在 NLP 中，我们考虑了一个公共的 NLP 可解释性基准测试 [10]。在这个基准测试中，任务是识别被人类标记为导致决策的摘录。

2. 相关工作¶

在计算机视觉中的可解释性：许多方法被提出用于生成热图，这些热图指示给定输入图像和 CNN 的局部相关性。这些方法大多数属于两个类别之一：梯度方法和归因方法。

基于梯度的方法依赖于通过反向传播计算出的每层输入的梯度。梯度通常乘以输入激活，这最初是在梯度 * 输入方法 [34] 中完成的。集成梯度 [39] 也计算输入及其导数的乘积。然而，这种计算是基于平均梯度和输入的线性插值完成的。SmoothGrad[36] 可视化输入的平均梯度，并通过在每次迭代中向输入图像添加随机高斯噪声来进行平滑处理。FullGrad 方法 [37] 通过同时考虑与偏置项的梯度（不仅仅是与输入的），提供了更完整的梯度建模。我们观察到这些方法都是类不可知的：至少在实践中，无论用哪个类来计算梯度，得到的输出都是相似的。

GradCAM 方法 [32] 是一种特定类别的方法，它结合了输入特征和网络层的梯度。作为特定类别的方法，并提供一致的结果，这种方法被下游应用所使用，例如弱监督语义分割 [21]。然而，该方法的计算仅基于最深层的梯度。通过上采样这些低空间分辨率层得到的结果是粗糙的。

第二类方法，归因传播方法，从理论上由深泰勒分解（DTD）框架 [27] 证明。这种方法以递归方式分解网络做出的决策，追溯到前面层次的贡献，一直到网络输入的元素。逐层相关性传播（LRP）方法 [2]，根据 DTD 原理将相关性从预测类别向后传播到输入图像。这假设使用了修正线性单元（ReLU）非线性。由于 Transformer 通常依赖于其他类型的应用，我们的方法必须以不同的方式应用 DTD。归因方法的其他变体包括 RAP[28]、AGF[17]、DeepLIFT[33] 和 DeepSHAP[24]。这些方法的一个缺点是在实践中观察到的类不可知行为 [20]。通过对比 LRP（CLRP）[15] 和 Softmax-Gradient-LRP（SGLRP）[20] 获得特定类别的行为。在这两种情况下，都将要可视化的类的 LRP 传播结果与所有其他类的结果进行对比，以强调差异并产生依赖类别的热图。我们的方法通过构建是特定类别的，而不是通过添加额外的对比阶段。

不属于这两个主要类别的方法包括基于显著性的方法 [8, 35, 25, 48, 45, 47]、激活最大化 [12] 和激励反向传播 [46]。扰动方法 [13, 14] 考虑了对输入进行小改动时网络决策的变化。这些方法直观且适用于黑盒模型（无需检查激活或梯度）。然而，生成热图的过程在计算上是昂贵的。在 Transformer 的背景下，如何正确应用这些方法到离散 tokens，如文本，尚不清楚。Shapley 值方法 [24] 具有坚实的理论基础。然而，这些方法因大量的计算复杂性而遭受困扰，它们的准确性通常不如其他方法。已经提出了几种改进这两个方面的变体 [5]。

可解释性对于 Transformer 来说：在 Transformer 的可视化领域，目前并没有太多的研究成果，正如前文提到的，许多研究工作使用了注意力得分本身。这种做法忽略了大部分注意力组件以及网络中执行其他类型计算的部分。一个 Self-attention 头包括查询、键和值的计算。仅将其简化为获得的注意力得分（查询和键的内积）是目光短浅的。其他层甚至没有被考虑。与此相对的是，我们的方法从决策回溯到输入，通过所有层传播。

基于一个前提，即考虑平均 attention-head 并非最佳，因为每一层中 attention-head 的相关性各不相同 [42]，LRP 被应用于 Transformer。然而，这种做法是有限制的，在这种方式中，没有将相关性得分传播回输入，因此只提供了每个头的部分相关性信息。

我们注意到，相关性得分并没有直接评估，仅用于可视化相对重要性以及修剪不太相关的 attention-head。

基于注意力分配属性的主要挑战在于，注意力从一层到另一层的组合是非线性的。roll-out 方法 [1] 假设注意力是线性组合的，并考虑沿成对注意力投影的路径。我们观察到这种方法经常强调不相关的 tokens，因为即使是平均注意力得分也可以被削弱。该方法还无法区分对决策的正面和负面贡献。没有这种区分，人们可以混合这两者并获得高相关性得分，而这些贡献本应该相互抵消。尽管存在这些缺陷，该方法已经被其他人 [11] 应用，以获得综合注意力投影。

Abnar 等人 [1] 除了 roll-out 方法外，还提出了第二种方法称为注意力流。后者考虑沿成对注意力投影的最大流问题。有时候，与通过应用遮罩或针对输入的梯度获得的相关性得分相比，这种方法的相关性更高。这种方法速度较慢，由于计算原因，我们在实验中没有评估它。

我们注意到这项同时进行的工作 [1] 没有在基准测试上进行评估（无论是 roll-out 还是注意力流），其中相关性的分配方式独立于 BERT[9] 网络，这些方法是为其使用的。它们也没有与除原始注意力得分之外的相关性分配方法进行比较。 3. 方法本方法采用基于 LRP 的相关性计算，为 Transformer 模型每层的每个 attention-head 计算得分 [41]。然后，通过融合相关性和梯度信息，在注意力投影中整合这些得分，以一种迭代移除负贡献的方式。结果是针对 Self-attention 模型的特定类别可视化。

3. 方法¶

该方法使用基于 LRP（Layer-wise Relevance Propagation，逐层相关性传播）的相关性来计算 Transformer 模型中每一层的每个 attention-head 的得分 [41]。然后，通过整合相关性和梯度信息，在注意力投影中整合这些得分，以一种迭代移除负贡献的方式。最终结果是针对 Self-attention 模型的特定类别的可视化。

3.1. 相关性和梯度¶

设 \(C\) 为分类头中的类别数量，\(t \in 1 \ldots |C|\) 为要可视化的类别。我们传播与类别 \(t\) 相关的相关性和梯度，这并不一定是预测的类别。遵循文献中的惯例，我们用 \(x^{(n)}\) 表示第 \(n\) 层 \(L^{(n)}\) 的输入，其中 \(n \in [1 \ldots N]\) 是网络中的层索引，\(N\) 是网络的层数，\(x^{(N)}\) 是网络的输入，\(x^{(1)}\) 是网络的输出。

回忆链式法则，我们传播与分类器输出 \(y\) 在类别 \(t\) 上的梯度，即 \(y_t\)：

\[ \nabla x_j^{(n)} := \frac{\partial y_t}{\partial x_j^{(n)}} = \sum_i \frac{\partial y_t}{\partial x_i^{(n-1)}} \frac{\partial x_i^{(n-1)}}{\partial x_j^{(n)}} \]

其中索引 \(j\) 对应于 \(x^{(n)}\) 中的元素，\(i\) 对应于 \(x^{(n-1)}\) 中的元素。

我们用 \(L^{(n)}(\mathbf{X}, \mathbf{Y})\) 表示层在两个张量 \(\mathbf{X}\) 和 \(\mathbf{Y}\) 上的操作。通常，这两个张量是第 \(n\) 层的输入特征图和权重。相关性传播遵循通用的深泰勒分解 [27]：

\[ \begin{aligned} R_j^{(n)} &= \mathcal{G}\left(\mathbf{X}, \mathbf{Y}, R^{(n-1)}\right) \\ &= \sum_i \mathbf{X}_j \frac{\partial L_i^{(n)}(\mathbf{X}, \mathbf{Y})}{\partial \mathbf{X}_j} \frac{R_i^{(n-1)}}{L_i^{(n)}(\mathbf{X}, \mathbf{Y})}, \end{aligned} \]

其中，与方程 1 类似，索引 \(j\) 对应于 \(R^{(n)}\) 中的元素，\(i\) 对应于 \(R^{(n-1)}\) 中的元素。方程 2 满足守恒规则 [27]，即：

\[ \sum_j R_j^{(n)} = \sum_i R_i^{(n-1)} \]

LRP[2] 假设使用 ReLU 非线性激活，产生非负特征图，其中相关性传播规则可以定义如下：

\[ R_j^{(n)} = \mathcal{G}\left(x^+, w^+, R^{(n-1)}\right) = \sum_i \frac{x_j^+ w_{ji}^+}{\sum_{j'} x_{j'}^+ w_{j'i}^+} R_i^{(n-1)} \]

其中 \(\mathbf{X}=x\) 和 \(\mathbf{Y}=w\) 是层的输入和权重。上标表示操作 \(\max(0, v)\) 为 \(v^+\)。

不同于 ReLU 的其他非线性激活，例如 GELU[18]，会输出正负值。为了解决这一点，方程 4 中的 LRP 传播可以通过构造索引子集 \(q=\left\{(i, j) \mid x_j w_{ji} \geq 0\right\}\) 来修改，从而得到以下相关性传播：

\[ \begin{aligned} R_j^{(n)} &= \mathcal{G}_q\left(x, w, q, R^{(n-1)}\right) \\ &= \sum_{\{i \mid (i, j) \in q\}} \frac{x_j w_{ji}}{\sum_{\{j' \mid (j', i) \in q\}} x_{j'} w_{j'i}} R_i^{(n-1)} \end{aligned} \]

换句话说，我们只考虑具有正加权相关性的元素。

为了初始化相关性传播，我们设置 \(R^{(0)} = \mathbb{1}_t\)，其中 \(\mathbb{1}_t\) 是指示目标类别 \(t\) 的独热向量。

3.2. 非参数相关性传播¶

在 Transformer 模型中，有两种运算涉及两个特征图张量的混合（与特征图和学习张量的混合不同）：跳过连接和矩阵乘法（例如在注意力模块中）。这两种运算都需要通过两个输入张量传播相关性。请注意，在矩阵乘法的情况下，这两个张量可能具有不同的形状。

给定两个张量 \(u\) 和 \(v\)，我们根据以下公式计算这些二元运算符（即处理两个操作数的运算符）的相关性传播：

\[ R_j^{u^{(n)}}=\mathcal{G}\left(u, v, R^{(n-1)}\right), \quad R_k^{v^{(n)}}=\mathcal{G}\left(v, u, R^{(n-1)}\right) \]

其中，\(R_j^{u^{(n)}}\) 和 \(R_k^{v^{(n)}}\) 分别是 \(u\) 和 \(v\) 的相关性。这些操作产生正负值。

以下引理表明，在加法的情况下，守恒规则得到保持，即：

\[ \sum_j R_j^{u^{(n)}} + \sum_k R_k^{v^{(n)}} = \sum_i R_i^{(n-1)} . \]

然而，在矩阵乘法的情况下，情况并非如此。

引理 1：给定两个张量 \(u\) 和 \(v\)，考虑根据方程 6 计算的相关性。然后，(i) 如果层 \(L^{(n)}\) 添加两个张量，即 \(L^{(n)}(u, v) = u + v\)，则维持方程 7 的守恒规则；(ii) 如果该层执行矩阵乘法 \(L^{(n)}(u, v) = uv\)，则方程 7 通常不成立。

证明：(i) 和 (ii) 来自于 \(L^{(n)}\) 关于 \(\mathbf{X}\) 的输出导数。在加法层中，\(u\) 和 \(v\) 相互独立，而在矩阵乘法中，它们是相连的。引理 1 的详细证明可在补充材料中找到。

在传播跳过连接的相关性时，我们遇到数值不稳定性。尽管通过加法运算符的守恒规则，相关性得分的总和是常数，但仍然出现这种情况。其根本原因是由于它们的计算方式（方程 2），相关性得分倾向于获得大的绝对值。考虑以下示例：

\[ \begin{array}{r} u=\binom{e^a}{e^b}, v=\binom{1-e^a}{1-e^b}, \quad R=\binom{1}{1} \\ R^u=\binom{\frac{e^a}{e^a-e^a+1} \cdot 1}{\frac{e^b}{e^b-e^b+1} \cdot 1}=\binom{e^a}{e^b}, \quad R^v=\binom{1-e^a}{1-e^b} \end{array} \]

其中 \(a\) 和 \(b\) 是大的正数。可以验证 \(\sum R^u + \sum R^v = e^a + 1 - e^a + e^b + 1 - e^b = \sum R\)。可以看出，虽然守恒规则得到了保持，但 \(u\) 和 \(v\) 的相关性得分可能会爆炸。有关逐步计算，请参见补充材料。

为了解决由于矩阵乘法导致的注意机制中守恒规则缺失，以及跳过连接的数值问题，我们的方法对 \(R_j^{u^{(n)}}\) 和 \(R_k^{v^{(n)}}\) 应用了归一化：

\[ \begin{aligned} & R_j^{u^{(n)}}=R_j^{u^{(n)}} \frac{\left|\sum_j R_j^{u^{(n)}}\right|}{\left|\sum_j R_j^{u^{(n)}}\right|+\left|\sum_k R_k^{v^{(n)}}\right|} \cdot \frac{\sum_i R_i^{(n-1)}}{\sum_j R_j^{u^{(n)}}} \\ & \bar{R}_k^{v^{(n)}}=R_k^{v^{(n)}} \frac{\left|\sum_k R_k^{v^{(n)}}\right|}{\left|\sum_j R_j^{u^{(n)}}\right|+\left|\sum_k R_k^{v^{(n)}}\right|} \cdot \frac{\sum_i R_i^{(n-1)}}{\sum_k R_k^{v^{(n)}}} \end{aligned} \]

遵循守恒规则（方程 3）和初始相关性，我们获得每层 \(n\) 的 \(\sum_i R_i^{(n)} = 1\)。

以下引理展示了归一化相关性得分的属性。

引理 2：归一化技术维持以下属性：(i) 它保持守恒规则，即：\(\sum_j \bar{R}_j^{u^{(n)}} + \sum_k \bar{R}_k^{v^{(n)}} = \sum_i R_i^{(n-1)}\)；(ii) 它将每个张量的相关性总和限制在以下范围内：

\[ 0 \leq \sum_j R_j^{u^{(n)}}, \sum_k R_k^{v^{(n)}} \leq \sum_i R_i^{(n-1)} \]

证明：见补充材料。

3.3. 相关性和梯度扩散¶

设 \(M\) 为由 \(B\) 个块组成的 Transformer 模型，每个块 \(b\) 由 Self-attention、跳过连接以及一些额外的线性和规范化层按一定组合构成。该模型接受一序列 \(s\) 个维度为 \(d\) 的 tokens 作为输入，其中包括一个专用于分类的特殊 tokens，通常标识为 [CLS] tokens。\(M\) 输出一个长度为 \(C\) 的分类概率向量 \(y\)，该向量通过分类 tokens 计算得出。Self-attention 模块在嵌入维度 \(d\) 的一个小子空间 \(d_h\) 上操作，其中 \(h\) 是“头”的数量，满足 \(h d_h=d\)。Self-attention 模块定义如下：

\[ \begin{aligned} & \mathbf{A}^{(b)}=\operatorname{softmax}\left(\frac{\mathbf{Q}^{(b)} \cdot \mathbf{K}^{(b)^T}}{\sqrt{d_h}}\right) \\ & \mathbf{O}^{(b)}=\mathbf{A}^{(b)} \cdot \mathbf{V}^{(b)} \end{aligned} \]

其中 (.) 表示矩阵乘法，\(\mathbf{O}^{(b)} \in \mathbb{R}^{h \times s \times d_h}\) 是块 \(b\) 中注意力模块的输出，\(\mathbf{Q}^{(b)}, \mathbf{K}^{(b)}, \mathbf{V}^{(b)} \in \mathbb{R}^{h \times s \times d_h}\) 是块 \(b\) 中查询、键和值的输入，即 Self-attention 模块的输入 \(x^{(n)}\) 的不同投影。\(\mathbf{A}^{(b)} \in \mathbb{R}^{h \times s \times s}\) 是块 \(b\) 的注意力投影，其中行 \(i\) 代表输入中每个 tokens 相对于 tokens \(i\) 的注意力系数。方程 11 中的 softmax 应用于使 \(\mathbf{A}^{(b)}\) 中每个 attention-head 的每行之和为一。

根据相关性和梯度的传播程序，每个注意力投影 \(\mathbf{A}^{(b)}\) 具有其梯度 \(\nabla \mathbf{A}^{(b)}\) 和相对于目标类别 \(t\) 的相关性 \(R^{\left(n_b\right)}\)，其中 \(n_b\) 是块 \(b\) 中方程 11 的 softmax 操作对应的层，\(R^{\left(n_b\right)}\) 是该层的相关性。

我们方法的最终输出 \(\mathbf{C} \in \mathbb{R}^{s \times s}\) 由加权注意力相关性定义：

\[ \begin{aligned} \overline{\mathbf{A}}^{(b)} & =I+\mathbb{E}_h\left(\nabla \mathbf{A}^{(b)} \odot R^{\left(n_b\right)}\right)^{+} \\ \mathbf{C} & =\overline{\mathbf{A}}^{(1)} \cdot \overline{\mathbf{A}}^{(2)} \ldots \overline{\mathbf{A}}^{(B)} \end{aligned} \]

其中 \(\odot\) 是哈达玛乘积，\(\mathbb{E}_h\) 是在“头”维度上的平均。为了计算加权注意力相关性，我们只考虑梯度 - 相关性乘积的正值，类似于正相关性。为了考虑 Transformer 块中的跳过连接，我们添加了单位矩阵，以避免每个 tokens 的自我抑制。

为对比，使用相同的符号，roll-out 方法 [1] 定义为：

\[ \begin{aligned} \hat{\mathbf{A}}^{(b)} & =I+\mathbb{E}_h \mathbf{A}^{(b)} \\ \text { rollout } & =\hat{\mathbf{A}}^{(1)} \cdot \hat{\mathbf{A}}^{(2)} \ldots \ldots \hat{\mathbf{A}}^{(B)} \end{aligned} \]

可以观察到，无论要可视化的目标类别如何，roll-out 方法的结果都是给定输入样本固定的。此外，它不考虑任何信号，除了成对的注意力得分。

3.4. 获取图像相关性投影¶

我们方法的结果解释是一个大小为 \(s \times s\) 的矩阵 \(\mathbf{C}\)，其中 \(s\) 代表输入到 Transformer 的序列长度。每行对应于给定其他 tokens 的每个 tokens 的相关性投影——遵循方程 14, 11 中的注意力计算约定。由于这项工作侧重于分类模型，因此只考虑 [CLS] tokens，该 tokens 概括了分类的解释。因此，相关性投影派生自与 [CLS] tokens 对应的行 \(\mathbf{C}_{\text {[CLS] }} \in \mathbb{R}^s\)。此行包含评估每个 tokens 对分类 tokens 影响的分数。

我们只考虑对应于实际输入的 tokens，不包括特殊 tokens，如 [CLS] tokens 和其他分隔符。在视觉模型中，如 ViT[11]，内容 tokens 代表图像块。为了获取最终的相关性投影，我们将序列重塑为块网格大小，例如对于正方形图像，块网格大小为 \(\sqrt{s-1} \times \sqrt{s-1}\)。这张投影通过双线性插值上采样回原始图像的大小。

4. 实验¶

对于语言分类任务，我们使用 BERT-base [9] 模型作为分类器进行实验，假设最多处理 512 个 tokens，并使用一个分类 tokens [CLS] 作为分类头的输入。

对于视觉分类任务，我们使用预训练的 ViT-base [11] 模型进行实验，该模型由一个类似 BERT 的模型组成。输入是所有非重叠的 16×16 大小的输入图像块的序列，经过扁平化和线性层，产生一系列向量。类似于 BERT，一个分类 tokens [CLS] 被添加在序列的开始并用于分类。

基准方法分为三类：注意力投影、相关性和基于梯度的方法。每种方法都有不同的属性和假设，关于架构和网络中信息的传播。为了最好地反映不同基线的性能，我们专注于在可解释性文献中常见且适用于本节报告的广泛测试的方法，例如，基于扰动和 Shapely 的黑盒方法计算成本过高且与所提出的方法本质上不同。我们将在下一节简要描述每个基准方法和每个领域的不同实验。

注意力投影基线包括 roll-out [1]，遵循方程 16，该方法生成一个解释，考虑沿正向传播计算的所有注意力投影。一个更直接的方法是原始注意力，即使用块 1 的注意力投影来提取相关性得分。这些方法本质上是类不可知的。

与基于注意力投影的方法不同，相关性传播方法考虑了整个网络的信息流，而不仅仅是注意力投影。这些基线包括方程 4 和遵循 [42] 的 LRP 的部分应用。正如我们在实验中展示的，LRP 的不同变体在实际上是类不可知的，意味着不同目标类别的可视化大致相同。

一个常见的特定类别解释方法是 Grad-CAM [32]，它计算最后一个卷积层的加权梯度 - 特征图。我们发现应用 GradCAM 的最佳方式是将最后一个注意力层的 [CLS] tokens 视为指定的特征图，而不考虑 [CLS] tokens 本身。我们注意到 Transformer 模型的最后输出（在分类头之前）是一个张量 \(v \in \mathbb{R}^{s \times d}\)，其中第一维与不同的输入 tokens 相关，只有 [CLS] tokens 被送入分类头。因此，在 \(v\) 上执行 Grad-CAM 将导致一个稀疏的梯度张量 \(\nabla v\)，除了 [CLS] tokens，所有 tokens 都为零。

评估设置对于视觉领域，我们遵循报告负面和正面扰动结果的惯例，以及展示分割结果，这可以被视为“指向游戏”[19] 的一般情况。使用的数据集是 ImageNet [31]（ILSVRC）2012 的验证集，包含来自 1000 个类别的 50K 张图片，以及一个名为 ImageNet-Segmentation [16] 的注释子集，包含来自 445 个类别的 4276 张图片。对于语言领域，我们遵循 ERASER [10] 并评估电影评论 [44] 数据集的推理，该数据集包含 1600/200/200 的训练/验证/测试评论。这是一个二元情感分析任务。为 ERASER 中的其他数据集提供问题回答和蕴含任务的解释，这些任务需要超过 512 个 tokens 的输入大小（我们的 BERT 模型的限制），留待未来工作。

正面和负面扰动测试遵循两阶段设置。首先，使用预训练的网络为 ImageNet 的验证集提取可视化。其次，我们逐渐掩盖输入图像的像素，并测量网络的平均 top-1 准确性。在正面扰动中，从最高相关性到最低相关性掩盖像素，而在负面版本中，从最低到最高。在正面扰动中，期望看到性能的急剧下降，这表明被掩盖的像素对分类得分很重要。在负面扰动中，一个好的解释会在移除与类不相关的像素时保持模型的准确性。在这两种情况下，我们测量擦除 10%-90% 像素的曲线下面积（AUC）。

这两种测试可以应用于预测或真实类别。预期特定类别的方法在后一种情况下会提高性能，而类不可知方法在两种测试中都会表现相似。

分割测试将每个可视化视为图像的软分割，并将其与 ImageNet-Segmentation 数据集的真实分割进行比较。性能通过 (i) 像素精度（在每个可视化的平均值阈值之后获得），(ii) 平均交并比（mIoU），以及 (iii) 平均平均精度（mAP，使用软分割得到的阈值不敏感的分数）来衡量。

NLP 基准遵循 ERASER [10] 的评估设置进行理由提取，目标是提取支持（真实）分类的输入部分。首先在电影评论数据集的训练集上对 BERT 模型进行微调，然后将各种评估方法应用于其在测试集上的结果。我们报告了最适合逐 tokens 解释的 tokens -F1 分数（与提取摘录的解释相反）。为了最好地展示每种方法的性能，我们认为一个 tokens 是“理由”的一部分，如果它是前 k 个 tokens 的一部分，并显示 k = 10 . . . 80 的结果，每 10 个 tokens 递增。这样，我们不使用可能有利于某些方法的阈值。

图 3：特定类别的可视化。对于每幅图像，我们展示了两个不同类别的结果。GradCAM 是唯一生成不同投影的方法。然而，其结果并不令人信服。

4.1. 结果¶

定性评估图 2 展示了我们的方法与各种基线方法之间的视觉比较。可以看出，基线方法的性能不一致，而我们的方法则产生了更清晰一致的可视化效果。

为了显示我们的方法是特定类别的，我们在图 3 中展示了带有两个不同类别的对象的图像。可以看到，除了 GradCAM 之外的所有方法对每个类别生成了类似的可视化，而我们的方法提供了两个不同且准确的可视化。

扰动测试表 1 展示了预测类别和目标类别的正负扰动测试所获得的 AUC。可以看出，我们的方法在两种测试中都以较大优势取得了更好的性能。值得注意的是，由于 roll-out 和原始注意力在给定输入图像的情况下产生恒定的可视化，我们在目标类别测试中省略了它们的分数。

分割在 ImageNet-segmentation 上的分割指标（像素精度、mAP 和 mIoU）在表 2 中显示。可以看出，我们的方法显著超过所有基线。

语言推理图 4 描绘了电影评论“理由”实验的性能，评估从 10 到 80 不等的 top\(\mathrm{K}\) tokens。可以看出，尽管所有方法都受益于增加 tokens 数量，但我们的方法始终优于基线。有关获得的可视化的描述，请参阅补充材料。

消融研究。我们考虑了我们方法的三个变体，并展示了它们在分割和预测类别扰动实验中的表现。(i) Ours w/o \(\nabla \mathrm{A}^{(b)}\)，修改方程 13，使用 \(\mathrm{A}^{(b)}\) 代替 \(\nabla \mathrm{A}^{(b)}\)，(ii) \(\nabla \mathbf{A}^{(1)} \mathbf{R}^{\left(n_1\right)}\)，即在方程 14 中忽略 roll-out，只在最接近输出的块 1 上使用我们的方法，以及 (iii) \(\nabla \mathbf{A}^{(B-1)} \mathbf{R}^{\left(n_{B-1}\right)}\)，类似于 (ii)，只是对于更接近输入的块 \(B-1\)。

如表 3 所示，消融 \(\nabla \mathbf{A}^{(1)} \mathbf{R}^{\left(n_1\right)}\) 中移除了 roll-out 组件，即方程 14，同时保留相关性和梯度整合，并且只考虑最后的注意力层，导致性能略有下降。在两个单一块可视化 ((ii) 和 (iii)) 中，距离输出最近的 \(b=1\) 块的注意力梯度和相关性结合比接近输入的块更具信息量。这也是用于原始注意力、部分 LRP 和 GradCAM 方法的同一个块。仅考虑这一块的消融超过了这些方法，表明我们方法的优势主要来源于我们计算的相关性与注意力投影梯度的结合。