论文分享：用于模型解释的对抗不忠学习

本文转载自查看原文 2020-11-25 17:17 434

前言

本文介绍一篇发表在 KDD 2020 的论文《Adversarial Infidelity Learning for Model Interpretation》。该工作提出了一种高效的模型无关的实例特征选择（IFS）方法，其目标在于解决现有IFS方法中存在的完备性（sanity）、组合捷径（combinatorial shortcuts）、模型可识别性（model identifiability）和信息传递（information transmission）四个方面的问题。
为此，这项工作提出了三种策略：将原模型输出作为解释器的额外输入，增加针对于未选中特征的对抗学习机制以辅助学习选中特征与目标的条件概率，将其他高效的解释性方法作为先验实现热启动。该方法在文本数据和图像数据以及时间序列数据的五个基准数据集中的四个都达到了最佳性能，在没有达到最佳精度的数据集上也表现出接近最佳的效果，并且有着最好的鲁棒性。

topic

论文链接：Adversarial Infidelity Learning for Model Interpretation

代码链接：MEED

作者及团队

本文是腾讯发表的一篇文章，一作分别是 Jian Liang, Bing Bai, Yuren Cao, Kun Bai. 其中 Jian Liang是来自阿里巴巴团队的，另外三位都来自腾讯团队。

背景介绍 [1]

模型可解释性

什么是模型可解释性

模型可解释性表达了模型内在机制的透明度以及人类理解模型决策原因的难易程度，主要体现在两个方面：

为什么模型会做出某种决策？对于一个分类任务，当往模型中输入一个样本时会得到一个预测，模型的可解释性帮助我们去确定模型为什么会产生这一预测。更具体地，样本的哪些特征使模型做出了这一预测。
人类能否理解并信任这一决策？对于任何希望模型能预期工作的人而言，模型的解释必须是易于理解的，否则无法轻易信任模型或是对模型进行针对性的调整。

为什么模型需要可解释性

在现实场景中，模型可解释性和模型性能之间往往需要权衡。机器学习模型、深度学习模型的产生是为了解决复杂的显示问题，模型可以学习数据中的潜在模式和关系，这种模式不一定是人类所能理解的。在很多高风险领域如金融、医疗、犯罪领域，最终往往需要使用传统的机器学习模型，因为模型的可解释性对于工作者的实际决策密切相关。模型需要可解释性通常考虑到以下三个原因：

模型改进：理解指标特征、分类、预测，进而理解为什么一个机器学习模型会做出这样的决定、什么特征在决定中起最重要作用，能让我们判断模型是否符合常理。假设一个场景：使用一个深度神经网络来学习区分狼和哈士奇的图像，并获得了90%+的准确率。但仅通过准确率我们无法判断是否模型仅依赖雪地背景就做出判断。如果模型构建者和使用者能知道模型是如何使用特征进行预测的，就能通过直觉判断模型是否使用了有意义的特征，模型是或否能泛化到其他样本的预测上。
模型可信性与透明度：让黑箱模型来决定人们的生活是不现实的，尤其金融、医疗、犯罪领域。模型做出错误决策的代价往往是难以接受的。模型在医疗预测任务中可能非常准确，但是依然需要专家对诊断结果进行解释。可解释性有助于使用者信任和模型来支持他们工作。长久来看，更好地理解机器学习模型可以节省大量时间、防止收入损失。如果一个模型没有做出合理的决定，在应用这个模型并造成不良影响之前就可以发现这一点。
识别或防止偏差：有偏差的模型经常由有偏见的事实导致，如果数据包含微妙的偏差，模型就会学习下来并认为拟合很好。一个例子是犯罪量刑领域，模型可能会学习到包含种族偏见的模式，可解释性可以帮助人们预防偏差的增大甚至是消除不公平的偏差。

现有的工作

现有的模型解释性方法可以按照模型特定或模型不可知能划分为

Model-specific：解释方法依赖于模型的参数和使用的特征，这可以是回归模型的系数、也可以是决策树的规则。
Model-agnostic：解释方法是一种事后的方法，通常通过分析输入和输出对来操作，这些方法无法访问任何模型的内部。

实例特征选择(IFS)

IFS 是什么

IFS全称为Instance-wise Feature Selection，是一种经典的模型不可知（Model-agnostic）的解释方法。该方法会为每个样本生成一个特征重要度的分数，这分数表明了对于某一样本而言哪些特征对产生对应的输出起着至关重要的作用。

现有的工作

Feature attribution methods：特征归因方法可以分为全局方法和局部方法。这类方法通过扰动特征来探究特征的对模型输出的影响。在此我们简单介绍一个经典的局部方法：LIME

LIME方法旨在使用可以被人类所理解的方式来解释模型，即使这不是模型正在使用的分类方式。如图所示，LIME方法取一个样本并对其特征进行扰动，以此得到扰动后的模型预测，然后使用一个可解释的模型去拟合这些扰动样本以得到局部解释。在图中是在这一样本局部拟合出了一个线性模型。
Direct model-interpretation (DMI) methods：DMI方法相较于 Feature attribution methods 更为直接，这类方法直接从样本中选择不固定数量的特征，用这部分选中的特征去近似黑盒模型的输出。本文分享的工作正是对现有DMI方法的改进。

理想的解释应该有什么属性

Expressiveness：这一属性指出能获得高分数的特征的数量应当是较少的。一个直接的理解应该是重要特征和不重要特征间区分度应该较大。
Fidelity：保真度这一属性指出模型的输出应当主要由高分的特征所决定。
Low sensitivity：低敏感这一属性指出生成的特征分数应该是高鲁棒性的，对对抗样本的攻击是不敏感的。
Sanity：这一属性指出生成的特征分数应当取决于被解释的模型。需要注意的是，前面提到的LIME方法中获得的特征分数更多是针对于用于解释的模型而不是针对于需要解释的模型。

问题与动机

问题定义

考虑一个数据集包含有\(n\)个独立的样本，其中第\(i\)个样本记为 \(x^i \in X \subset R^d\)，数据驱动的黑盒模型 \(m \in M\)，模型输出 \(y^i=M(x^i)\in Y \subset R^c\)。IFS问题需要构建一个解释器\(E\)，它的输出是一个特征重要性得分向量 \(z \in Z \subset R^d\)。换言之，解释器需要建立起一个映射 \(E:X\times M \to Z\)，但由于黑盒模型无法直接作为神经网络的输入，因此通常使用替代映射 \(E:X\times Y \to Z\)。

动机

Sanity problem

解释器选中的特征可能是与原模型无关，而仅仅只与输入的样本有关。这意味着选中的特征可能和原模型在预测中真正使用的特征是不一致的。这要求生成的解释具有Sanity这一属性。

Combinatorial shortcuts problem

解释器选中的特征可能并不是良好的特征，解释模型可能将生成的mask作为额外的特征以辅助数据和标签的拟合。举个例子，解释模型可以对每个样本都选择取前半部分或后半部分进行拟合，解释模型将会关注这种模式是否对性能有提升，而不是考虑是否是因为选择了好的向量才使得性能提升。这要求生成的解释需要具有Fidelity这一属性。

Model identifiability problem

解释器可能会产生多种具有相似性能的特征组合，解释器很难确定哪一种组合才是最好的。这要求生成的解释需要具有Expressiveness这一属性。

Information transmission problem

解释器生成特征得分向量的过程是无监督的，因此难以将监督信息传递给解释器，解释器也很难利用好监督信息，因此解释器训练起来难度很大。

解决方案

将原模型输出作为解释器的额外信号

现有的很多方法直接将原样本输入到解释器中，这一过程没有黑盒模型的参与，这往往会产生Sanity Problem。因此该方法将原模型的输出也作为解释器的一个输入，可以加强生成的特征得分向量与原模型间的联系。另外这一策略为解释器提供了额外的信息，这可以解释器能学习到更多的知识，在一定程度上也能减轻Information transmission problem。

关于这一策略的表述有一些疑惑之处，利用其他模型学习到的知识的技术是比较成熟的了，比如知识蒸馏在2016年提出了，数据蒸馏在前两年也提出了。因此SOTA的方法中应该也有应用这一策略的，但是文章中挑选了几个没有使用的用于说明这一策略的优越性，个人认为说服力不够强。

针对于未选中特征的对抗学习机制（AIL）

AIL机制的提出是为了解决combinatorial shortcuts problem和model identifiability problem。简而言之，希望解释器选中的特征组合是足够好且唯一的，而未选中的特征包含的都应该是无用的信息。基于此想法，AIL机制中增加了一个逼近器（Approximator），使用它来拟合未选中特征和模型的输出，解释器的目标是使这个Approximator的精度尽可能小。

基于先验知识的暖启动

解释器的训练本身存在有Information transmission problem，再加入AIL对抗学习机制后由于对抗学习的不稳定性导致模型更难以收敛。为此，论文提出集成其他高效模型的解释和先验用作MEED模型的暖启动，在训练进行到一定程度，可以学到更好的解释器后，先验的约束就会逐渐放宽。

MEED Framework

总体框架

general framework

图中展示了一个MEED怎么为一个特定的数据样本生成IFS解释，即选中最重要的特征。

首先样本输入到解释器后会输出一个mask，通过这个mask可以将特征分为选中和未选中两个部分，二者分别会用来训练一个Approximator以近似模型输出。对于这张图而言，两个Approximator都使用各自的特征以逼近黑盒模型的输出，也就是判断为积极的情感。接着会训练解释器，在这一过程中会加强选中样本的Approximator的逼近效果，并破坏Adversarial Approximator的逼近效果，这使得Adversarial Approximator不管怎么逼近都只能判断为消极的情感。与GAN相同，解释器和逼近器之间是轮流训练的，通过不断迭代最后会获得最终的mask，自然也能知道哪些特征被选中了。

AIL 机制

由于使用了Approximator，因此需要严谨的数学证明逼近是合理且能达到预期的。论文中这一部分的数学推导较多，在这就不逐一分析，只介绍其中AIL机制中部分数学原理。至于AIL的完整推导以及其他策略的理论部分，感兴趣的朋友请自行查看论文的这一章节和附录部分。

互信息

首先简单介绍一下熵和互信息的概念来帮助理解。在信息论中，熵用于衡量随机变量的不确定程度，两个随机变量\(X,Y\)和互信息\(I(X,Y)\)之间的关系如下面公式所示，描述的是已知 \(X\) 后，\(Y\) 减少了多少不确定度。
\(I(X;Y) = H(Y) - H(Y|X)\)

优化问题

在知道理解了互信息这一概念后，就很容易理解论文定义的优化问题：
optimization

\(S\) 意思是select，\(x_S\)是选中的特征，\(x_\bar{S}\)是未选中的特征。定性分析一下，想要最大化这一个式子，意思是希望前半部分尽可能大，后半部分尽可能小。根据刚刚介绍的互信息的概念，这一个优化问题的含义就是：希望能找到一个mask，将特征划分为选中和未选中两组，其中选中的特征使得预测y的不确定度尽可能减少，而未选中特征则对预测y的不确定度的减少没有帮助。简而言之，选中特征包含尽可能多的决策信息，而未选中特征则对预测没有帮助。

损失函数

我们可以通过损失函数来理解AIL机制是怎么运作且为什么有效。\(L_s,L_u\)分别是逼近器\(A_s,A_u\)的逼近（拟合）损失。
loss

如果了解过GAN，相信对这种形式的损失函数一定不陌生，我简单举一个例子，在ACGAN中，鉴别器\(D\)的损失函数是\(\mathop{max}L_c+L_s\)，生成器\(G\)的损失函数是\(\mathop{min}L_c - L_s\)，二者的训练就是一个对抗的过程。

回到MEED，接下来简单描述一下AIL的训练过程:
首先需要固定住解释器\(E\)，对\(A_s\)和\(A_u\)进行训练，这一过程使\(L_s\)和\(L_u\)都尽可能小，这意味着两个逼近器会被拟合得很好。接着固定住\(A_s\)和\(A_u\)，对解释器\(E\)进行训练，这一过程会破坏\(A_u\)的精度使\(L_u\)增大以达到优化目标。这两个过程交替迭代，解释器\(E\)和逼近器\(A_u\)的训练呈现出对抗的局面，这迫使解释器找到一种划分方式使\(A_u\)无论训练都无法很好地逼近。可以理解为解释器\(E\)找到了使未选中特征包含最少的有用信息的划分方式，进而得到了高质量的选中特征。

实验与分析

实验Setting

基线模型

作者将他们提出的方法与多个基线模型进行了比较，其中包含了6个SOTA的 model-agnostic 方法以及2个分别发表在2013年和2017年的 model-specific 方法，它们分别是

Model-agnostic baselines：LIME , kernel SHAP , CXPlain(CXP) , INFD , L2X , VIBI
Model-specific baselines：Gradient (Grad) , Gradient \(\times\) Input (GI)

指标

实验部分主要是基于保真度（Fidelity）进行评估，用于衡量两个值之间的一致性。以下的指标中F都是指Fidelity，根据前文的描述可以得到预期的结果：FS-M和FS-A应该尽可能高，说明黑盒模型的输出依赖于选中的特征，FU-M和FU-A应该尽可能低，说明没有选中的特征对黑盒模型的影响很小。需要注意的是，如果选中特征的数量很少，可能会使 \(A'_s\) 拟合效果不好而 \(A'_u\)拟合得很好，表现为FS-A较低以及FU-A较高。以上提到的四个指标用于验证选中的特征能否很好解释黑盒模型是怎样产生预测的，在此之上可解释性还要求模型产生的解释尽可能让人容易理解，因此引入了FS-H指标。

指标	二者保真度/含义
FS-M (%)	\(M(x)\)和\(M(\widetilde{x}_S)\)
FS-A (%)	\(M(x)\)和\(A'_s(\widetilde{x}_S)\)
FU-M (%)	\(M(x)\)和\(M(\widetilde{x}_\bar{S})\)
FU-A (%)	\(M(x)\)和\(A'_u(\widetilde{x}_\bar{S})\)
FS-H (%)	\(M(x)\)和人类使用\(\widetilde{x}_S\)产生的判断
SEN (%)	对抗样本对特征分数的影响
TPS	每个样本获取预测的平均用时

文本数据（IMDB）

评估结果

imdb metrics

如表中红色方框圈出的，在IMDB数据集上，MEED方法在各指标上都达到了最优的性能，生成解释的用时也相对较快。
除此之外还可以注意到橙色框圈出的两个指标FU-M和FU-A，其他的模型因为没有对抗学习的机制，所以FU-A和FU-M都可以达到较高的点。对于存在对抗学习机制的MEED方法，FU-M和FU-A会互相抑制，均不能达到直接拟合的效果，这说明了解释器E选择了一组合适的特征，未选中的特征是无用的且尽可能被拟合。另外，从表中看其他的baseline均会在四个指标上达到较高的点，但蓝色框圈出的两个模型的FS-M和FS-A都较低，文中没有给出相应解释，这是比较让人疑惑的一个点。
imdb-sample

从实例来看，MEED方法能在减少无倾向词的选择。在(2)(3)(4)实例中划线部分和框柱的部分中也能看出，MEED方法能较为有效地减少歧义词的选择，以帮助解释方法做出正确的判断。

消融研究

ablation

消融研究的结果看出，去除了AIL后FS-M下降，FU-M升高，这说明此时模型生成的解释的质量不高，证明了对抗学习（AIL）机制的有效性。同时也能观察到，使用原模型输出作为额外的监督信息的策略，和使用先验知识进行暖启动的策略并不能对保真度（Fidelity）指标有着显著影响。

完备性（Sanity）检查

论文还使用了一种显著性检测的方法[3]对解释模型进行了完备性检查。其大致操作是将正常的生成的特征分数与数据随机化和黑盒模型参数随机化后生成的特征分数进行对比，二者得到的sanity score分别是9.39%和10.25%。这两个值越低代表着对数据和黑盒模型进行改动后生成的特征分数越不同，这表明这种解释方法是依赖于黑盒模型和数据本身的，解决了现有方法中的Sanity Problem。

暖启动（warm start）

warm start

暖启动的效果如上图所示，虽然这一策略并不能对指标有显著影响，但可以有效地提高训练初期的收敛速度，这也代表着对抗学习中常出现的收敛困难的问题在一定程度得到改善。

图像数据

MNIST to classify 3 and 8

MNIST metrics

在MNIST数据集上，MEED方法虽然不能达到最优的性能，但也能获得次优的效果。除此之外，MEED方法的SEN指标是最低的，这意味着该方法在保证性能的同时兼具良好的鲁棒性。
MNIST samples

论文中给出了3和8预测中选择特征的两个实例，意在说明MEED方法选择的特征歧义相对较小。但就我个人来看，从上图并不能很明显地得出这一结论。

Fashion-MNIST to classify Pullover and Coat

Fashion-MNIST metrics
Fashion-MNIST samples

在Fashion-MNIST数据集上也能得到与MNIST数据集上相似的结论，因此不再赘述。

ImageNet to classify Gorilla and Zebra

ImageNet metrics
ImageNet samples

如表格所示，在ImageNet上，MEED方法达到了最优的性能。除此之外，如给出的实例所示，该方法更多地关注于标签相关的区域，相比VIBI这一基线模型更具可解释性。

时间序列数据

Tencent Honor of Kings gam for teenager recognition

TGD

图中展示了王者荣耀中未成年人（1）和成年人（2）的操作序列数据，以及使用MEED方法选中的特征。MEED方法在该数据集上的指标 FS-M，FU-M，FS-A，FU-A，和 SEN 分别是95.68%，82.24%，95.33%，82.37%，and 0.18%。从指标可以看出MEED方法构建出的预测模型有着很高的性能以及鲁棒性。除此之外，解释模型选中的特征也具有很强的可解释性。对于未成年人而言，选中的特征多集中于游戏前期；对于成年人而言，选中的特征多集中于游戏后期。这对应了游戏中两类人的行为模式，未成年人在游戏初期的操作比较复杂，越往后操作越单调；而成年人在游戏初期显得比较随意，但随着游戏进行，操作变得熟练且复杂。

结论

该工作是在模型可解释性领域内的研究，其提出了一个模型无关的IFS方法。其主要贡献在于提出了三种策略在一定程度上解决了现有IFS方法中存在的四个问题。该工作通过理论和大量实验证明了MEED方法在特征选择上的有效性和通用性，也证明了通过该方法选择的特征具有较高的质量。MEED方法在多种类型的数据集中均达到了SOTA的性能。

收获

AIL借鉴了GAN的对抗的思想，IFS的选择过程本身也可以看作是生成一个feature mask，这种对抗机制可以作用在局部以实现隐式的约束。
在引文注意到一篇发表在NAACL 2019的《Attention is not Explanation》[2]。Attention和IFS表面上看都是一种分配权重的机制，只是二者的目的不同。虽然Attention并不一定具备可解释性，但也许可以结合IFS和Attention的共通之处去指导去建立一个本身就具有可解释性的复杂网络。而不是需要依赖一些黑盒解释方法。用黑盒解释黑盒是需要比较严谨的推导的，没有经过严谨推导的解释模型只能给予有限的信任，一个例子是发表在NIPS 2018的《Sanity Checks for Saliency Maps》[3]就证明了一些广泛使用的saliency method是独立于训练数据和模型，这会导致在某些任务上的失效。

参考资料

[1] https://www.jiqizhixin.com/articles/2019-10-30-9
[2] Sarthak Jain and Byron C Wallace. 2019. Attention is not Explanation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 3543–3556.
[3] Julius Adebayo, Justin Gilmer, Michael Muelly, Ian Goodfellow, Moritz Hardt, and Been Kim. 2018. Sanity checks for saliency maps. In Advances in Neural Information Processing Systems. 9505–9515.

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Defense-GAN——防御对抗样本，本质上就是在用类似编码解码器（论文用了GAN）来进行表征学习，使得算法模型更健壮九、产生和防御对抗样本的新方法 | 分享总结--廖方舟（论文11）对抗性鲁棒性与模型压缩：ICCV2019论文解析【基于模型的强化学习】论文阅读李宏毅2021春机器学习课程笔记——生成对抗模型模型分享用于学习C++音频处理的代码示例深度学习中的对抗攻击和对抗防御深度学习模型可解释性初探 [LIME] [SHAP] 如何解释机器学习模型 tensorflow学习笔记-SavedModel文件解释及TFServing的模型加载、使用