論文分享:用於模型解釋的對抗不忠學習


前言

本文介紹一篇發表在 KDD 2020 的論文《Adversarial Infidelity Learning for Model Interpretation》。該工作提出了一種高效的模型無關的實例特征選擇(IFS)方法,其目標在於解決現有IFS方法中存在的 完備性(sanity)、組合捷徑(combinatorial shortcuts)、模型可識別性(model identifiability)和信息傳遞(information transmission)四個方面的問題。
為此,這項工作提出了三種策略:將原模型輸出作為解釋器的額外輸入,增加針對於未選中特征的對抗學習機制以輔助學習選中特征與目標的條件概率,將其他高效的解釋性方法作為先驗實現熱啟動。該方法在文本數據和圖像數據以及時間序列數據的五個基准數據集中的四個都達到了最佳性能,在沒有達到最佳精度的數據集上也表現出接近最佳的效果,並且有着最好的魯棒性。

topic

論文鏈接:Adversarial Infidelity Learning for Model Interpretation
代碼鏈接:MEED

作者及團隊

本文是騰訊發表的一篇文章,一作分別是 Jian Liang, Bing Bai, Yuren Cao, Kun Bai. 其中 Jian Liang是來自阿里巴巴團隊的,另外三位都來自騰訊團隊。

背景介紹 [1]

模型可解釋性

什么是模型可解釋性

模型可解釋性表達了模型內在機制的透明度以及人類理解模型決策原因的難易程度,主要體現在兩個方面:

  • 為什么模型會做出某種決策?對於一個分類任務,當往模型中輸入一個樣本時會得到一個預測,模型的可解釋性幫助我們去確定模型為什么會產生這一預測。更具體地,樣本的哪些特征使模型做出了這一預測。
  • 人類能否理解並信任這一決策?對於任何希望模型能預期工作的人而言,模型的解釋必須是易於理解的,否則無法輕易信任模型或是對模型進行針對性的調整。

為什么模型需要可解釋性

在現實場景中,模型可解釋性和模型性能之間往往需要權衡。機器學習模型、深度學習模型的產生是為了解決復雜的顯示問題,模型可以學習數據中的潛在模式和關系,這種模式不一定是人類所能理解的。在很多高風險領域如金融、醫療、犯罪領域,最終往往需要使用傳統的機器學習模型,因為模型的可解釋性對於工作者的實際決策密切相關。模型需要可解釋性通常考慮到以下三個原因:

  • 模型改進:理解指標特征、分類、預測,進而理解為什么一個機器學習模型會做出這樣的決定、什么特征在決定中起最重要作用,能讓我們判斷模型是否符合常理。假設一個場景:使用一個深度神經網絡來學習區分狼和哈士奇的圖像,並獲得了90%+的准確率。但僅通過准確率我們無法判斷是否模型僅依賴雪地背景就做出判斷。如果模型構建者和使用者能知道模型是如何使用特征進行預測的,就能通過直覺判斷模型是否使用了有意義的特征,模型是或否能泛化到其他樣本的預測上。
  • 模型可信性與透明度:讓黑箱模型來決定人們的生活是不現實的,尤其金融、醫療、犯罪領域。模型做出錯誤決策的代價往往是難以接受的。模型在醫療預測任務中可能非常准確,但是依然需要專家對診斷結果進行解釋。可解釋性有助於使用者信任和模型來支持他們工作。長久來看,更好地理解機器學習模型可以節省大量時間、防止收入損失。如果一個模型沒有做出合理的決定,在應用這個模型並造成不良影響之前就可以發現這一點。
  • 識別或防止偏差:有偏差的模型經常由有偏見的事實導致,如果數據包含微妙的偏差,模型就會學習下來並認為擬合很好。一個例子是犯罪量刑領域,模型可能會學習到包含種族偏見的模式,可解釋性可以幫助人們預防偏差的增大甚至是消除不公平的偏差。

現有的工作

現有的模型解釋性方法可以按照模型特定或模型不可知能划分為

  • Model-specific:解釋方法依賴於模型的參數和使用的特征,這可以是回歸模型的系數、也可以是決策樹的規則。
  • Model-agnostic:解釋方法是一種事后的方法,通常通過分析輸入和輸出對來操作,這些方法無法訪問任何模型的內部。

實例特征選擇(IFS)

IFS 是什么

IFS全稱為Instance-wise Feature Selection,是一種經典的模型不可知(Model-agnostic)的解釋方法。該方法會為每個樣本生成一個特征重要度的分數,這分數表明了對於某一樣本而言哪些特征對產生對應的輸出起着至關重要的作用。

現有的工作

  • Feature attribution methods:特征歸因方法可以分為全局方法和局部方法。這類方法通過擾動特征來探究特征的對模型輸出的影響。在此我們簡單介紹一個經典的局部方法:LIME

    LIME

    LIME方法旨在使用可以被人類所理解的方式來解釋模型,即使這不是模型正在使用的分類方式。如圖所示,LIME方法取一個樣本並對其特征進行擾動,以此得到擾動后的模型預測,然后使用一個可解釋的模型去擬合這些擾動樣本以得到局部解釋。在圖中是在這一樣本局部擬合出了一個線性模型。

  • Direct model-interpretation (DMI) methods:DMI方法相較於 Feature attribution methods 更為直接,這類方法直接從樣本中選擇不固定數量的特征,用這部分選中的特征去近似黑盒模型的輸出。本文分享的工作正是對現有DMI方法的改進。

理想的解釋應該有什么屬性

  • Expressiveness:這一屬性指出能獲得高分數的特征的數量應當是較少的。一個直接的理解應該是重要特征和不重要特征間區分度應該較大。
  • Fidelity:保真度這一屬性指出模型的輸出應當主要由高分的特征所決定。
  • Low sensitivity:低敏感這一屬性指出生成的特征分數應該是高魯棒性的,對對抗樣本的攻擊是不敏感的。
  • Sanity:這一屬性指出生成的特征分數應當取決於被解釋的模型。需要注意的是,前面提到的LIME方法中獲得的特征分數更多是針對於用於解釋的模型而不是針對於需要解釋的模型。

問題與動機

問題定義

考慮一個數據集包含有\(n\)個獨立的樣本,其中第\(i\)個樣本記為 \(x^i \in X \subset R^d\),數據驅動的黑盒模型 \(m \in M\),模型輸出 \(y^i=M(x^i)\in Y \subset R^c\)。IFS問題需要構建一個解釋器\(E\),它的輸出是一個特征重要性得分向量 \(z \in Z \subset R^d\)。換言之,解釋器需要建立起一個映射 \(E:X\times M \to Z\),但由於黑盒模型無法直接作為神經網絡的輸入,因此通常使用替代映射 \(E:X\times Y \to Z\)

動機

Sanity problem

解釋器選中的特征可能是與原模型無關,而僅僅只與輸入的樣本有關。這意味着選中的特征可能和原模型在預測中真正使用的特征是不一致的。這要求生成的解釋具有Sanity這一屬性。

Combinatorial shortcuts problem

解釋器選中的特征可能並不是良好的特征,解釋模型可能將生成的mask作為額外的特征以輔助數據和標簽的擬合。舉個例子,解釋模型可以對每個樣本都選擇取前半部分或后半部分進行擬合,解釋模型將會關注這種模式是否對性能有提升,而不是考慮是否是因為選擇了好的向量才使得性能提升。這要求生成的解釋需要具有Fidelity這一屬性。

Model identifiability problem

解釋器可能會產生多種具有相似性能的特征組合,解釋器很難確定哪一種組合才是最好的。這要求生成的解釋需要具有Expressiveness這一屬性。

Information transmission problem

解釋器生成特征得分向量的過程是無監督的,因此難以將監督信息傳遞給解釋器,解釋器也很難利用好監督信息,因此解釋器訓練起來難度很大。

解決方案

將原模型輸出作為解釋器的額外信號

現有的很多方法直接將原樣本輸入到解釋器中,這一過程沒有黑盒模型的參與,這往往會產生Sanity Problem。因此該方法將原模型的輸出也作為解釋器的一個輸入,可以加強生成的特征得分向量與原模型間的聯系。另外這一策略為解釋器提供了額外的信息,這可以解釋器能學習到更多的知識,在一定程度上也能減輕Information transmission problem。

關於這一策略的表述有一些疑惑之處,利用其他模型學習到的知識的技術是比較成熟的了,比如知識蒸餾在2016年提出了,數據蒸餾在前兩年也提出了。因此SOTA的方法中應該也有應用這一策略的,但是文章中挑選了幾個沒有使用的用於說明這一策略的優越性,個人認為說服力不夠強。

針對於未選中特征的對抗學習機制(AIL)

AIL機制的提出是為了解決combinatorial shortcuts problem和model identifiability problem。簡而言之,希望解釋器選中的特征組合是足夠好且唯一的,而未選中的特征包含的都應該是無用的信息。基於此想法,AIL機制中增加了一個逼近器(Approximator),使用它來擬合未選中特征和模型的輸出,解釋器的目標是使這個Approximator的精度盡可能小。

基於先驗知識的暖啟動

解釋器的訓練本身存在有Information transmission problem,再加入AIL對抗學習機制后由於對抗學習的不穩定性導致模型更難以收斂。為此,論文提出集成其他高效模型的解釋和先驗用作MEED模型的暖啟動,在訓練進行到一定程度,可以學到更好的解釋器后,先驗的約束就會逐漸放寬。

MEED Framework

總體框架

general framework

圖中展示了一個MEED怎么為一個特定的數據樣本生成IFS解釋,即選中最重要的特征。

首先樣本輸入到解釋器后會輸出一個mask,通過這個mask可以將特征分為選中和未選中兩個部分,二者分別會用來訓練一個Approximator以近似模型輸出。對於這張圖而言,兩個Approximator都使用各自的特征以逼近黑盒模型的輸出,也就是判斷為積極的情感。接着會訓練解釋器,在這一過程中會加強選中樣本的Approximator的逼近效果,並破壞Adversarial Approximator的逼近效果,這使得Adversarial Approximator不管怎么逼近都只能判斷為消極的情感。與GAN相同,解釋器和逼近器之間是輪流訓練的,通過不斷迭代最后會獲得最終的mask,自然也能知道哪些特征被選中了。

AIL 機制

由於使用了Approximator,因此需要嚴謹的數學證明逼近是合理且能達到預期的。論文中這一部分的數學推導較多,在這就不逐一分析,只介紹其中AIL機制中部分數學原理。至於AIL的完整推導以及其他策略的理論部分,感興趣的朋友請自行查看論文的這一章節和附錄部分。

互信息

首先簡單介紹一下熵和互信息的概念來幫助理解。在信息論中,熵用於衡量隨機變量的不確定程度,兩個隨機變量\(X,Y\)和互信息\(I(X,Y)\)之間的關系如下面公式所示,描述的是已知 \(X\) 后 ,\(Y\) 減少了多少不確定度。
\(I(X;Y) = H(Y) - H(Y|X)\)

優化問題

在知道理解了互信息這一概念后,就很容易理解論文定義的優化問題:
optimization

\(S\) 意思是select,\(x_S\)是選中的特征,\(x_\bar{S}\)是未選中的特征。定性分析一下,想要最大化這一個式子,意思是希望前半部分盡可能大,后半部分盡可能小。根據剛剛介紹的互信息的概念,這一個優化問題的含義就是:希望能找到一個mask,將特征划分為選中和未選中兩組,其中選中的特征使得預測y的不確定度盡可能減少,而未選中特征則對預測y的不確定度的減少沒有幫助。簡而言之,選中特征包含盡可能多的決策信息,而未選中特征則對預測沒有幫助。

損失函數

我們可以通過損失函數來理解AIL機制是怎么運作且為什么有效。\(L_s,L_u\)分別是逼近器\(A_s,A_u\)的逼近(擬合)損失。
loss

如果了解過GAN,相信對這種形式的損失函數一定不陌生,我簡單舉一個例子,在ACGAN中,鑒別器\(D\)的損失函數是\(\mathop{max}L_c+L_s\),生成器\(G\)的損失函數是\(\mathop{min}L_c - L_s\),二者的訓練就是一個對抗的過程。

回到MEED,接下來簡單描述一下AIL的訓練過程:
首先需要固定住解釋器\(E\),對\(A_s\)\(A_u\)進行訓練,這一過程使\(L_s\)\(L_u\)都盡可能小,這意味着兩個逼近器會被擬合得很好。接着固定住\(A_s\)\(A_u\),對解釋器\(E\)進行訓練,這一過程會破壞\(A_u\)的精度使\(L_u\)增大以達到優化目標。這兩個過程交替迭代,解釋器\(E\)和逼近器\(A_u\)的訓練呈現出對抗的局面,這迫使解釋器找到一種划分方式使\(A_u\)無論訓練都無法很好地逼近。可以理解為解釋器\(E\)找到了使未選中特征包含最少的有用信息的划分方式,進而得到了高質量的選中特征。

實驗與分析

實驗Setting

基線模型

作者將他們提出的方法與多個基線模型進行了比較,其中包含了6個SOTA的 model-agnostic 方法以及2個分別發表在2013年和2017年的 model-specific 方法,它們分別是

  • Model-agnostic baselines:LIME , kernel SHAP , CXPlain(CXP) , INFD , L2X , VIBI
  • Model-specific baselines:Gradient (Grad) , Gradient \(\times\) Input (GI)

指標

實驗部分主要是基於保真度(Fidelity)進行評估,用於衡量兩個值之間的一致性。以下的指標中F都是指Fidelity,根據前文的描述可以得到預期的結果:FS-M和FS-A應該盡可能高,說明黑盒模型的輸出依賴於選中的特征,FU-M和FU-A應該盡可能低,說明沒有選中的特征對黑盒模型的影響很小。需要注意的是,如果選中特征的數量很少,可能會使 \(A'_s\) 擬合效果不好而 \(A'_u\)擬合得很好,表現為FS-A較低以及FU-A較高。以上提到的四個指標用於驗證選中的特征能否很好解釋黑盒模型是怎樣產生預測的,在此之上可解釋性還要求模型產生的解釋盡可能讓人容易理解,因此引入了FS-H指標。

指標 二者保真度/含義
FS-M (%) \(M(x)\)\(M(\widetilde{x}_S)\)
FS-A (%) \(M(x)\)\(A'_s(\widetilde{x}_S)\)
FU-M (%) \(M(x)\)\(M(\widetilde{x}_\bar{S})\)
FU-A (%) \(M(x)\)\(A'_u(\widetilde{x}_\bar{S})\)
FS-H (%) \(M(x)\)和人類使用\(\widetilde{x}_S\)產生的判斷
SEN (%) 對抗樣本對特征分數的影響
TPS 每個樣本獲取預測的平均用時

文本數據(IMDB)

評估結果

imdb metrics

如表中紅色方框圈出的,在IMDB數據集上,MEED方法在各指標上都達到了最優的性能,生成解釋的用時也相對較快。
除此之外還可以注意到橙色框圈出的兩個指標FU-M和FU-A,其他的模型因為沒有對抗學習的機制,所以FU-A和FU-M都可以達到較高的點。對於存在對抗學習機制的MEED方法,FU-M和FU-A會互相抑制,均不能達到直接擬合的效果,這說明了解釋器E選擇了一組合適的特征,未選中的特征是無用的且盡可能被擬合。另外,從表中看其他的baseline均會在四個指標上達到較高的點,但藍色框圈出的兩個模型的FS-M和FS-A都較低,文中沒有給出相應解釋,這是比較讓人疑惑的一個點。
imdb-sample

從實例來看,MEED方法能在減少無傾向詞的選擇。在(2)(3)(4)實例中划線部分和框柱的部分中也能看出,MEED方法能較為有效地減少歧義詞的選擇,以幫助解釋方法做出正確的判斷。

消融研究

ablation

消融研究的結果看出,去除了AIL后FS-M下降,FU-M升高,這說明此時模型生成的解釋的質量不高,證明了對抗學習(AIL)機制的有效性。同時也能觀察到,使用原模型輸出作為額外的監督信息的策略,和使用先驗知識進行暖啟動的策略並不能對保真度(Fidelity)指標有着顯著影響。

完備性(Sanity)檢查

論文還使用了一種顯著性檢測的方法[3]對解釋模型進行了完備性檢查。其大致操作是將正常的生成的特征分數與數據隨機化和黑盒模型參數隨機化后生成的特征分數進行對比,二者得到的sanity score分別是9.39%和10.25%。這兩個值越低代表着對數據和黑盒模型進行改動后生成的特征分數越不同,這表明這種解釋方法是依賴於黑盒模型和數據本身的,解決了現有方法中的Sanity Problem。

暖啟動(warm start)

warm start

暖啟動的效果如上圖所示,雖然這一策略並不能對指標有顯著影響,但可以有效地提高訓練初期的收斂速度,這也代表着對抗學習中常出現的收斂困難的問題在一定程度得到改善。

圖像數據

MNIST to classify 3 and 8

MNIST metrics

在MNIST數據集上,MEED方法雖然不能達到最優的性能,但也能獲得次優的效果。除此之外,MEED方法的SEN指標是最低的,這意味着該方法在保證性能的同時兼具良好的魯棒性。
MNIST samples

論文中給出了3和8預測中選擇特征的兩個實例,意在說明MEED方法選擇的特征歧義相對較小。但就我個人來看,從上圖並不能很明顯地得出這一結論。

Fashion-MNIST to classify Pullover and Coat

Fashion-MNIST metrics
Fashion-MNIST samples

在Fashion-MNIST數據集上也能得到與MNIST數據集上相似的結論,因此不再贅述。

ImageNet to classify Gorilla and Zebra

ImageNet metrics
ImageNet samples

如表格所示,在ImageNet上,MEED方法達到了最優的性能。除此之外,如給出的實例所示,該方法更多地關注於標簽相關的區域,相比VIBI這一基線模型更具可解釋性。

時間序列數據

Tencent Honor of Kings gam for teenager recognition

TGD

圖中展示了王者榮耀中未成年人(1)和成年人(2)的操作序列數據,以及使用MEED方法選中的特征。MEED方法在該數據集上的指標 FS-M,FU-M,FS-A,FU-A, 和 SEN 分別是95.68%,82.24%,95.33%,82.37%,and 0.18%。從指標可以看出MEED方法構建出的預測模型有着很高的性能以及魯棒性。除此之外,解釋模型選中的特征也具有很強的可解釋性。對於未成年人而言,選中的特征多集中於游戲前期;對於成年人而言,選中的特征多集中於游戲后期。這對應了游戲中兩類人的行為模式,未成年人在游戲初期的操作比較復雜,越往后操作越單調;而成年人在游戲初期顯得比較隨意,但隨着游戲進行,操作變得熟練且復雜。

結論

該工作是在模型可解釋性領域內的研究,其提出了一個模型無關的IFS方法。其主要貢獻在於提出了三種策略在一定程度上解決了現有IFS方法中存在的四個問題。該工作通過理論和大量實驗證明了MEED方法在特征選擇上的有效性和通用性,也證明了通過該方法選擇的特征具有較高的質量。MEED方法在多種類型的數據集中均達到了SOTA的性能。

收獲

  1. AIL借鑒了GAN的對抗的思想,IFS的選擇過程本身也可以看作是生成一個feature mask,這種對抗機制可以作用在局部以實現隱式的約束。
  2. 在引文注意到一篇發表在NAACL 2019的《Attention is not Explanation》[2]。Attention和IFS表面上看都是一種分配權重的機制,只是二者的目的不同。雖然Attention並不一定具備可解釋性,但也許可以結合IFS和Attention的共通之處去指導去建立一個本身就具有可解釋性的復雜網絡。而不是需要依賴一些黑盒解釋方法。用黑盒解釋黑盒是需要比較嚴謹的推導的,沒有經過嚴謹推導的解釋模型只能給予有限的信任,一個例子是發表在NIPS 2018的《Sanity Checks for Saliency Maps》[3]就證明了一些廣泛使用的saliency method是獨立於訓練數據和模型,這會導致在某些任務上的失效。

參考資料

[1] https://www.jiqizhixin.com/articles/2019-10-30-9
[2] Sarthak Jain and Byron C Wallace. 2019. Attention is not Explanation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 3543–3556.
[3] Julius Adebayo, Justin Gilmer, Michael Muelly, Ian Goodfellow, Moritz Hardt, and Been Kim. 2018. Sanity checks for saliency maps. In Advances in Neural Information Processing Systems. 9505–9515.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM