與模型無關的局部可解釋性方法(LIME)
在機器學習模型事后局部可解釋性研究中,一種代表性方法是由Marco Tulio Ribeiro等人提出的Local Interpretable Model-Agnostic Explanation(LIME)。
一般地,對於每一個輸入實例,LIME首先利用該實例以及該實例的一組近鄰數據訓練一個易於解釋的線性模型來擬合待解釋模型的局部邊界,然后基於該線性模型解釋待解釋模型針對該實例的決策依據,其中,線性模型的權重系數直接體現了當前決策中該實例的每一維特征重要性。
LIME方法希望達到可解釋性和局部可信度之間的平衡:
其中:
f:機器學習模型(待解釋模型);
g:可解釋模型(簡單模型,如線性回歸、決策樹等);
G:可解釋模型集合;
:可解釋模型的復雜度度量(決策樹是樹的深度,線性模型是非零系數的個數等),在求解時應盡量小;
X:輸入實例的特征;
:相似度度量函數;
L:損失函數,表征可解釋模型g和復雜模型f在X附近的不一致程度;在求解時應最小化;
:目標函數。
上式中,輸入是一個樣本點X,輸出是一個簡單的可解釋模型g,該可解釋模型g需滿足以下條件:
1.簡單模型g的復雜度盡量小,即 盡量低,以求得g的可解釋良好;
2.簡單模型g在輸入樣本X附近與復雜模型f的預測效果盡量相同,即針對與X越近(或相似度越高)的樣本,g與f的預測值應盡量一致,以保證g在局部能很好地近似f。
通過以上限制條件,尋求g的可解釋性和g在局部近似f的可信度之間的平衡。
具體步驟:
步驟1
選用復雜模型f(如深度神經網絡等)在全體數據上進行訓練擬合;上圖中,藍色和粉色區域的邊界是復雜模型的決策邊界。可以看到,在全局范圍內,原模型的決策邊界十分復雜,但並不妨礙在局部可以使用簡單模型g(如線性模型)對復雜模型進行近似擬合。
步驟2
圖中,粗體紅色叉點代表一個輸入示例X,我們想知道復雜模型對該樣本進行預測時所依據的特征重要性或者是更看重哪些特征,在此之前需要用一種可解釋的表示方法對樣本數據進行表示。
可解釋性數據表示,旨在用一種人類可理解的表示方法對樣本數據進行表示,而不考慮模型實際使用的是什么樣的樣本表示。
例如,在文本分類中,對於一條輸入樣本的可解釋性表示,可能是與原樣本長度相同的二進制向量,在對該樣本進行擾動取樣后,若所得樣本對應位置的詞若相對於原輸入樣本做了改變,則其二進制向量表示的對應位置取反,以表征原樣本中的詞不存在;若所得樣本對應位置的詞若相對於原輸入樣本沒有改變,則其二進制向量表示的對應位置不變,以表征原樣本中的詞依然存在。如原樣本“我喜歡這部電影”分詞后(我,喜歡,這,部,電影)的可解釋性表示為[1,1,1,1,1],經過擾動取樣后得到“他喜歡這部電影”、“我喜歡那部電影”、“我討厭這部電影”,對應的可解釋性表示分別[0,1,1,1,1]、[1,1,0,1,1]、[1,0,1,1,1]。在使用簡單模型擬合近似原復雜模型時,就是使用類似於這種人類可理解的表示方法來表示樣本。
步驟3
通過擾動取樣,得到粗體紅色叉點附近的樣本點X′,並用原有的復雜模型對它們進行預測分類。從圖中可以看到,一部分樣本被預測為叉點類,另一部分是圓點類。
注意:在選定的輸入樣例X周圍,需要進行多次擾動生成局部樣本,以供簡單的可解釋性模型學習擬合。在數據擾動時,不能作隨機且無意義的擾動。對於圖像數據,按照超像素(可理解的圖像塊)變更;對於文本數據,對單個詞逐一擾動;對於結構化數據,每次單獨改變一個特征。
步驟4
定義一個相似度度量函數 ,衡量抽取的樣本點X′與原樣本點X(粗體紅色叉點)之間的距離(或相似度),並作為這些擾動樣本點的權重。從圖中可以看到,與原樣本點距離越近,則樣本點越大,距離越遠則越小。
因為簡單模型需要在輸入樣本X的附近很好地近似復雜模型,所以對與X距離越近的樣本,所給予的重視度要越高。因此,需要相似度函數賦予各擾動樣本相應的權重,以便使用簡單模型在這些樣本上訓練時,同時考慮到這些樣本的重要性,以確保簡單模型對與X越近的樣本擬合程度越好,因而越能很好地近似復雜模型在X附近(局部)的行為。
步驟5
在這些附帶權重的樣本點X′上(包括原樣本點X),選取簡單的線性模型進行訓練擬合,則可以得到一個在原樣本點X附近(局部)可以近似復雜模型的簡單線性模型,從而得到線性模型中各特征的權重,據此得知原來的復雜模型在預測樣本X時,更看重X的哪些特征。
在LIME提出時,多采用線性模型作為可解釋性的簡單模型,在輸入樣本點的局部近似擬合復雜模型。由於自身附帶良好可解釋性的模型還有決策樹、邏輯回歸、貝葉斯網絡等,因而可以考慮采用不同的簡單模型作為原復雜模型的局部近似模型。