使用LIME解釋黑盒ML模型

本文轉載自查看原文 2020-11-04 22:43 430

作者|Travis Tang (Voon Hao)
編譯|VK
來源|Towards Data Science

在這一點上，任何人都認為機器學習在醫學領域的潛力是老生常談的。有太多的例子支持這一說法-其中之一就是微軟利用醫學影像數據幫助臨床醫生和放射科醫生做出准確的癌症診斷。同時，先進的人工智能算法的發展大大提高了此類診斷的准確性。毫無疑問，醫療數據如此驚人的應用，人們有充分的理由對其益處感到興奮。

然而，這種尖端算法是黑匣子，可能很難解釋。黑匣子模型的一個例子是深度神經網絡，輸入數據通過網絡中的數百萬個神經元后，作出一個單一的決定。這種黑盒模型不允許臨床醫生用他們的先驗知識和經驗來驗證模型的診斷，使得基於模型的診斷不那么可信。

事實上，最近對歐洲放射科醫生的一項調查描繪了一幅在放射學中使用黑匣子模型的現實圖景。調查顯示，只有55.4%的臨床醫生認為沒有醫生的監督，患者不會接受純人工智能的應用。[1]

在接受調查的635名醫生中，超過一半的人認為患者還沒有准備好接受僅僅由人工智能生成的報告。

下一個問題是：如果人工智能不能完全取代醫生的角色，那么人工智能如何幫助醫生提供准確的診斷？

這促使我探索有助於解釋機器學習模型的現有解決方案。一般來說，機器學習模型可以分為可解釋模型和不可解釋模型。簡而言之，可解釋的模型提供的輸出與每個輸入特征的重要性相關。這些模型的例子包括線性回歸、logistic回歸、決策樹和決策規則等。另一方面，神經網絡形成了大量無法解釋的模型。

有許多解決方案可以幫助解釋黑匣子模型。這些解決方案包括Shapley值、部分依賴圖和Local Interpretable Model Agnostic Explanations（LIME），這些方法在機器學習實踐者中很流行。今天，我將關注LIME。

根據Ribeiro等人[2]的LIME論文，LIME的目標是“在可解釋表示上識別一個局部忠實於分類器的可解釋模型”。換句話說，LIME能夠解釋某一特定點的分類結果。LIME也適用於所有類型的模型，使其不受模型影響。

直觀解釋LIME

聽起來很難理解。讓我們一步一步地把它分解。假設我們有以下具有兩個特征的玩具數據集。每個數據點都與一個基本真相標簽（正或負）相關聯。

從數據點可以看出，線性分類器將無法識別區分正負標簽的邊界。因此，我們可以訓練一個非線性模型，例如神經網絡，來對這些點進行分類。如果模型經過良好訓練，它能夠預測落在深灰色區域的新數據點為正，而落在淺灰色區域的另一個新數據點為負。

現在，我們很好奇模型對特定數據點（紫色）所做的決定。我們捫心自問，為什么這個特定的點被神經網絡預測為負？

我們可以用LIME來回答這個問題。LIME首先從原始數據集中識別隨機點，並根據每個數據點到紫色興趣點的距離為每個數據點分配權重。采樣數據點越接近感興趣的點，就越重要。（在圖片中，較大的點表示分配給數據點的權重更大。）

使用這些不同權重的點，LIME給出了一個具有最高可解釋性和局部保真度的解釋。

使用這個標准，LIME將紫色線標識為興趣點的已知解釋。我們可以看到，紫線可以解釋神經網絡的決策邊界靠近數據點。所學的解釋具有較高的局部保真度，但全局保真度較低。

讓我們看看LIME在實際中的作用：現在，我將重點介紹LIME在解釋威斯康辛州乳腺癌數據訓練的機器學習模型中的使用。

威斯康星州乳腺癌數據集：了解癌細胞的預測因子

威斯康星州乳腺癌數據集[3]，由UCI於1992年發布，包含699個數據點。每個數據點代表一個細胞樣本，可以是惡性的也可以是良性的。每個樣品也有一個數字1到10，用於以下特征。

腫塊厚度：Clump Thickness
細胞大小均勻性：Uniformity of Cell Size
細胞形狀均勻性：Uniformity of Cell Shape
單個上皮細胞大小：Single Epithelial Cell Size
有絲分裂：Mitoses
正常核：Normal Nucleoli
乏味染色體：Bland Chromatin
裸核：Bare Nuclei
邊緣粘着性：Marginal Adhesion

讓我們試着理解這些特征的含義。下面的插圖使用數據集的特征顯示了良性和惡性細胞之間的區別。

感謝醫學院的朋友的專題講解。

從這個例子中，我們可以看到每個特征值越高，細胞越有可能是惡性的。

預測細胞是惡性還是良性

現在我們已經理解了數據的含義，讓我們開始編碼吧！我們首先讀取數據，然后通過刪除不完整的數據點並重新格式化類列來清理數據。

數據導入、清理和探索

# 數據導入和清理
import pandas as pd

df = pd.read_csv("/BreastCancerWisconsin.csv", 
                 dtype = 'float', header = 0)
df = df.dropna() # 刪除所有缺少值的行

# 原始數據集在Class列中使用值2和4來標記良性和惡性細胞。此代碼塊將其格式化為良性細胞為0類，惡性細胞為1類。

def reformat(value):
    if value == 2: 
        return 0 # 良性
    elif value == 4:
        return 1 # 惡性
        
df['Class'] = df.apply(lambda row: reformat(row['Class']), axis = 'columns')

在刪除了不完整的數據之后，我們對數據進行了簡單的研究。通過繪制細胞樣本類別（惡性或良性）的分布圖，我們發現良性（0級）細胞樣本多於惡性（1級）細胞樣本。

import seaborn as sns
sns.countplot(y='Class', data=df)

通過可視化每個特征的直方圖，我們發現大多數特征都有1或2的模式，除了塊狀和淡色質，其分布在1到10之間更為均勻。這表明團厚和乏味的染色質可能是該類的較弱的預測因子。

from matplotlib import pyplot as plt
fig, axes = plt.subplots(4,3, figsize=(20,15))
for i in range(0,4):
    for j in range(0,3):
        axes[i,j].hist(df.iloc[:,1+i+j])
        axes[i,j].set_title(df.iloc[:,1+i+j].name)

模型訓練和測試

然后，將數據集按80%-10%-10%的比例分成典型的訓練驗證測試集，利用Sklearn建立K-近鄰模型。經過一些超參數調整（未顯示），發現k=10的模型在評估階段表現良好-它的F1分數為0.9655。代碼塊如下所示。

from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

# 訓練測試拆分
X_traincv, X_test, y_traincv, y_test = train_test_split(data, target, test_size=0.1, random_state=42)

# K-折疊驗證
kf = KFold(n_splits=5, random_state=42, shuffle=True)

for train_index, test_index in kf.split(X_traincv):
    X_train, X_cv = X_traincv.iloc[train_index], X_traincv.iloc[test_index]
    y_train, y_cv = y_traincv.iloc[train_index], y_traincv.iloc[test_index]
    
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import f1_score,

# 訓練KNN模型
KNN = KNeighborsClassifier(k=10)
KNN.fit(X_train, y_train)

# 評估KNN模型
score =  f1_score(y_testset, y_pred, average="binary", pos_label = 4)
print ("{} => F1-Score is {}" .format(text, round(score,4)))

使用LIME的模型解釋

一個Kaggle行家可能會說這個結果很好，我們可以在這里完成這個項目。然而，人們應該對模型的決策持懷疑態度，即使模型在評估中表現良好。因此，我們使用LIME來解釋KNN模型對這個數據集所做的決策。這通過檢查決策是否符合我們的直覺來驗證模型的有效性。

import lime
import lime.lime_tabular

# LIME准備
predict_fn_rf = lambda x: KNN.predict_proba(x).astype(float)

# 創建一個LIME解釋器
X = X_test.values
explainer = lime.lime_tabular.LimeTabularExplainer(X,feature_names =X_test.columns, class_names = ['benign','malignant'], kernel_width = 5)

# 選擇要解釋的數據點
chosen_index = X_test.index[j]
chosen_instance = X_test.loc[chosen_index].values

# 使用LIME解釋器解釋數據點
exp = explainer.explain_instance(chosen_instance, predict_fn_rf, num_features = 10)

exp.show_in_notebook(show_all=False)

在這里，我選擇了3點來說明LIME是如何使用的。