機器學習二分類模型評價指標:准確率\召回率\特異度等

本文轉載自查看原文 2018-07-07 14:30 1335 ML

混淆矩陣是一種用於性能評估的方便工具，它是一個方陣，里面的列和行存放的是樣本的實際類vs預測類的數量。

P =陽性，N =陰性：指的是預測結果。

T=真，F=假：表示實際結果與預測結果是否一致，一致為真，不一致為假。

TP=真陽性：預測結果為P，且實際與預測一致。

FP=假陽性：預測結果為P，但與實際不一致。

TN=真陰性：預測結果為N，且與實際一致。

FN=假陰性：預測結果為N，但與實際不一致。

分類模型的經驗誤差可以通過計算1-准確率得到。

然而，如何選擇一個適當的預測誤差度量是高度依賴於具體問題的。在“垃圾郵件”分類的情況中，我們更加關注的是低誤報率。當然，垃圾郵件被分成了火腿肯定是煩人的，但不是那么糟糕。要是一封郵件被誤分為垃圾郵件，而導致重要信息丟失，那才是更糟糕的呢。

在如“垃圾郵件”分類的二元分類問題中，有一種方便的方式來調整分類器，稱為接受者操作特性（ROC或ROC曲線）。該曲線對應精密性Precision，對應着預測值為陽性的數據中正確的比例。

AUC的含義：ROC曲線下的面積（越大越好，1為理想狀態）

ROC（Receiver Operating Characteristic）

准確率Accuracy

正確分類的樣本占總樣本的比例，對總體准確率的評估。

公式：(TP+TN)/(P+N)。即，對陽性和陰性，總體（分母P+N）預測對了多少（分子TP+TN）。

注：准確率是我們最常見的評價指標，而且很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好。
准確率確實是一個很好很直觀的評價指標，但是有時候准確率高並不能代表一個算法就好。比如某個地區某天地震的預測，假設我們有一堆的特征作為地震分類的屬性，類別只有兩個：0：不發生地震、1：發生地震。一個不加思考的分類器，對每一個測試用例都將類別划分為0，那那么它就可能達到99%的准確率，但真的地震來臨時，這個分類器毫無察覺，這個分類帶來的損失是巨大的。為什么99%的准確率的分類器卻不是我們想要的，因為這里數據分布不均衡，類別1的數據太少，完全錯分類別1依然可以達到很高的准確率卻忽視了我們關注的東西。再舉個例子說明下。在正負樣本不平衡的情況下，准確率這個評價指標有很大的缺陷。比如在互聯網廣告里面，點擊的數量是很少的，一般只有千分之幾，如果用acc，即使全部預測成負類（不點擊）acc也有 99% 以上，沒有意義。因此，單純靠准確率來評價一個算法模型是遠遠不夠科學全面的。

錯誤率（Error rate）

錯誤率則與准確率相反，描述被分類器錯分的比例，error rate = (FP+FN)/(TP+TN+FP+FN)，對某一個實例來說，分對與分錯是互斥事件，所以accuracy =1 - error rate。

靈敏度Sensitivity（查全率/召回率Recall）

對“真陽性率”預測的評估，也就是對“陽性/真”預測准確的概率（比如，當試圖預測某種疾病的時候，如果一個病人長了這種病，那么正確的預測出這個人長了這種病，就是“陽性/真”）。

查全率關心的是”預測出正例的保證性”即從正例中挑選出正例的問題。

靈敏度表示的是所有正例中被分對的比例，衡量了分類器對正例的識別能力。召回率是覆蓋面的度量，度量有多個正例被分為正例，與靈敏度相等。

公式：TP/(TP+FN)。即，實際為陽性P（分母TP+FN），其中預測正確的比例（分子TP）。

精密性（精確率/精度/查准率）Precision

對“真陽性率”預測的評估。

查准率關心的是”預測出正例的正確率”即從正反例子中挑選出正例的問題。

表示被分為正例的示例中實際為正例的比例。

公式：TP/(TP+FP)。即，預測為陽性的數據（分母TP+FP）中，實際對了多少（分子TP）。

特異性Specificity

描述了二元分類問題中的“真陰性率”：這指的是對“真/陰性”情況作出正確預測的概率（例如，在試圖預測疾病時，對一個健康者，沒有預測到疾病，就是這種情況）。

表示的是所有負例中被分對的比例，衡量了分類器對負例的識別能力。

公式：TN/（TN+FP）。即，實際為陰性N（分母TN+FP），其中預測正確的比例（分子TN）。

綜合評價指標（F-Measure）

靈敏度Sensitivity（查全率/召回率Recall）與精密性（精確率、精度）Precision這兩個指標有時候會出現的矛盾的情況，這樣就需要綜合考慮他們，最常見的方法就是F-Measure（又稱為F-Score）。兩者一般存在矛盾關系，不能都達到很高的值，所以定義F-score評價綜合標准。如下圖,查准率-查全率曲線（P-R圖）：

F-Measure是Precision（P）和Recall（R）加權調和平均：

當參數α=1時，就是最常見的F1，也即

可知F1綜合了P和R的結果，當F1較高時則能說明試驗方法比較有效。

其他評價指標

計算速度：分類器訓練和預測需要的時間；

魯棒性：處理缺失值和異常值的能力；

可擴展性：處理大數據集的能力；

可解釋性：分類器的預測標准的可理解性，像決策樹產生的規則就是很容易理解的，而神經網絡的一堆參數就不好理解，我們只好把它看成一個黑盒子。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 二分類算法的評價指標：准確率、精准率、召回率、混淆矩陣、AUC 機器學習算法中的評價指標（准確率、召回率、F值、ROC、AUC等）衡量機器學習模型的三大指標：准確率、精度和召回率。衡量機器學習模型的三大指標：准確率、精度和召回率。機器學習常見的幾種評價指標：精確率（Precision）、召回率（Recall）、F值（F-measure）、ROC曲線、AUC、准確率（Accuracy）准確率(Accuracy), 精確率(Precision), 召回率(Recall)和F1-Measure（對於二分類問題）機器學習 F1-Score 精確率 - P 准確率 -Acc 召回率 - R 數據挖掘之分類指標：召回率、精確度、准確率、虛警率和漏警率（七）7.2 應用機器學習方法的技巧，准確率，召回率與 F值准確率（accuracy），精確率（Precision），召回率（Recall）和綜合評價指標（F1-Measure ）