機器學習評價指標大匯總

本文轉載自查看原文 2019-07-22 08:49 457

http://charleshm.github.io/

在使用機器學習算法的過程中，針對不同場景需要不同的評價指標，在這里對常用的指標進行一個簡單的匯總。

一、分類

1. 精確率與召回率

精確率與召回率多用於二分類問題。精確率（Precision）指的是模型判為正的所有樣本中有多少是真正的正樣本；召回率（Recall）指的是所有正樣本有多少被模型判為正樣本，即召回。設模型輸出的正樣本集合為 $A$

$Precision (A, B) = \frac{‖ A ⋂ B ‖}{‖ A ‖}, Recall (A, B) = \frac{‖ A ⋂ B ‖}{‖ B ‖}$

有時候我們需要在精確率與召回率間進行權衡，一種選擇是畫出精確率-召回率曲線（Precision-Recall Curve），曲線下的面積被稱為AP分數（Average precision score）；另外一種選擇是計算 $F_{β}$

$F_{β} = (1 + β^{2}) \cdot \frac{precision \cdot recall}{β^{2} \cdot precision + recall}$

當 $β = 1$

2. ROC

設模型輸出的正樣本集合為 $A$

ROC曲線適用於二分類問題，以假正率為橫坐標，真正率為縱坐標的曲線圖，如：

ROC曲線

AUC分數是曲線下的面積（Area under curve），越大意味着分類器效果越好。

3. 對數損失

對數損失（Log loss）亦被稱為邏輯回歸損失（Logistic regression loss）或交叉熵損失（Cross-entropy loss）。

對於二分類問題，設 $y \in {0, 1}$

$L_{l o g} (y, p) = - \log P r (y ‖ p) = - (y \log (p) + (1 - y) \log (1 - p))$

可以很容易地將其擴展到多分類問題上。設 $Y$

$L_{\log} (Y_{i}, P_{i}) = - \log P r (Y_{i} ‖ P_{i}) = \sum_{k = 1}^{K} y_{i, k} \log p_{i, k}$

4. 鉸鏈損失

鉸鏈損失（Hinge loss）一般用來使“邊緣最大化”（maximal margin）。

鉸鏈損失最開始出現在二分類問題中，假設正樣本被標記為1，負樣本被標記為-1， $y$

$L_{Hinge} (w, y) = max {1 - w y, 0} = ‖ 1 - w y ‖_{+}$

然后被擴展到多分類問題，假設 $y_{w}$

$L_{Hinge} (y_{w}, y_{t}) = max {1 + y_{t} - y_{w}, 0}$

注意，二分類情況下的定義並不是多分類情況下定義的特例。

5. 混淆矩陣

混淆矩陣（Confusion Matrix）又被稱為錯誤矩陣，通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預測分類，每一行是樣本的真實分類（反過來也可以），顧名思義，它反映了分類結果的混淆程度。混淆矩陣 $i$

混淆矩陣可視化

6. kappa系數

kappa系數（Cohen’s kappa）用來衡量兩種標注結果的吻合程度，標注指的是把N個樣本標注為C個互斥類別。計算公式為

$K = \frac{p_{o} - p_{e}}{1 - p_{e}} = 1 - \frac{1 - p_{o}}{1 - p_{e}}$

其中 $p_{o}$

是不是雲里來霧里去的，現在舉個栗子，對於50個測試樣本的二分類問題，預測與真實分布情況如下表：

	GROUND
1	0
PREDICT	1	20	5
0	10	15

預測與真實值相符共有20+15個，則觀察到的符合比例為 $p_{o} = (20 + 15) / 50 = 0.7$

7. 准確率

准確率（Accuracy）衡量的是分類正確的比例。設 ${\hat{y}}_{i}$

$a c c u r a c y = \frac{1}{n_{s a m p l e}} \sum_{i = 1}^{n_{s a m p l e}} 1 ({\hat{y}}_{i} = y_{i})$

其中 $1 (x)$

雖然准確率適用范圍很廣，可用於多分類以及多標簽等問題上，但在多標簽問題上很嚴格，在有些情況下區分度較差。

8. 海明距離

海明距離（Hamming Distance）用於需要對樣本多個標簽進行分類的場景。對於給定的樣本 $i$

$D_{H a m m i n g} ({\hat{y}}_{i}, y_{i}) = \frac{1}{L} \sum_{j = 1}^{L} 1 ({\hat{y}}_{i j} \neq y_{i j})$

其中 $1 (x)$

我們可以通過對所有樣本的預測情況求平均得到算法在測試集上的總體表現情況，當標簽數量 $L$

9. 傑卡德相似系數

傑卡德相似系數（ Jaccard similarity coefficients）也是用於需要對樣本多個標簽進行分類的場景。對於給定的樣本 $i$

$J ({\hat{y}}_{i}, y_{i}) = \frac{‖ {\hat{y}}_{i} ⋂ y_{i} ‖}{‖ \hat{y_{i}} ⋃ y_{i} ‖}$

它與海明距離的不同之處在於分母。當預測結果與實際情況完全相符時，系數為1；當預測結果與實際情況完全不符時，系數為0；當預測結果是實際情況的真子集或真超集時，距離介於0到1之間。

我們可以通過對所有樣本的預測情況求平均得到算法在測試集上的總體表現情況，當標簽數量 $L$

10. 多標簽排序

在這節我們介紹一些更精細化的多標簽分類效果衡量工具。設真實標簽分類情況為 $y \in {0, 1}^{n_{samples} \times n_{labels}}$

10.1 涵蓋誤差

涵蓋誤差（Coverage error）計算的是預測結果中平均包含多少真實標簽，適用於二分類問題。涵蓋誤差定義為：

$c o v e r a g e (y, \hat{f}) = \frac{1}{n_{samples}} \sum_{i = 1}^{n_{samples}} max_{j : y_{i j} = 1} {rank}_{i j}$

其中 ${rank}_{i j} = ‖ {k : {\hat{f}}_{i k} \geq {\hat{f}}_{i j}} ‖$

10.2 標簽排序平均精度

標簽排序平均精度（Label ranking average precision）簡稱LRAP，它比涵蓋誤差更精細：

$L R A P (y, \hat{f}) = \frac{1}{n_{samples}} \sum_{i = 1}^{n_{samples}} \frac{1}{‖ y_{i} ‖} \sum_{j : y_{i j} = 1} \frac{‖ L_{i j} ‖}{{rank}_{i j}}$

其中 $L_{i j} = {k : y_{i k} = 1, {\hat{f}}_{i k} \geq {\hat{f}}_{i j}}$

10.3 排序誤差

排序誤差（Ranking loss）進一步精細考慮排序情況：

$r a n k i n g (y, \hat{f}) = \frac{1}{n_{samples}} \sum_{i = 1}^{n_{samples}} \frac{1}{‖ y_{i} ‖ (n_{labels} - ‖ y_{i} ‖))} ‖ L_{i j} ‖$

其中 $L_{i j} = {(k, l) : {\hat{f}}_{i k} < {\hat{f}}_{i j}, y_{i k} = 1, y_{i l} = 0}$

二、回歸

擬合問題比較簡單，所用到的衡量指標也相對直觀。假設 $y_{i}$

1. 平均絕對誤差

平均絕對誤差MAE（Mean Absolute Error）又被稱為 $l 1$

$M A E (y, \hat{y}) = \frac{1}{n_{s a m p l e s}} \sum_{i = 1}^{n_{s a m p l e s}} ‖ y_{i} - {\hat{y}}_{i} ‖$

2. 平均平方誤差

$M S E (y, \hat{y}) = \frac{1}{n_{s a m p l e s}} \sum_{i = 1}^{n_{s a m p l e s}} (y_{i} - {\hat{y}}_{i})^{2}$

3. 解釋變異

$explained variance (y, \hat{y}) = 1 - \frac{V a r {y - \hat{y}}}{V a r {y}}$

4. 決定系數

決定系數（Coefficient of determination）又被稱為 $R^{2}$

$R^{2} (y, \hat{y}) = 1 - \frac{\sum_{i = 1}^{n_{s a m p l e s}} (y_{i} - {\hat{y}}_{i})^{2}}{\sum_{i = 1}^{n_{s a m p l e s}} (y_{i} - \bar{y})^{2}}$

其中 $\bar{y} = \frac{1}{n_{s a m p l e s}} \sum_{i = 1}^{n_{s a m p l e s}} y_{i}$

三、聚類

1 . 蘭德指數

蘭德指數（Rand index）需要給定實際類別信息 $C$

$R I = \frac{a + b}{C_{2}^{n_{samples}}}$

其中 $C_{2}^{n_{s a m p l e s}}$

對於隨機結果，RI並不能保證分數接近零。為了實現“在聚類結果隨機產生的情況下，指標應該接近零”，調整蘭德系數（Adjusted rand index）被提出，它具有更高的區分度：

$A R I = \frac{R I - E [R I]}{max (R I) - E [R I]}$

具體計算方式參見Adjusted Rand index。

ARI取值范圍為 $[- 1, 1]$

2. 互信息

互信息（Mutual Information）也是用來衡量兩個數據分布的吻合程度。假設 $U$

$H (U) = \sum_{i = 1}^{‖ U ‖} P (i) \log (P (i)), H (V) = \sum_{j = 1}^{‖ V ‖} P^{'} (j) \log (P^{'} (j))$

其中 $P (i) = ‖ U_{i} ‖ / N, P^{'} (j) = ‖ V_{j} ‖ / N$

$M I (U, V) = \sum_{i = 1}^{‖ U ‖} \sum_{j = 1}^{‖ V ‖} P (i, j) \log (\frac{P (i, j)}{P (i) P^{'} (j)})$

其中 $P (i, j) = ‖ U_{i} ⋂ V_{j} ‖ / N$

$N M I (U, V) = \frac{M I (U, V)}{\sqrt{H (U) H (V)}}$

與ARI類似，調整互信息（Adjusted mutual information）定義為：

$A M I = \frac{M I - E [M I]}{max (H (U), H (V)) - E [M I]}$

利用基於互信息的方法來衡量聚類效果需要實際類別信息，MI與NMI取值范圍為 $[0, 1]$

3. 輪廓系數

輪廓系數（Silhouette coefficient）適用於實際類別信息未知的情況。對於單個樣本，設 $a$

$s = \frac{b - a}{max (a, b)}$

對於一個樣本集合，它的輪廓系數是所有樣本輪廓系數的平均值。

輪廓系數取值范圍是 $[- 1, 1]$

四、信息檢索

信息檢索評價是對信息檢索系統性能（主要滿足用戶信息需求的能力）進行評估，與機器學習也有較大的相關性，感興趣的可以參考這篇不錯的博文。

五、總結

上面介紹了非常多的指標，實際應用中需要根據具體問題選擇合適的衡量指標。那么具體工作中如何快速使用它們呢？優秀的Python機器學習開源項目Scikit-learn實現了上述絕指標的大多數，使用起來非常方便。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習評價指標大匯總機器學習評價指標機器學習中的評價指標--01 機器學習算法評價指標機器學習分類算法評價指標機器學習評價指標整理機器學習面試--算法評價指標機器學習模型評估指標匯總 (一）機器學習模型評估指標匯總 (二）機器學習模型評估指標匯總