分類與預測模型對訓練集進行預測而得出的准確率並不能很好地反映預測模型未來的性能,為了有效判斷一個預測模型的性能表現,需要一組沒有參與預測模型建立的數據集,並在該數據集上評價預測模型的准確率,這組獨立的數據集叫做測試集。模型預測效果評價,通常用相對/絕對誤差、平均絕對誤差、均方誤差、均方根誤差、平均絕對百分誤差等指標來衡量。
1、絕對誤差與相對誤差
設$Y$表示實際值,$\hat{Y}$表示預測值,則$E$為絕對誤差,其計算公式為:$E=Y-\hat{Y}$
$e$為相對誤差,其計算公式為:$e=\frac{Y-\hat{Y}}{Y}$
2、平均絕對誤差
平均誤差的計算公式為:$MAE=\frac{1}{n} \sum_{i=1}^{n}\left|E_{i}\right|=\frac{1}{n} \sum_{i=1}^{n}\left|Y_{i}-\hat{Y}_{i}\right|$
其中,$MAE$表示平均絕對誤差,$E_{i}$表示第$i$個實際值與預測值的絕對誤差,$Y_{\mathrm{i}}$表示第$i$個實際值,$\hat{Y}_{i}$表示第$i$個預測值。
由於預測誤差有正有負,為了避免正負相抵消,故取誤差的絕對值進行綜合並取其平均數,這是誤差分析的綜合指標法之一。
3、均方誤差
均方誤差的計算公式為:$MSE=\frac{1}{n} \sum_{i=1}^{n} E_{i}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\hat{Y}_{i}\right)^{2}$
其中,MSE表示均方差。均方誤差一般用於還原平方失真程度。均方誤差是預測誤差平方之和的平均數,它避免了正負誤差不能相加的問題。
由於對誤差E進行了平方,加強了數值大的誤差在指標中的作用,從而提高了這個指標的靈敏性,是一大優點。均方誤差是誤差分析的綜合指標之一。
4、均方根誤差
均方根誤差的計算公式為:$RMSE=\sqrt{\frac{1}{n} \sum_{i=1}^{n} E_{i}^{2}}=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\hat{Y}_{i}\right)^{2}}$
其中,RMSE表示均方根誤差,其他符號同前。
這是均方誤差的平方根,代表了預測值的離散程度,也叫標准誤差,最佳擬合情況為$RMSE$=0。均方根誤差也是誤差分析的綜合指標之一。
5、平均絕對百分誤差
平均絕對百分誤差為:$MAPE=\frac{1}{n} \sum_{i=1}^{n}\left|E_{i} / Y_{i}\right|=\frac{1}{n} \sum_{i=1}^{n}\left|\left(Y_{i}-\hat{Y}_{i}\right) / Y_{i}\right|$
其中,MAPE表示平均絕對百分誤差。一般認為MAPE小於10時,預測精度較高。
6、Kappa統計
Kappa統計是比較兩個或多個觀測者對同一事物,或觀測者對同一事物的兩次或多次觀測結果是否一致,是以由於機遇造成的一致性和實際觀測的一致性之間的差別大小作為評價基礎的統計指標。Kappa統計量和加權Kappa統計量不但可以用於無序和有序分類變量資料的一致性、重現性檢驗,而且能給出一個反映一致性大小的“量”值。
Kappa取值在[-1,+1]之間,其值的大小均有不同的意義:
Kappa=+1,說明兩次判斷的結果完全一致。
Kappa=-1,說明兩次判斷的結果完全不一致。
Kappa=0,說明兩次判斷的結果是機遇造成的。
Kappa<0,說明一致程度比機遇造成的還差,兩次檢查結果很不一致,在實際應用中無意義。
Kappa>0,說明有意義,Kappa越大,說明一致性愈好。
Kappa≥0.75,說明已經取得了相當滿意的一致程度。
Kappa<0.4,說明一致程度不夠。
7、識別准確度
識別精確度的計算公式為:$\text {Accuracy}=\frac{T P+F N}{T P+T N+F P+F N} \times 100 \%$
其中各項的含義:
TP(True Positives):正確的肯定,表示正確肯定的分類數。
TN(True Negatives):正確的否定,表示正確否定的分類數。
FP(False Positives):錯誤的肯定,表示錯誤肯定的分類數。
FN(False Negatives):錯誤的否定,表示錯誤否定的分類數。
8、識別精確率
識別精確率的計算公式為:$\text { Precision }=\frac{T P}{T P+F P} \times 100 \%$
9、反饋率
反饋率的計算公式為:$\text {Recall}=\frac{T P}{T P+T N} \times 100 \%$
10、ROC曲線
受試者工作特性(Receiver Operating Characteristic,ROC)曲線,得此名的原因在於曲線上各點反映着相同的感受性,它們都是對同一信號刺激的反應,只不過是在幾種不同的判定標准下所得的結果而已。接受者操作特性曲線就是以虛驚概率為橫軸,擊中概率為縱軸所組成的坐標圖,和被試在特定刺激條件下由於采用不同的判斷標准得出的不同結果畫出的曲線。
這是一種非常有效的模型評價方法,可為選定臨界值給出定量提示。將靈敏度(Sensitivity)設在縱軸,1-特異性(1-Specificity)設在橫軸,就可得出ROC曲線圖。該曲線下的積分面積(Area)大小與每種方法的優劣密切相關,反映分類器正確分類的統計概率,其值越接近1說明該算法的效果越好。
11、混淆矩陣
混淆矩陣(Confusion Matrix)是模式識別領域中一種常用的表達形式。它描繪樣本數據的真實屬性與識別結果類型之間的關系,是評價分類器性能的一種常用方法。假設對於N類模式的分類任務,識別數據集D包括$T_{0}$個樣本,每類模式分別含有$T_{i}$個數據(i=1…N)。采用某種識別算法構造分類器$C$,$c m_{i j}$,表示第$i$類模式被分類器$C$判斷成第$j$類模式的數據占第$i$類模式樣本總數的百分率,則可得到如下N·N維混淆矩陣:$$C M(C, D)=\left(\begin{array}{ccccc}{c m_{11}} & {c m_{22}} & {\dots} & {c m_{1 i}} & {\dots} & {c m_{1 N}} \\ {c m_{21}} & {c m_{22}} & {\dots} & {c m_{2 i}} & {\dots} & {c m_{2 N}} \\ {\vdots} & {\vdots} & {} & {\vdots} & {} \\ {c m_{i 1}} & {c m_{i 2}} & {\dots} & {c m_{i i}} & {\dots} & {c m_{i N}} \\ {\vdots} & {\vdots} & {} & {\vdots} & {} \\ {c m_{N 1}} & {c m_{N 2}} & {\dots} & {c m_{N i}} & {\dots} & {c m_{N N}}\end{array}\right)$$
混淆矩陣中元素的行下標對應目標的真實屬性,列下標對應分類器產生的識別屬性。對角線元素表示各模式能夠被分類器C正確識別的百分率,而非對角線元素則表示發生錯誤判斷的百分率。
通過混淆矩陣,可以獲得分類器的正確識別率和錯誤識別率。
各模式正確識別率:$R_{i}=c m_{i i}, \quad i=1, \cdots, N$
平均正確識別率:$R_{A}=\sum_{i=1}^{N}\left(c m_{i i} \cdot T_{i}\right) / T_{0}$
各模式錯誤識別率:$W_{i}=\sum_{j=1, j \neq i}^{N} c m_{i j}=1-c m_{i i}=1-R_{i}$
平均錯誤識別率:$W_{A}=\sum_{i=1}^{N} \sum_{j=1, j \neq i}^{N}\left(c m_{i i} \cdot T_{i}\right) / T_{0}=1-R_{A}$