衡量分類准確度各參數含義


True Positive (真正, TP)被模型預測為正的正樣本;

True Negative(真負 , TN)被模型預測為負的負樣本 ;

False Positive (假正, FP)被模型預測為正的負樣本;

False Negative(假負 , FN)被模型預測為負的正樣本;

True Positive Rate(真正率 , TPR)或靈敏度(sensitivity :

   TPR = TP /(TP + FN) 
   正樣本預測結果數 / 正樣本實際數

True Negative Rate(真負率 , TNR)或特指度(specificity :

   TNR = TN /(TN + FP) 
   負樣本預測結果數 / 負樣本實際數 

False Positive Rate (假正率, FPR :

   FPR = FP /(FP + TN) 
   被預測為正的負樣本結果數 /負樣本實際數 

False Negative Rate(假負率 , FNR:

   FNR = FN /(TP + FN) 
   被預測為負的正樣本結果數 / 正樣本實際數

 

召回率和精度:
其中

- 系統檢索到的相關文檔(A)

- 系統檢索到的不相關文檔(B)

- 相關但是系統沒有檢索到的文檔(C)

- 不相關但是被系統檢索到的文檔(D)

直觀的說,一個好的檢索系統檢索到的相關文檔越多越好,不相關文檔越少越好.

召回率和精度是衡量信息檢索系統性能最重要的參數.

召回率R(查全率)用檢索到相關文檔數作為分子,所有相關文檔總數作為分母,即 R=A/(A+C)

精度P(查准率) 用檢索到相關文檔數作為分子,所有檢索到的文檔總數作為分母.即  P=A/(A+B).

 

F-measure:計算公式是F=2*PR/(P+R),其推導也很簡單。定義:

2/F=1/P+1/R,F定義為P和R的調和平均數

 

MCC Matthews 相關系數

MCC=(TP*TN-FP*FN)/[(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)]^0.5,

同時考慮了 FP和 FN,並適用於不平衡問題(兩個類的
比例相差很大)。取值在[-1,1]之間,1 代表完美的預測,0 代表與隨機分類器效果
一樣,-1 代表預測結果與實際結果完全不一致

 

Roc area

Roc曲線評價統計量計算。Roc曲線在[0,1]之間,Roc曲線下的面積值在1.0和0.5之間,在auc>0.5的情況下,auc越接近於1,說明診斷效果越好,auc在0.5~0.7時有較低准確性,auc在0.7~0.9有一定准確性,理想情況為1. Roc 曲線越靠近左上方, 說明分類器的分
類效果越好。

 

優點:該方法簡單、直觀,通過圖示可觀察分析方法的臨床准確性,並可用肉眼作出判斷。ROC曲線將靈敏度與特異性以圖示方法結合在一起,可准確反映某分析方法特異性和敏感性的關系,是試驗准確性的綜合代表。它通過將連續變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標、(1-特異性)為橫坐標繪制成曲線,曲線下面積越大,診斷准確性越高。在ROC曲線上,最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。

 

Prc area:

查准率 /查全率曲線下面積
顯示 PRC 曲線下面積,[0,1]范圍的小數。

 

平均絕對誤差,參數估計值與參數真值之差平方的期望值,記為MSE

對同一物理量進行多次測量時,各次測量值及其絕對誤差不會相同,我們將各次測量的絕對誤差取絕對值后再求平均值,並稱其為平均絕對誤差,即:△=(│△1│+│△2│+……+│△n│)/n (△為平均絕對誤差;△1、△2、……△n為各次測量的絕對誤差)。

 

均方根誤差RMSE

均方根誤差亦稱標准誤差,其定義為 ,i=1,2,3,…n。在有限測量次數中,均方根誤差常用下式表示:sqrt([∑di^2/n])=Re,式中:n為測量次數;di為一組測量值與真值的偏差

 

相對絕對誤差RAE

δ=△/Lx100%

式中:δ—實際相對誤差,一般用百分數給出

△—絕對誤差

L—真值

一個近似數與它准確數的差的絕對值叫這個近似數的絕對誤差。用a表示近似數,A表示它的准確數,那么近似數a的相對誤差就是|a-A|/A。

 

混淆矩陣:能夠很清楚的看到每個地物正確分類的個數以及被錯分的類別和個數。但是,混淆矩陣並不能一眼就看出類別分類精度的好壞,為此從混淆矩陣衍生出來各種分類精度指標,其中總體分類精度(OA)和卡帕系數(Kappa)應用最為廣泛。

總體分類精度(OA):指被正確分類的類別像元數與總的類別個數的比值;OA值雖然能很好的表征分類精度,但是對類別像元個數極度不平衡的多類地物來說,其值收到像元數據較多類別的影響較大,不能很好的表征每個類別地物。

Kappa系數(Kappa:Kappa系數是一種比例,代表着分類與完全隨機的分類產生錯誤減少的比例,其計算過程可用如下公式表示:

kappa計算結果為-1~1,但通常kappa是落在 0~1 間,可分為五組來表示不同級別的一致性:0.0~0.20極低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1幾乎完全一致(almost perfect)。

 

預測的類

 

 

A

B

C

合計

實際的類

A

20

0

2

22

B

1

15

3

19

C

0

2

10

12

 

合計

21

17

15

53

 

Pr(e)=(21/53)*(22/53)+(17/53)*(19/53)+(15/53)*(12/53)

Pr(a)=(20+15+3)/53

Kappa=(Pr(a)-Pr(e))/(1-Pr(e))

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM