召回率與准確率詳解
一、概述
數據挖掘、機器學習和推薦系統中的評測指標,通常有以下三種:
(一) 准確率(Precision)
(二) 召回率(Recall)
(三) F值(F-Measure)
在機器學習、數據挖掘、推薦系統完成建模之后,需要對模型的效果做評價。
二、詳解
混淆矩陣:
True Positive(真正,TP):將正類預測為正類數
True Negative(真負,TN):將負類預測為負類數
False Positive(假正,FP):將負類預測為正類數誤報 (Type I error)
False Negative(假負,FN):將正類預測為負類數→漏報 (Type II error)
|
|
預 測 類 別 |
|||
| 實 際 類 別 |
|
YES |
NO |
SUM |
| YES |
TP |
FN |
P(實際為YES) |
|
| NO |
FP |
TN |
N(實際為NO) |
|
| SUM |
P’ (被分為YES) |
N’ (被分為NO) |
P+N |
|
(一) 准確率(Accuracy)
計算公式:
![]()
(二) 錯誤率(Error Rate)
計算公式:
![]()
其中,Error Rate = 1 - ACC
(三) 靈敏度(Sensitive)
計算公式:
![]()
表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。
(四) 特效度(specificity)
計算公式:

表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力。
(五) 精確率、精度(precision)
計算公式:

表示被分為正例的示例中實際為正例的比例。
(六) 召回率(recall)
計算公式:
![]()
召回率與靈敏度是一樣的。
(七) 綜合評價指標(F-Measure)
計算公式:

當參數a為1時最為常見
即:
![]()
可知F1綜合了P和R的結果,當F1較高時則能說明試驗方法比較有效。
(八)
1、ROC曲線:
ROC(Receiver Operating Characteristic)曲線是以假正率(FP_rate)和假負率(TP_rate)為軸的曲線,ROC曲線下面的面積我們叫做AUC,如圖1-1所示:

|
