機器學習性能度量指標:AUC


在IJCAI 於2015年舉辦的競賽: Repeat Buyers Prediction Competition 中,
很多參賽隊伍在最終的Slides展示中都表示使用了  AUC 作為評估指標
 
 

 

那么,AUC是什么呢?
AUC是一個機器學習性能度量指標,只能用於二分類模型的評價。(拓展二分類模型的其他評價指標:logloss、accuracy、precision)
 
對於二分類問題,可將樣例根據其真實類別與學習器預測類別的組合划分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四種情形,令 TP、FP、TN、FN分別表示其對應的樣例數,則顯然有 TP+FP+TN+FN=樣例總數。
分類結果的“混淆矩陣”(confusion matrix)如下表所示:
AUC全稱:Area under ROC curve
 
AUC的物理意義為任取一對例和負例,正例得分大於負例得分的概率,AUC越大,表明方法效果越好。
 
ROC全稱為“受試者工作特征”(Receiver Operating Characteristic )曲線,源於二戰中用於敵機檢測的雷達信號分析技術。根據學習器的預測結果對樣例進行排序,按此順序逐個把樣本作為正例進行預測,每次計算出兩個重要量的值,分別以它們為橫、縱坐標作圖,就得到了“ROC”曲線,縱軸是“真正例率”(True Positive Rate,TPR),橫軸是“假正例率”(False Positive Rate,FPR):

 

 

 
 
 
IJCAI-15比賽相關:
 
IJCAI-15 Dataset 數據集來自天貓( 阿里雲天池)。
 
論文名稱:Identifying Repeat Buyers by Ensemble Learning with Historical Behavioral Features
作者:Shaohua jiang, Yunlei Mu, Qingyu Fan
會議期刊:IJCAI workshop
 
 
【Reference】
1. 周志華.機器學習[M].北京:清華大學出版社,2016.
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM