在IJCAI 於2015年舉辦的競賽:
Repeat Buyers Prediction Competition 中,
很多參賽隊伍在最終的Slides展示中都表示使用了
AUC 作為評估指標:


那么,AUC是什么呢?
AUC是一個機器學習性能度量指標,只能用於二分類模型的評價。(拓展二分類模型的其他評價指標:logloss、accuracy、precision)
對於二分類問題,可將樣例根據其真實類別與學習器預測類別的組合划分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四種情形,令 TP、FP、TN、FN分別表示其對應的樣例數,則顯然有 TP+FP+TN+FN=樣例總數。
分類結果的“混淆矩陣”(confusion matrix)如下表所示:

AUC全稱:Area under ROC curve
AUC的物理意義為任取一對例和負例,正例得分大於負例得分的概率,AUC越大,表明方法效果越好。
ROC全稱為“受試者工作特征”(Receiver Operating Characteristic )曲線,源於二戰中用於敵機檢測的雷達信號分析技術。根據學習器的預測結果對樣例進行排序,按此順序逐個把樣本作為正例進行預測,每次計算出兩個重要量的值,分別以它們為橫、縱坐標作圖,就得到了“ROC”曲線,縱軸是“真正例率”(True Positive Rate,TPR),橫軸是“假正例率”(False Positive Rate,FPR):

IJCAI-15比賽相關:
IJCAI-15 Dataset 數據集來自天貓(
阿里雲天池)。
論文名稱:Identifying Repeat Buyers by Ensemble Learning with Historical Behavioral Features
作者:Shaohua jiang, Yunlei Mu, Qingyu Fan
會議期刊:IJCAI workshop
【Reference】
1. 周志華.機器學習[M].北京:清華大學出版社,2016.