要求
根據貸款申請人的數據信息預測其是否有違約的可能,以此判斷是否通過此項貸款。
數據概況
總數據量超過120w,包含47列變量信息,其中15列為匿名變量。從中抽取80萬條作為訓練集,20萬條作為測試集A,20萬條作為測試集B,同時對employmentTitle、purpose、postCode和title等信息進行脫敏
賽題地址:https://tianchi.aliyun.com/competition/entrance/531830/information?lang=zh-cn
評測標准
AUC評估模型
- AUC(area under the curve)是ROC曲線下的面積
學習路線: 混淆矩陣 -> ROC -> AUC - 混淆矩陣
以預測腫瘤是否為惡行為例:
如圖:TP表示預測為良性,而實際也是良性的樣例數;
FN表示預測為惡性,而實際是良性的樣例數;
FP表示預測為良性,而實際是惡性的樣例數;
TN表示預測為惡性,而實際也是惡性的樣例數;
以上四個數構成混淆矩陣,然后定義兩個變臉:
FPR表示,在所有的惡性腫瘤中,被預測成良性的比例。稱為偽陽性率。偽陽性率告訴我們,隨機拿一個惡性的腫瘤樣本,有多大概率會將其預測成良性腫瘤。顯然我們會希望FPR越小越好
TPR表示,在所有良性腫瘤中,被預測為良性的比例。稱為真陽性率。真陽性率告訴我們,隨機拿一個良性的腫瘤樣本時,有多大的概率會將其預測為良性腫瘤。顯然我們會希望TPR越大越好
以FPR/TPR為坐標畫圖:(顯然左上角的最好)
- 將正負樣本分離的程度不同,不由不同的ROC曲線
- ROC曲線下面的面積即為AUC,其除了考慮了准確性之外還考慮的閾值的影響,所以很穩定
參考:https://blog.csdn.net/liweibin1994/article/details/79462554