金融風控之貸款違約預測筆記


要求

根據貸款申請人的數據信息預測其是否有違約的可能,以此判斷是否通過此項貸款。

數據概況

總數據量超過120w,包含47列變量信息,其中15列為匿名變量。從中抽取80萬條作為訓練集,20萬條作為測試集A,20萬條作為測試集B,同時對employmentTitle、purpose、postCode和title等信息進行脫敏
賽題地址:https://tianchi.aliyun.com/competition/entrance/531830/information?lang=zh-cn

評測標准

AUC評估模型

  • AUC(area under the curve)是ROC曲線下的面積
    學習路線: 混淆矩陣 -> ROC -> AUC
  • 混淆矩陣
    以預測腫瘤是否為惡行為例:

    如圖:TP表示預測為良性,而實際也是良性的樣例數;
    FN表示預測為惡性,而實際是良性的樣例數;
    FP表示預測為良性,而實際是惡性的樣例數;
    TN表示預測為惡性,而實際也是惡性的樣例數;

以上四個數構成混淆矩陣,然后定義兩個變臉:

FPR表示,在所有的惡性腫瘤中,被預測成良性的比例。稱為偽陽性率。偽陽性率告訴我們,隨機拿一個惡性的腫瘤樣本,有多大概率會將其預測成良性腫瘤。顯然我們會希望FPR越小越好

TPR表示,在所有良性腫瘤中,被預測為良性的比例。稱為真陽性率。真陽性率告訴我們,隨機拿一個良性的腫瘤樣本時,有多大的概率會將其預測為良性腫瘤。顯然我們會希望TPR越大越好
以FPR/TPR為坐標畫圖:(顯然左上角的最好)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM