評分卡常用模型與算法(應用了解模型,原理了解算法)
模型:邏輯回歸模型、決策樹模型、神經網絡模型、模型融合
算法:MLE、Gradient Descent、RF、GBDT、XGboost、LGBM、BP算法、Stacking、Blending
信用風險評分卡全流程:
一、模型設計
業務理解:進一步理解業務部門的業務需求、業務發展目標和需要解決的問題。
排除規則:根據業務實際情況,制定樣本排除規則。
目標定義:根據業務實際情況,結合壞賬率分析、滾動率分析、好壞客群數量比例分析,定義目標變量。
樣本選取:決定樣本的觀察期、表現期,同時將樣本分為訓練集、同時間測試集、跨時間測試集。
1.排除規則(A卡):黑名單客戶、欺詐客戶、政策影響、VIP、資產變賣、產品變更
2.目標定義→轉移矩陣:看初始狀態變到更差的比例來選擇逾期多少天
3.樣本窗口:看累計壞賬百分比確定觀察期多長
二、客群細分分析(國內不常見)
1.不同組別的個體行為不同
2.已知變量的預測能力對不同組別的作用表現也不同
3.對不同組別分別進行模型開發,體現預測變量的差異性
4.最終結果是在所有目標子群體中增加預測能力
三、拒絕推斷(實現法:花錢買數據、直接賦值法、模型擴展法)
申請客群→拒絕黑名單與欺詐客戶(F卡)→拒絕高信用風險客戶+審批通過(A卡 信用評分卡的目標客群)
四、評分卡開發
數據備份
單變量分析 → 變量分布,異常值分析等
缺失值補全 → 均值、中位數、分箱、模型
數據拆分 → 訓練集、測試集、跨時間測試集
變量分箱+邏輯回歸 / 樹形分類器 → 變量選擇,模型擬合
模型評估 → 計算KS、ROC、GINI等統計指標
轉換評分卡 → 將概念轉換為分數,選擇閾值,並計算混淆矩陣
1.單變量分析——異常值處理(極大或極小值、不符合邏輯數據、分布)
2.單變量分析——缺失值處理:缺失值補全
a.單一值補全(數值型:均值/中位數;分類型:新增類別)
b.分組補全(數值型:均值/中位數)
c.模型預測(利用多變量模型預測)
d.WOE補全(僅限LR模型,直接計算WOE)
五、特征變量——衍生變量(特征工程) 先增加后減少
六、特征變量——降維流程
業務理解 → 覆蓋率 → IV值篩選 → PSI篩選 → 算法降維 → 多重共線性
1.覆蓋率:看缺失值,超過一定比例刪掉
2.IV值:WOE組內好壞差異和全局好壞差異的比較
IV(各組好壞差異*權重)再求和
3.PSI衡量兩組樣本偏評分或分布是否有顯著差異
4.算法降維
5.VIF查看多重共線性
七、模型評估——混淆矩陣
准確率、召回率、精准率、F1 Score
模型評估——統計指標
1.K-S:分類能力,累計好樣本比例與累計壞樣本比例的差值,也可FPR-TPR
2.ROC/AUC/GINI:排序能力
八、分數轉換