做過風控模型或者有過這方面基礎的同學們應該都知道評分卡其實也分很多種,按照時間線來划分的有:
申請評分卡—> 欺詐評分卡—> 行為評分卡—> 市場評分卡—> 催收評分卡(又分為失聯模型、還款率模型、是否還款模型、遷徙率模型)
本文主要介紹的是催收評分卡:
一、目標變量定義:
衡量還款能力客戶為正負樣本,這里面正負樣本的定義很重要,所以在做模型工作之前需要把正負樣本的定義和業務方面溝通,根據實際情況定義好正負樣本。
二、數據預處理:
缺失值以及一致性高的特征處理:如果特征超過50%是缺失的,則刪除該特征;剩下的特征分兩步走,離散型數據用眾數填充,連續型特征用KNN方法填充。另外,對一致性高的特征處理:刪除一致性很高的特征,因為這些特征對於目標變量沒有預測能力。
在進行分箱之前,應該先對數據集進行切分,划分為訓練集和測試集。從訓練數據進行woe和iv,之后對iv進行特征選擇。我看到很多博客里面的內容是不在這一步划分訓練和測試集,而是在入模型的時候才划分,我覺得那樣做的話,在做分箱這一步相當於看了測試集的結果,會造成過擬合。
#划分訓練集和測試集 train_x,test_x,train_y,test_y=train_test_split(data.iloc[:,1:],data.iloc[:,0],train_size=0.7) train=pd.concat([train_y,train_x],axis=1) train=train.reset_index(drop=True) test=pd.concat([test_y,test_x],axis=1) test=test.reset_index(drop=True)
WOE
WOE(weight of Evidence)字面意思證據權重,對分箱后的每組進行。假設good為好客戶(未違約),bad為壞客戶(違約)。
#good(i)表示每組中標簽為good的數量,#good(T)為good的總數量;bad相同。這里說一下,有的地方計算WOE時使用的是bad占比/good占比的,其實是沒有影響的,因為我們計算WOE的目的其實是通過WOE去計算IV,從而達到預測的目的。后面IV計算中,會通過相減后相乘的方式把負號給抵消掉。所以不管誰做分子,誰做分母,最終的IV預測結果是不變的。
IV
IV(information value)衡量的是某一個變量的信息量,公式如下:
N為分組的組數;
IV可用來表示一個變量的預測能力。
三、變量分箱以及分箱優化:
對分箱結果進行優化,分箱選擇上注意事項:
1、一個好的分箱,需保持與業務邏輯一致,WOE趨勢呈現單調遞增或單調遞減或成U形趨勢
2、原則上一個變量的分箱大致在5-8組左右,且不同分箱間的WOE值需要一定的差異,差異小於0.1,則建議合並
3、各分箱人群比例不宜太小(<5%),也不宜過度集中(>25%),除非有特殊情況的調整
4、各分箱中,必須同時有好客戶和壞客戶,不能有一個為0的情況
注意點:WOE通常在-2和+2之間,若超過+/-2,變量本身為極強變量,使用上可能需要*0.3,這樣可以防止僅依靠某個特征。
之后用分箱之后的結果對數據進行WOE編碼。
四、特征選擇
基於IV值、相關性、多重共線性、PSI來選擇合適的特征,以及結合業務邏輯來選擇。
五、建立模型
模型:邏輯回歸模型
參數優化:gridsearch進行參數優化,max_iter,C參數等。
樣本不平衡處理:過采樣、下采樣、class_weight='balanced',樣本不平衡,導致樣本不是總體樣本的無偏估計,從而可能導致我們的模型預測能力下降。遇到這種情況,我們可以通過調節樣本權重來嘗試解決這個問題。調節樣本權重的方法有兩種,第一種是在class_weight使用balanced。第二種是在調用fit函數時,通過sample_weight來自己調節每個樣本權重。這里面用的是class_weight。如果class_weight選擇balanced,那么類庫會根據訓練樣本量來計算權重。某種類型樣本量越多,則權重越低,樣本量越少,則權重越高。
六、模型評估
評價指標:KS,AUC
KS(Kolmogorov-Smirnov):KS用於模型風險區分能力進行評估, 指標衡量的是好壞樣本累計分部之間的差值。
好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強。ks越大,表示計算預測值的模型區分好壞用戶的能力越強。
ks值 | 含義 |
---|---|
> 0.3 | 模型預測性較好 |
0,2~0.3 | 模型可用 |
0~0.2 | 模型預測能力較差 |
< 0 | 模型錯誤 |
AUC
值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類。從AUC 判斷分類器(預測模型)優劣的標准:
-
AUC = 1,是完美分類器。
-
AUC = [0.85, 0.95], 效果很好
七、建立評分卡
信用評分卡主要使用的算法模型是邏輯回歸。logistic模型客群變化的敏感度不如其他高復雜度模型,因此穩健更好,魯棒性更強。另外,模型直觀,系數含義好闡述、易理解,使用邏輯回歸優點是可以得到一個變量之間的線性關系式和對應的特征權值,方便后面將其轉成一一對應的分數形式。

八、模型監控
監控指標:PSI、lift提升度
在模型評估中,我們常用到增益/提升(Gain/Lift)圖來評估模型效果,其中的Lift是“運用該模型”和“未運用該模型”所得結果的比值。以信用評分卡模型的評分結果為例,我們通常會將打分后的樣本按分數從低到高排序,取10或20等分(有同分數對應多條觀測的情況,所以各組觀測數未必完全相等),並對組內觀測數與壞樣本數進行統計。用評分卡模型捕捉到的壞客戶的占比,可由該組壞樣本數除以總的壞樣本數計算得出;而不使用此評分卡,以隨機選擇的方法覆蓋到的壞客戶占比,等價於該組觀測數占總觀測數的比例(分子分母同時乘以樣本整體的壞賬率)。對兩者取累計值,取其比值,則得到提升度Lift,即該評分卡抓取壞客戶的能力是隨機選擇的多少倍。
PSI:群體穩定性指標(population stability index)
公式:psi = sum((實際占比-預期占比)* ln(實際占比/預期占比))
舉個例子解釋下,比如訓練一個logistic回歸模型,預測時候會有個概率輸出p。你測試集上的輸出設定為p1吧,將它從小到大排序后10等分,如0-0.1,0.1-0.2,......。
現在你用這個模型去對新的樣本進行預測,預測結果叫p2,按p1的區間也划分為10等分。
實際占比就是p2上在各區間的用戶占比,預期占比就是p1上各區間的用戶占比。
意義就是如果模型跟穩定,那么p1和p2上各區間的用戶應該是相近的,占比不會變動很大,也就是預測出來的概率不會差距很大。
一般認為psi小於0.1時候模型穩定性很高,0.1-0.25一般,大於0.25模型穩定性差,建議重做。
參考資料:
1、https://zhuanlan.zhihu.com/p/36635780
2、https://zhuanlan.zhihu.com/p/30461746
3、https://zhuanlan.zhihu.com/p/70602209
4、https://zhuanlan.zhihu.com/p/40360380
5、https://www.cnblogs.com/pinard/p/6035872.html
6、https://blog.csdn.net/kevin7658/article/details/50780391
7、https://www.jianshu.com/p/ff0eb70d31ec
8、https://blog.csdn.net/q337100/article/details/80693548
9、https://zhuanlan.zhihu.com/p/37319202
10、https://www.jianshu.com/p/72b4b8fed525
11、https://www.cnblogs.com/daliner/p/10268299.html
12、https://www.cnblogs.com/daliner/p/10268350.html
13、https://blog.csdn.net/yilulvxing/article/details/87070624
14、https://www.jianshu.com/p/72b4b8fed525
15、https://www.cnblogs.com/pinard/p/6035872.html
16、https://blog.csdn.net/q337100/article/details/80693548
17、https://www.cnblogs.com/daliner/p/10268299.html
18、https://www.jianshu.com/p/ff0eb70d31ec
19、https://zhuanlan.zhihu.com/p/94015866
20、https://blog.csdn.net/weixin_41358871/article/details/100046694
21、https://blog.csdn.net/u010654299/article/details/103714200
22、https://zhuanlan.zhihu.com/p/79682292/
23、https://blog.csdn.net/sscc_learning/article/details/78591210
24、https://zhuanlan.zhihu.com/p/33417994
25、https://zhuanlan.zhihu.com/p/92691256/
26、https://zhuanlan.zhihu.com/p/90251922
27、https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247515438&idx=1&sn=29457dcc0bdd510554747daaf1d427a5&chksm=fbd70f42cca08654fcad59f86c749db4a09a4bf7ea6af3731197e52ea9f93fb12df7446d2551&mpshare=1&scene=1&srcid=1208LdcTEnjhcs93CYq23bb6&sharer_sharetime=1607433611390&sharer_shareid=546bd079429f4880a353b991a015fc00&key=8395845d7ade1932d4d55c30f5e2176bcc380b1b74357dad0f2e66ef0b02cf21f5a2533f5233eee381e8685270c9ff77602df978004af2ed51ff182d6c520accf1089f8f78e57df74f4ecb712e95b6f6c85205f822f509e32572105056df01594f75c0f6e6fbad8fc48ce9630a334f94cbc09061d005a695d63c5f241a201ca0&ascene=1&uin=NjQ3MTEwMDA1&devicetype=Windows+10+x64&version=6209007b&lang=zh_CN&exportkey=AQr1ypDKSOepV3ktF6J4WGY%3D&pass_ticket=C35kZgcKGqJKVlcAYDLo60GzJ3BOmrOvPEt4ovlYj42dbVsGD827psc1GGcSXScI&wx_header=0