信用評分卡模型入門(智能算法)


信用評分卡模型入門

2016-07-26 智能算法 智能算法

一、背景介紹:

 

4.數據整理(數據清理過程)

大量取樣的數據要真正最后進入模型,必須經過數據整理。在數據處理時應注意檢查數據的邏輯性、區分“數據缺失”和“0”、根據邏輯推斷某些值、尋找反常數據、評估是否真實。可以通過求最小值、最大值和平均值的方法,初步驗證抽樣數據是否隨機、是否具有代表性。 

常用清理過程包含:缺失值分析處理、單變量異常分析(LOF分析處理或聚類分析)

 

5.變量選擇

變量選擇要同時具有數學統計的正確性和信用卡實際業務的解釋力。

一般性進行單變量統計分布分析和變量相關性分析:


圖3. 變量分布是否滿足假設(高斯)

Logistic回歸同樣需要檢驗多重共線性問題,不過此處由於各變量之間的相關性較小,可以初步判斷不存在多重共線性問題,當然我們在建模后還可以用VIF(方差膨脹因子)來檢驗多重共線性問題。如果存在多重共線性,即有可能存在兩個變量高度相關,需要降維或剔除處理。


圖4. 各維度變量的相關性分析

6.模型建立

關於Logistic回歸方法可以查看之前歷史文章:經典算法文章,這里不再贅述。其中SAS中也會有這樣集成好的工具。這里主要說明一個重要的過程:

證據權重(Weight of Evidence,WOE)轉換可以將Logistic回歸模型轉變為標准評分卡格式。引入WOE轉換的目的並不是為了提高模型質量,只是一些變量不應該被納入模型,這或者是因為它們不能增加模型值,或者是因為與其模型相關系數有關的誤差較大,其實建立標准信用評分卡也可以不采用WOE轉換。這種情況下,Logistic回歸模型需要處理更大數量的自變量。盡管這樣會增加建模程序的復雜性,但最終得到的評分卡都是一樣的。

用WOE(x)替換變量x。WOE()=ln[(違約/總違約)/(正常/總正常)]。



圖5. 關於WOE定義與距離

 

表中以age年齡為某個自變量,由於年齡是連續型自變量,需要對其進行離散化處理,假設離散化分為5組,#bad和#good表示在這五組中違約用戶和正常用戶的數量分布,最后一列是woe值的計算,通過后面變化之后的公式可以看出,woe反映的是在自變量每個分組下違約用戶對正常用戶占比和總體中違約用戶對正常用戶占比之間的差異;從而可以直觀的認為woe蘊含了自變量取值對於目標變量(違約概率)的影響。再加上woe計算形式與logistic回歸中目標變量的logistic轉換(logist_p=ln(p/1-p))如此相似,因而可以將自變量woe值替代原先的自變量值;

這里還需補充一點:WOE轉化IV(information value 信息價值):


圖6. IV公式定義

其實IV衡量的是某一個變量的信息量,從公式來看的話,相當於是自變量woe值的一個加權求和,其值的大小決定了自變量對於目標變量的影響程度;從另一個角度來看的話,IV公式與信息熵的公式極其相似。IV就是這樣一種指標,可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼系數等等。

有了WOE和IV指標就可以進行下一步的模型驗證了。

7.模型驗證 

 

在收集數據時,把所有整理好的數據分為用於建立模型的建模樣本和用於模型驗證的對照樣本。對照樣本用於對模型總體預測性、穩定性進行驗證。申請評分模型的模型檢驗指標包括K-S值、ROC等指標。

通常一個二值分類器可以通過ROC(Receiver Operating Characteristic)曲線和AUC值來評價優劣。

很多二元分類器會產生一個概率預測值,而非僅僅是0-1預測值。我們可以使用某個臨界點(例如0.5),以划分哪些預測為1,哪些預測為0。得到二元預測值后,可以構建一個混淆矩陣來評價二元分類器的預測效果。所有的訓練數據都會落入這個矩陣中,而對角線上的數字代表了預測正確的數目,即true positive + true nagetive。同時可以相應算出TPR(真正率或稱為靈敏度)和TNR(真負率或稱為特異度)。我們主觀上希望這兩個指標越大越好,但可惜二者是一個此消彼漲的關系。除了分類器的訓練參數,臨界點的選擇,也會大大的影響TPR和TNR。有時可以根據具體問題和需要,來選擇具體的臨界點。


圖7. 真假陰陽性定義

如果我們選擇一系列的臨界點,就會得到一系列的TPR和TNR,將這些值對應的點連接起來,就構成了ROC曲線。ROC曲線可以幫助我們清楚的了解到這個分類器的性能表現,還能方便比較不同分類器的性能。在繪制ROC曲線的時候,習慣上是使用1-TNR作為橫坐標即FPR(false positive rate),TPR作為縱坐標。這是就形成了ROC曲線。

而AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標准是因為很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好,而作為一個數值,對應AUC更大的分類器效果更好。

ROC交換曲線現實意義:衡量舍棄好賬戶和避免壞賬戶之間的交換關系。理想的情況是:舍棄0%好賬戶的情況下拒絕100%的壞賬戶,模型完全准確地把好賬戶和壞賬戶區別開來。


圖8. ROC曲線中好壞客戶比

 k-s指標根據兩個數學家命名,與交換曲線類似,衡量的是好賬戶和壞賬戶的累計分布比例之間具體最大的差距。好賬戶和壞賬戶之間的距離越大,k-s指標越高,模型的區分能力越強。


圖9. K-S指標圖:作為好壞客戶的另一種區分標志

這些指標滿足之后則基本完成評分卡模型的開發過程。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM