使用邏輯回歸制作評分卡


1、什么是評分卡?

在銀行借貸場景中,評分卡是一種以分數形式來衡量一個客戶的信用風險大小的手段,一般來說,評分卡打出的分數越高,客戶的信用越好,風險越小。

 

2、評分卡怎么使用?

對於需要借貸的個人或者公司,在借貸時需要填寫一張表格,表格內容包括年齡,收入,家庭人口數量等等。評分卡將每個特征划分為幾個區間,每個區間有一個分數。根據客戶所填信息對照評分卡,為客戶所填的每一個特征賦一個分數,最后相加計算這個用戶的總得分。依據總得分評估他的信用程度。

 

3、怎么使用邏輯回歸制作評分卡?

制作評分卡需要大量客戶所填的信息(特征矩陣X),以及該客戶是否違約的信息(標簽Y)。

(1)對特征矩陣X進行數據預處理。包括去除重復值,填補缺失值(僅有極少數樣本缺失該特征可考慮直接刪除該特征,可使用均值填補家庭人數,隨機森林填補收入等),處理異常值,處理樣本不均衡問題(使用過采樣和欠采樣的方法),但是我們一般不對數據進行標准化處理(這是因為我們給出的評分卡是給業務人員看的,而客戶所填信息天生就是量綱不統一的)。

(2)找出每個特征最佳分箱數和箱子邊界。最佳分箱數就是使得該特征的IV值盡量在最佳IV值區間的箱子個數(盡量提高每個特征的重要性),並且使得該特征的箱內相似,箱間差異大。因此步驟是這樣的:首先確定一個較大的分箱數,進行等頻分箱,計算各箱WOE值和特征的IV值,然后依據卡方檢驗值合並相似箱子,再次計算各箱WOE值以及該特征IV值,直到箱子數量變為一個較小值。畫出分箱數-IV值曲線,找出最佳分箱數和各箱邊界。

(3)對各個特征依據最佳分箱邊界進行分箱。分箱后得到特征的各箱邊界以及WOE值。

(4)處理訓練集和測試集的特征矩陣X。將特征矩陣中的值全部替換為對應箱子的WOE值。

(5)使用訓練集進行建模,使用測試集計算模型得分,並且利用學習曲線調整正則化系數C和最大迭代次數max_iter提高模型得分。

(6)制作評分卡。根據該公式的值計算出系數A和B的值,根據邏輯回歸得到的截距lr.intercept_、各特征系數lr_coef_。用base_score = A - B*lr.intercept_公式計算該評分卡的基准值,用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])計算各特征的分數列表(每個箱子對應一個分數),其中woeall["i_colName"]是i特征的箱子邊界列表和對應的WOE值列表。

 

4、為什么要使用邏輯回歸制作評分卡?

評分卡制作其實就是將連續的特征離散化(分箱),且為每一個離散值賦一個分數(該箱的WOE值)。其中邏輯回歸的截距用於計算評分卡基准值;邏輯回歸系數表示各個特征在判別標簽時的重要程度;各箱的woe值用於邏輯回歸建模時代替特征矩陣X原始值帶入計算。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM