評分卡模型


一、評分卡模型

 PS:核心點在於我們需要一個判別指標來對數據進行打標簽分類

 

1、項目簡介:

 

信用評分技術是一種應用統計模型,其作用是對貸款申請人做風險評估分值的方法。在互金公司等各種貸款業務機構中,普遍使用信用評分,對客戶實行打分制,以期對客戶有一個優質與否的評判。評分卡主要分為三類A卡(申請評分卡)、B卡(行為評分卡)、C卡(貸后評分卡)。我們主要討論的是A卡即申請評分卡,用於貸前審批階段對借款申請人的量化評估;

 

2、評分卡原理:

申請評分卡是一種統計模型,它可基於對當前申請人的各項資料進行評估並給出一個分數,該評分能定量對申請人的償債能力作出預判。

客戶申請評分卡由一系列特征項組成,每個特征項相當於申請表上的一個問題(例如,年齡、銀行流水、收入等)。每一個特征項都有一系列可能的屬性,相當於每一個問題的一系列可能答案(例如,對於年齡這個問題,答案可能就有30歲以下、30到45等)。在開發評分卡系統模型中,先確定屬性與申請人未來信用表現之間的相互關系,然后給屬性分配適當的分數權重,分配的分數權重要反映這種相互關系。分數權重越大,說明該屬性表示的信用表現越好。一個申請的得分是其屬性分值的簡單求和。如果申請人的信用評分大於等於金融放款機構所設定的界限分數,此申請處於可接受的風險水平並將被批准;低於界限分數的申請人將被拒絕或給予標示以便進一步審查。

 

3、開發流程:

導入數據集 →  數據預處理 → 數據探索 → 特征工程  → 建立模型  → 建立評分卡

 

4、流程demo:

4.1、數據集導入

 

 

4.2、數據預處理

1) 查看數據信息

了解數據信息狀態,包括數據量、數據維度、數據特征類型等等

2) 缺失值處理

對於缺失值較少的‘家屬數量’我們可以直接刪除缺失值。及對數據集進行去重處理。

3) 異常值檢測及處理

利用箱型圖對特征進行可視化來檢測異常數據。

 

  

通過以上特征可視化我們可以對明顯偏離的樣本,比如年齡為0,或是逾期次數過高進行蓋帽或者是刪除操作

4.3、數據可視化分析

1) 單變量可視化


可以看出:

(1) 客戶主體集中在月收入10000以下的人群,月收入在15000之前的壞客率和月收入呈負相關收入越高壞客率越低,后進入一段平穩

(2) 當收入超過20000后,壞客率又在上升。

結論:這表明收入在15000以下的人群收入比較穩定,隨着收入越高壞賬率也就越高。而收入大於20000的人群可能從事炒股,創業等風險較大的工作,所以壞賬率增大。

可以看出

(1) 客戶的家屬數量的主要集中在0-2之間,家屬數量和壞客率呈線性相關,也就是說隨着家屬數量提升,壞客率也在顯著提升。

(2) 可能是由於家屬數量大,家庭的支出也就增大,所以更容易出現壞賬的情況。

2) 多變量可視化

通過變量直接的相關性系數,建立相關性矩陣,觀察變量之間的關系,可以進行初步的多重共線性篩選。

熱力圖的顏色表示變量之間的相關性程度,可以看出變量之間沒有相關性過高的情況,所以暫時不需要考慮多重共線性的問題。

 

5、特征工程

1) 特征分箱

在建立風控評分卡中,一般會對特征進行分箱,以提高模型的穩定性和健壯性,消除了異常波動對評分結果的影響。

2) woe 轉換

接下來給分箱后的數據計算woe值,woe算是一種編碼形式,但是和普通的編碼它實際代表了響應客戶和未響應客戶之間的差異情況。
公式如下:

可以看出

1) 當前分組中,響應的比例越大,WOE值越大

2) 當前分組WOE的正負,由當前分組響應和未響應的比例,與樣本整體響應和未響應的比例的大小關系決定

3) 當前分組的比例小於樣本整體比例時,WOE為負,當前分組的比例大於整體比例時,WOE為正,當前分組的比例和整體比例相等時,WOE為0。

注意:一般認為woe關於分箱是單調的,我們會認為分箱比較好,可解釋性強。

 

WOE其實描述了變量當前這個分組,對判斷個體是否會響應(或者說屬於哪個類)所起到影響方向和大小

當WOE為正時,變量當前取值對判斷個體是否會響應起到的正向的影響

當WOE為負時,起到了負向影響。而WOE值的大小,則是這個影響的大小的體現

3)  IV值計算

IV的全稱是Information Value,中文意思是信息價值,或者信息量。它的作用其實和gini和信息熵類似,都是用來衡量變量的預測能力,可以通過IV值來達到特征篩選的目的。

通過特征IV的可視化,可以很直觀的觀察特征之間的差異,我們選擇IV較高的特征代入模型。r如下是IV值范圍說明的情況:

4)  為啥用IV不用WOE進行特征選擇

第一個原因:當衡量一個變量的預測能力時,所使用的指標值不應該是負數,否則,說一個變量的預測能力的指標是-2.3,聽起來很別扭。從這個角度講,乘以pyn這個系數,保證了變量每個分組的結果都是非負數。可以驗證的是,當一個分組的WOE是正數時,pyn也是正數,當一個分組的WOE是負數時,pyn也是負數,而當一個分組的WOE=0時,pyn也是0。

第二個原因:乘以pyn后,體現出了變量當前分組中個體的數量占整體個體數量的比例,對變量預測能力的影響。

 

6、建立模型

 建立logistics模型,logistics回歸是廣義線性回歸,它的在建立后和線性回歸一樣會賦值給特征不同的權重,很符合建立評分卡的概念。

模型測試效果的准確率並不能反映模型的真實效果,我們需要利用下面ROC曲線來評估模型。

模型在ROC曲線上大致表現不錯,AUC也達到了0.84。

 

7、建立評分卡

​​

1) 根據資料查得評分卡創建公式。

2) 將數據集代入到自定義函數,計算評分標准。

3) 計算每個變量得分,每個特征對應的分數如下:

將用戶數據代入到評分標准后求和,就可以得到該用戶的總分。得分越高代表其越有可能成為壞的客戶。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM