第三章 數據的預處理與特征構建


申請評分卡模型

數據的預處理與特征構建

簡介:在構建評分卡模型的工作中,數據的預處理和特征構建工作是至關重要的一步。數據的預處理工作可以有效處理缺失值與異常值,從而增強模型的穩健性。而特征構建工作則可以將信息從字段中加以提煉,形成有業務含義的優異特征。

  1. 評分卡模型的簡介

風控場景中的評分卡:

  1. 以分數形式來衡量風險幾率的一種手段
  2. 是對未來一段時間內違約/逾期/失聯概率的預測
  3. 有一個明確的(正)區間
  4. 通常分數越高越安全
  5. 數據驅動
  6. 反欺詐評分卡、申請評分卡、行為評分卡、催收評分卡

非信貸場景中的評分卡

  1. 推薦評分卡
  2. 流失評分卡

常用的信貸評分卡:

申請評分卡(Application Scorecard)

用在貸前審核環節,評估房貸后是否會違約的模型。常用特征:個人信息、央行征信信息、申請行為信息、其他輔助信息

行為評分卡(Behavioral Scorecard)

用在貸后監控環節,做早期預警的工作(包括巴塞爾2.5及之前AIRB的要求),常用特征:貸后還款行為、消費行為等。通常適用於還款周期長的產品或者循環授信類產品

催收評分卡(Collection Scorecard)

    用在發生逾期后的管理環節,為催收工作提供指導。催收評分卡又可細分為預測失聯的失聯評分卡、預測逾期加重的滾動率評分卡和預測催收后的還款率的還款評分卡。常用特征:個人信息、貸后的還款行為、消費行為、聯系人信息等。

 

評分卡模型開發步驟:

 

 

• 評分卡開發的常用模型

邏輯回歸

優點: 簡單,穩定,可解釋,技術成熟,易於監測和部署

缺點:准確度不高

決策樹

優點: 對數據質量要求低,易解釋

缺點:准確度不高

其他元模型

組合模型

優點: 准確度高,不易過擬合

缺點:不易解釋;部署困難;計算量大

  1. 數據集介紹

本次案例分析用的數據,是拍拍貸發起的一次不信貸申請審核工作相關的競賽數據集。其中共有3份文件: 

PPD_Training_Master_GBK_3_1_Training_Set.csv:信貸客戶在拍拍貸上的申報信息和部分三方數據信息,以及需要預測的目標變量

PPD_LogInfo_3_1_Training_Set.csv:信貸客戶的登彔信息 

PPD_Userupdate_Info_3_1_Training_Set.csv:部分客戶的信息修改行為

建模工作就是從上述三個文件中對數據進行加工,提取特征幵建立合適的模型,對貸后表現做預測

關鍵字段:

  1. 特征構造的方法

在評分卡模型的開發中,特征構造是極其關鍵的步驟,其作用是將分散在不同字段中的信息加以組合, 從中提煉出有價值的、可用的信息進而進行評分卡模型的開發。

部分常用的特征構方法有:

求和:例如過去一段時間內的每月網購金額的總和

比例:例如申請貸款的月還款本息不月收入的占比

頻率:例如過去一段時間內的境外消費次數

平均:例如過去一段時間內平均每次信用卡取現額度

好的特征需要具備以下優勢

穩定性高:當人群分布穩定、產品營銷穩定、宏觀經濟因素穩定、監管 政策穩定時,特征的分布也需要穩定

區分度高:未來的違約與非違約人群在特征上的分布需要顯著不同

差異性大:不能對全部人群或絕大部分人群上有單一的取值

復合業務邏輯:特征與信用風險的關聯關系要符合風控業務邏輯

 

案例:對PPD_LogInfo_3_1_Training_Set字段的處理

在該數據源中,我們有代表身份的idx、代表登彔日期的LogInfo3和操作代碼LogInfo1不LogInfo2。 計算登彔日期不放款日期乊間的間隔天數,可以看到絕大部分的天數在180天以內.

 

 

由於絕大部分觀測樣本的時間跨度在半年內,所以我們選取半年內的時間切片,考慮以月為單位的時間切片,則可以衍生出30天、60天、90天、120天、150天、180天等多種選擇。

同時,對於類別型變量,可以考慮構造如下計算邏輯:

時間切片內的登錄的次數

時間切片內不同的登錄方式的個數

時間切片內不同登錄方式的平均個數

不同的時間切片與不同的計算邏輯的交互可以產生多個特征。這些特征往往存在一定程度上的線性相關性。在接下來的多變量分析中,需要消除線性相關性對模型產生的影響。

注意:

該數據源中,每個idx存在多條記彔。上述的特征構造是針對每個idx進行相應的計算

4.數據的質量檢驗與處理

數據的質量檢驗-數據集中度

• 數據的質量檢驗-數據缺失(data missing)

數據缺失度是數據質量檢驗的一個重要項。需要從兩個維度檢驗數據缺失度:

1)字段維度,即某個字段在全部樣本上的缺失值個數的占比

2)樣本維度,即某條樣本在所有字段上的缺失值的占比

一般而言,字段維度的缺失程度會大於樣本維度的缺失程度

• 缺失值處理

舍棄該字段或該條記彔:缺失占比太高

補缺:缺失占比不高,可用均值法、眾數法、回歸法等

作為特殊值:將缺失看成一種特殊值

其中,補缺的方法依變量類型的不同而有所差異。比如,均值法和回歸法適用於數值型變量,眾數法 適用於類別型變量。我們需要分辨出變量是屬於類別型還是數值型。在實際業務中可按照下述的准則來判斷變量的類型:

• 當且僅當變量取值為數值,且不同值的個數比較多時,視為數值型變量,這時可以用均值法(完全 隨機缺失)、抽樣法(完全隨機缺失)、回歸法(針對隨機缺失)進行補缺

• 其他情況下均視為類別型變量,這時可以用抽樣法、眾數法進行補缺。

補缺工作的前提是,字段整體的缺失率不宜太高,否則會產生較大的偏差且對字段的使用(包括由該字段衍生的特征)的使用效果產生影響。

在信貸評分模型中,數據的缺失包含着多重意義。很多時候是完全非隨機缺失,其缺失狀態有着業務含義。例如,某些信貸產品的申請環節需要提供芝麻分,而且該字段的缺失本身對應的風險就比較高。 有些時候缺失是完全隨機缺失,缺失與否並不影響信用風險。對於不同的缺失機制,對應的處理方法也有所不同。

• 完全非隨機缺失:有缺失值的樣本的違約率顯著高於無缺失樣本,此時應當將缺失當成一種特殊的狀態

• 完全隨機缺失:有缺失值的樣本的違約率不無缺失樣本無明顯差異,此時如果缺失樣本的占比很少,可將樣本刪除。如果缺失樣本的占比較高,需要將字段刪除。

數據的質量檢驗-異常值(outliers)

 

但是在信用評分模型中,異常值往往也帶有特殊的意義,例如,在提交的申請資料中,如果PBOC征信記彔查詢次數過多,可能該申請人在一定時間內申請貸款的次數過多,則很有可能該申請人面臨的資金需求很迫切,對未來的逾期概率產生不好的影響。對於這部分人,在數據預處理階段是不宜直接 刪除戒者用正常值進行替換。評分卡模型的開發中,也有相應的方法來處理這樣的異常值

 

數據的質量檢驗-數據含義一致性

在實際工作中,數據的彔入中往往會使得原本屬於同一含義的記彔值出現不同的記彔。例如,通訊方式"QQ"與"qq"是一類性質,或者手機號碼"+8613000000000"不"13000000000"均表示 同一個號碼。因此,我們需要將具有相同含義的數據進行統一。

本案例中,需要手勱地將"QQ" 和" qQ", "Idnumber" 和" idNumber"以及 "MOBILEPHONE"和"PHONE"進行統一


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM