拒絕推斷


更多大數據分析、建模等內容請關注公眾號《bigdatamodeling

在做申請評分卡時,所使用的數據是審批接受的已知好壞狀態的樣本數據,然后用此評分對新的申請進行評估,這里會存在所謂"樣本偏差"的問題,因為接受樣本只是申請樣本的一部分,此評分沒有考慮拒絕樣本的信息,在對總體申請進行評估時會有偏差。如果能夠想辦法將拒絕樣本和接受樣本放在一起建模,就是所說的“拒絕推斷”。

 

先想想什么情況下不需要做拒絕推斷?如果之前的審批策略不是很有效,相當於隨機選擇接受的客戶,那么接受樣本和拒絕樣本的分布應該是一樣的,這種情況就沒必要做拒絕推斷了。

 

相反,如果之前的審批策略越有效,接受樣本和拒絕樣本差別就越大,那么越有必要做拒絕推斷。另外做拒絕推斷也是為了更多更准確地找出好客戶,降低成本,提高收益。

 

拒絕推斷常用方法有三種,實驗法、直接賦值法和模型擴展法。

 

(一)實驗法

實驗法就是在生產環境中做實驗,積累全量數據。如在某一段時間內,接受所有申請,等該批申請客戶有了風險表現后,直接在該樣本上建模,所使用的數據和未來要預測的數據在分布上偏差較小。實驗法其實是花錢買數據,需要承受較大的壞賬損失,一般機構接受不了,更別說銀行等受嚴監管的金融機構了。前兩年現金貸火爆的時候,由於收益高,很多做現金貸的公司,除了驗證身份、過一下黑名單等簡單措施,所采取的風控手段很少,通過率極高,這樣的環境相當於提供了一個天然的數據收集實驗場。

 

(二)直接賦值法

直接賦值法是指通過外部數據或人工的方法,為拒絕樣本打上好壞標簽。比如通過查看外部數據發現此人在其他機構發生過很嚴重的違約行為,那么這種拒絕樣本可以直接標記為壞,該方法需要花費一定的數據成本,並且有些外部數據較難獲取。還可以讓審批人員對拒絕客戶進行復核,標記出認為違約可能性高的樣本,不過此種方法也不經濟,需要花費很多的人力,且加入了主觀的人為因素,容易造成偏差。

 

(三)模型擴展法

最為常用的技術是模型擴展法,先用接受樣本建模,然后預測拒絕樣本的好壞,最后將拒絕樣本和接受樣本放在一起建模。模型擴展法有以下幾種。

 

1、簡單擴展法

可以拆解為幾個步驟:

(1)在接受並已知好壞的樣本上建模。

(2)用此模型為拒絕樣本打分P(bad概率),設置一個閾值P0,大於P0標記為壞,小於P0標記為好。選擇的閾值要確保拒絕樣本的壞賬率比接受樣本的壞賬率高,一般設置拒絕樣本壞賬率是接受樣本壞賬率的2-5倍,當然要結合客群特征、通過率等因素綜合考慮。該方法的一個缺點是,拒絕樣本的分類有一定的隨機性。

(3)將打好標簽的拒絕樣本和接受樣本放在一起,重新建模。

(4)重復(2)和(3)直至模型參數收斂,一般迭代兩三次就能得到收斂模型。

 

2、拆分擴展法

拆分擴展法並不是將拒絕樣本直接標記為好或壞,而是根據打分概率將一個拒絕樣本拆分成一個好樣本和一個壞樣本,打分概率為權重。具體可以按以下步驟進行:

(1)在接受並已知好壞的樣本上建模。

(2)用此模型為第i個拒絕樣本打分Pi(bad概率),然后將該拒絕樣本拆分成一個壞樣本和一個好樣本,壞樣本的權重為Pi,好樣本的權重為1-Pi,而每個接受樣本的權重均設置為1,這時可以根據權重計算壞賬率。還可以調整拆分后的拒絕樣本的權重,使拒絕樣本的壞賬率是接受樣本壞賬率的F倍,比如壞樣本的權重調整為Pi*C/(Pi*C+1-Pi),好樣本的權重調整為(1-Pi)/(Pi*C+1-Pi)。

(3)將(2)拆分后的拒絕樣本和接受樣本放在一起建模。

(4)重復(2)和(3)直至模型參數收斂。

 

3、分段擴展法

上述所說的簡單擴展,將拒絕樣本按照某個閾值采用一刀切的方式分成好樣本和壞樣本,這樣的切分使拒絕樣本的違約分布和接受樣本差別極大,而分段擴展正好修正這一缺點。步驟如下:

(1)在接受並已知好壞的樣本上建模。

(2)然后為接受樣本和拒絕樣本打分score,下圖為每個評分區間內接受樣本的違約分布和拒絕樣本的數量:

接下來,按照各分數段對拒絕樣本打標簽。一般拒絕樣本的違約率高於接受樣本,這里假設拒絕樣本的違約率是同分數段接受樣本的2倍。以0-350分數段為例,接受樣本的違約率為26.7%,設置拒絕樣本的違約率為53.4%,然后根據這個違約率,隨機的將該分數段內的樣本設置成好和壞,或者根據分數高低,高分數設置為好,低分數設置為壞,就像簡單擴展法中的做法。下圖為打好標簽的拒絕樣本的違約分布:

(3)將(2)中打好標簽的拒絕樣本和接受樣本放在一起建模。

(4)重復(2)和(3)直至模型參數收斂。

 

4、其他方法

除了上述幾種方法,還有一些其他方法,比如可以通過近鄰(Nearest Neighbor)算法預測拒絕樣本的好壞,然后用拒絕樣本和接受樣本建立模型。

 

其實,拒絕推斷一直存在爭議,有人認為沒必要做,有人認為有必要做。但在條件允許的情況下,比如若有充足的數據和時間,嘗試做一下,兩者做出來的結果做個對比,總不是壞事。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM