建模樣本中正樣本比例過低,怎么辦?


http://www.sohu.com/a/199407663_692358

建模樣本中正樣本比例過低,怎么辦?

編輯推薦

樣本的選擇對於模型效果來說至關重要,在分類問題中,合適的正負樣本比例也是好模型必不可少的條件。然而,實際接觸到的樣本數據中,正樣本的比例往往非常低,這時候該怎么處理呢?

正樣本、負樣本,就是我們常說的“1”和“0”。在分類問題建模中,我們經常會遇見正樣本比例過低的問題。像是風險建模時定義的“壞客戶”,精准營銷建模中購買過相應產品的客戶,或者罹患某種疾病的病人,這些個體構成了我們建模時的正樣本群體,但是由於客觀原因,他們在總體中所占的比例往往非常低,比如壞客戶可能本來就不怎么多。如果直接基於真實比例的樣本進行建模,這會給模型的參數估計和后續使用帶來不良后果,由於logistic模型使用的普遍性,我們下面基於該模型介紹一種處理這類問題的思路。

1. 利用特殊采樣的方法構建有偏樣本

既然總體中樣本比例過低,很自然的思路就是從總體中重新抽樣,提高建模樣本中正樣本的比例。

過采樣和欠采樣是比較常用的方法,前者是增加正樣本的數量,后者是減少負樣本的數量。如果總體中正樣本的絕對數量過少,可以將所有正樣本全部納入,再抽取部分負樣本構建建模樣本,這種思路其實就是過采樣和欠采樣的結合。

通過這類特殊采樣,我們可以構建一個正樣本比例相對較高的建模樣本(比如10%),為了方便敘述,我們將總體中的“1”個體的比例設為p1,采樣得到的特殊樣本比例設為p2。需要注意的是,這個特殊樣本並不是通過完全隨機抽樣的方法產生的,它不是總體的有效代表,而是一個有偏樣本。但是理論上可以證明,如果利用該樣本進行參數估計,logistic模型中只有截距項的估計值會受到樣本有偏的影響,其余參數的估計值依然是可靠的。那么我們只需要將估計出的截距項進行合理的校正就可以了。

2. 參數估計及校正方法

我們知道,logistic模型的理論形式可以表示為(假設有k個自變量):

利用前面敘述的p1和p2構建一個常量:

利用極大似然或者貝葉斯的參數估計方法,可以估計出logistic模型的參數a以及b1,b2,…, bk,那么截距項a的校正值為:

a' = a - con

關於該校正方法的理論推導,我們就不過多探討了,這里只是給出結論。實際上,該方法很早就被一些專業的數據挖掘軟件所采用,比如SAA軟件的proc logistic就收納了該方法來應對特殊采樣的參數校正。

我們可以做一個模擬,從標准正態分布中產生10000個隨機數作為x,然后將概率p = exp(-3.35+2x)/(1+exp(-3.35+2x))作為二項分布中出現1的概率,產生10000個0或者1的隨機數,將該隨機數作為因變量y,那么該數據中1的比例約為10%。基於該數據集進行特殊采樣,將所有1全部納入特殊樣本,再從所有y=0中按照抽取和y=1個數相等的樣本,這樣特殊樣本中y=1的樣本比例約為50%。如果基於特殊樣本建模,利用極大似然法估計出的a和b分別是-1.2858和2.0712,正如前面交代的,截距項的估計值與真實值差距較大,而斜率項估計則較為准確。如果進行校正,將p1和p2直接取為0.1和0.5,那么常量con=2.1972,校正后的截距項為-3.483,更接近真實值。

3. 參數校正的影響

對基於特殊抽樣而估計出的建模參數進行校正,不影響模型的評價,而且在有些業務場景中,更是有益於模型的后續實施,下面分別介紹。

(1) 不會影響AUC

我們在之前的文章中曾經說過,AUC的值等於ROC曲線下面的面積,但是如果要求出AUC的值,有更加簡單的方法,因為該指標等價於非參數檢驗中的Mann-Whitney統計量,而該統計量正是基於秩而構造出來的。簡單來講,將模型預測出的概率從低到高進行排序,並給出每個樣本的概率值所對應的秩,不妨假設所有負樣本的秩和為s,負樣本的個數為n,正樣本的個數為p,那么:

由於模型預測的概率值是由logistic函數:

計算而來的,該函數是單調增函數,參數校正其實就是從截距項上減去一個常量con,這會降低所有樣本的概率值,但是不會影響概率值的秩,從而也就不會影響AUC的值。而n和p是由樣本來決定的,與校正完全無關,因此參數校正不會影響AUC的值。

(2) 不會影響K-S

K-S值來源於Kolmogorov-Smirnov檢驗統計量:

其中和分別表示樣本中正樣本和負樣本的經驗分布函數,K-S指標表示正樣本和負樣本預測概率的經驗分布的最大垂直距離。由於參數校正沒有影響概率值的秩,從而也就不會影響經驗分布以及由此產生的KS值。

(3) 對模型的后續實施的影響

盡管參數校正不會影響預測概率的相對位置,但是會使預測出的概率值降低,從而使得預測出的概率值是更接近個體的真實概率。在精准營銷中,我們有時會給出一個確定的閾值,將預測概率高於該閾值的個體實施營銷策略,這樣校准后的概率無疑會使得精准營銷的名單更加合理,但是如果我們只是確定概率排名前5%或者10%的個體實施實施營銷策略,那么校准與否不會對精准營銷名單產生影響。在信用評分中,違約概率決定了信用評分的高低,有時候還會涉及多個模型的評分對比,那么參數校正也是非常重要的。

4. 結語

既然特殊抽樣后還需要校正,那么為何不直接抽取與總體一致的正樣本比例的建模樣本呢?一方面,正樣本比例過低,會給模型的參數估計帶來不良的影響,模型的誤差會增加;另一方面,實際操作方法也是由具體數據情況決定的,比如我們有10,0000個樣本,其中只有500個正樣本,為了確保正樣本特征的完整呈現,合理的做法應該是將這500個樣本全部納入建模樣本,為了節約模型的訓練時間,往往會少抽取一些負樣本,這樣特殊抽樣也就不可避免。

關於我們

我們是KPMG專業數據挖掘團隊,在微信公眾號(kpmgbigdata)中,我們會在每周六晚8點准時推送一篇原創文章。文章都是由項目經驗豐富的博士以及資深顧問精心准備,內容也是結合實際業務的理論應用和心得體會等干貨。歡迎大家關注我們的微信公眾號,關注原創數據挖掘精品文章。如果想要聯系我們,也可以在公眾號中直接發送想說的話與我們聯系交流。返回搜狐,查看更多


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM