聯合建模心得


一、風險模型

1)在抽取樣本的時候,最少需要有兩期表現才可以,逾期超過15的label=1,逾期小於5天的label=0,因為逾期小於5天的有些可能是因為忘記的,意願上並不願意真正逾期。正負樣本比例,不一定非得按自然分布來,逾期樣本可以適當多一些,這樣更能准確反映負樣本的信息

2)如何根據測試樣本的score分數划線篩選客戶呢?(前提:測試樣本共計13400個,其中1142個逾期的,逾期率為8.5%)

  • 根據score分進行排序,由高到底進行排序,高分的代表風險高。
  • 取風險最高的top12%的用戶,約1623個,逾期347個,占比26%左右,占整個逾期比例為30.3%。也就說根據測試樣本結果,如果按風險最高的top12%划風險線,線為0.246,則可以篩選出30.3%的逾期客戶。
  • 取風險最高的top21%,約2811個,逾期501,占比17.8%,占整個逾期43.9%。
  • 從2和3得出,取top12%的時候,里面篩選的逾期比例26%高於top21%的17.8%,所以按top12%篩選合適,因為如果按21%篩選了,雖然絕對逾期人數篩選出來更多了,但是相對逾期客戶比例少了,也就是后面增加9%的用戶性價比不如top12%的,冤枉了更多好人。

二、營銷模型

1)抽取樣本的時候,注冊或者進件的可以混在一起作為正樣本,比例可以按6:4,因為進件率基本就在40%左右。負樣本就是營銷無反應的那批客戶。

2)建模的時候,由於電話或短信營銷往往集中在幾天,所以負樣本就往往集中在一個月的幾天,比如抽取9,10,11月作為樣本,那負樣本都只集中在這三個月的中的某幾天,正樣本還分布比較均勻一些。這種情況的樣本,如果按時間排序分配test、valid、train,經實際測驗發現,會造成test的ks值高於valid,valid的ks值會高於train,不符合常規結果。其原因就是負樣本分布及其不均衡導致的,比如11月的負樣本在1,2,3三天,這樣造成test的樣本集里面,負樣本可能沒有,或者占比一點點。解決辦法就是打散了隨機分配三種樣本,比例還可以是6:2:2。

這個也是告訴我們,正負樣本比例在train,valid,test三個集里面一定要一致切相對均衡。

 

三、營銷聯合建模案例一(BJ)

在進行營銷建模的時候,正負樣本各10萬,PR曲線和KS曲線分別出現了如下奇怪的圖形,此時KS=0.34,auc=0.71,top35recall=0.51:

如上圖PR曲線和KS曲線均出現了斷崖式的奇怪形狀,而且ROC曲線前部分還可以,后半部分接近直線了,也比較一般。經過看人數分組分數分組才發現,是有將近1.8萬人最后預測的分數一模一樣,這就很奇怪了,怎么會這么多人分數一模一樣呢?

把1.8萬人提出來分別看各個特征才發現,原來這部分人的所有特征都為NULL,也就是與第三方撞庫的時候沒有匹配上,而在建模前也沒有剔除這部分用戶。剔除這部分用戶后曲線一切變正常了,此時KS=0.466,AUC=0.792,top35%recall=0.554,如下:

    總結:

   1)建模前一定要把缺失率非常高的用戶剔除掉,尤其接近100%缺失率的用戶,否則影響模型效果。

        2)曲線不正常了,一定要細細分析一下什么原因,往往都是數據有問題造成的,通過曲線異常能幫助找出數據的問題。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM