python金融風控評分卡模型和數據分析微專業課(博主親自錄制視頻):http://dwz.date/b9vv
醫葯統計項目可聯系
QQ:231469242
洛倫茲曲線(Lorenz curve)也叫提升圖或收益曲線
提升圖主要通過隨機選擇比較模型表現。
綠色曲線比黃色曲線更加不平衡
基尼系數=A/(A+B)
A+B為正方形一半恆定面積,A區間面積越大,基尼系數越大
Lift, Lift Table, and Lift Chart
提升指數、提升表和提升圖
1. 什么是Lift?
I) Lift(提升指數)是評估一個預測模型是否有效的一個度量;這個比值由運用和不運用這個模型所得來的結果計算而來。
II) 一個簡單的數字例子:
i. 比如說你要向選定的1000人郵寄調查問卷。以往的經驗告訴你大概20%的人會把填好的問卷寄回給你,即1000人中有200人會對你的問卷作出回應(response),用統計學的術語,我們說baseline response rate是20%;
ii. 如果你現在就郵寄問卷,1000份你期望能收回200份,這可能達不到一次問卷調查所要求的回收率,比如說工作手冊規定郵寄問卷回收率要在25%以上;
iii. 通過以前的問卷調查,你收集了關於問卷采訪對象的相關資料,比如說年齡、教育程度之類。利用這些數據,你確定了哪類被訪問者對問卷反應積極。假設你已經利用這些過去的數據建立了模型,這個模型把這1000人分了類,現在你可以從你的千人名單中挑選出反應最積極的100人來,這10%的人的反應率(response rate)為60%。那么,對這100人的群體(我們稱之為Top 10%),通過運用我們的模型,相對的提升(gain or lift value)就為60%/20%=3;換句話說,與不運用模型而隨機選擇相比,運用模型而挑選有3倍的好處;
iv. 類似地,對占總樣本的任何比例的人群,我們都可以計算出相應的提升指數,比如說我們可以計算Top 20%的群體的提升指數。
III) 一個結論就是,提升指數越大,模型的運行效果越好。
2. 建立Lift Table 的步驟(並畫出Lift Chart),以驗證信用評分模型為例:
I) 利用已經建立的評分模型,對我們要驗證的樣本進行評分。樣本下的每一個個體都將得到一個分數,或者是違約概率,或者是一個分值;
II) 對樣本按照上面計算好的分數進行降序排序;
III) 把已經排好序的樣本依次分成10個數量相同的群體,我們就建立了一個叫decile的變量,它依次取10個值,1、2、3、4、5、6、7、8、9、10,diclie1包括違約概率值較高的10%的個體,diclie2包括下一個10%的群體,以此類推;
IV) 帳戶總數是每個decile下的樣本數,它是整個樣本數的10%;
V) 邊際壞賬數是每個decile內違約的人數,就是說,利用我們的評分模型,在decile1,有25個人違約,以此類推;
VI) 累計壞賬數,45表明前兩個decile內共有45個人違約,以此類推;
VII) 邊際壞賬率是每個decile內壞賬的比率。對decile1,邊際壞賬率由25/100得來;
VIII) 對每一個加總的decile,都計算一個累計壞賬率,比如說,對前兩個decile,也就是整個樣本的20%,累計壞賬率等於(25+20)/(100+100);
IX) 在每個decile里,提升指數(Lift)就是相應的累計壞賬率與平均壞賬率的偏離程度,計算公式是(累計壞賬率-平均壞賬率)/平均壞賬率,習慣上還會乘上一個100。
X)
注:在一些處理中,提升指數直接由每個decile的累計壞賬率除以平均壞賬率得來,它們之間就相差1,一個是相對偏離,一個是偏離。
XI) 就我們考察的信用評分模型,它的目的就是盡可能把人群區別來開來,比如說“好”的顧客、 “壞”的顧客。提升指數越大,表明模型運作效果越好。
表1:Lift Table
(注:該表內數字純粹為了演示,沒有任何實際背景)
python機器學習生物信息學系列課(博主錄制):
http://dwz.date/b9vw