特征重要度 WoE、IV、BadRate


1.IV的用途

IV的全稱是Information Value,中文意思是信息價值,或者信息量。

我們在用邏輯回歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們有200個候選自變量,通常情況下,不會直接把200個變量直接放到模型中去進行擬合訓練,而是會用一些方法,從這200個自變量中挑選一些出來,放進模型,形成入模變量列表。那么我們怎么去挑選入模變量呢?

挑選入模變量過程是個比較復雜的過程,需要考慮的因素很多,比如:變量的預測能力,變量之間的相關性,變量的簡單性(容易生成和使用),變量的強壯性(不容易被繞過),變量在業務上的可解釋性(被挑戰時可以解釋的通)等等。但是,其中最主要和最直接的衡量標准是變量的預測能力。

“變量的預測能力”這個說法很籠統,很主觀,非量化,在篩選變量的時候我們總不能說:“我覺得這個變量預測能力很強,所以他要進入模型”吧?我們需要一些具體的量化指標來衡量每自變量的預測能力,並根據這些量化指標的大小,來確定哪些變量進入模型。IV就是這樣一種指標,他可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼系數等等。

 

IV表示一個變量的預測能力:

 

<=0.02,沒有預測能力,不可用

 

0.02~0.1 弱預測性

 

0.1~0.2 有一定預測能力

 

0.2+高預測性

 

 

2.對IV的直觀理解

從直觀邏輯上大體可以這樣理解“用IV去衡量變量預測能力”這件事情:我們假設在一個分類問題中,目標變量的類別有兩類:Y1,Y2。對於一個待預測的個體A,要判斷A屬於Y1還是Y2,我們是需要一定的信息的,假設這個信息總量是I,而這些所需要的信息,就蘊含在所有的自變量C1,C2,C3,……,Cn中,那么,對於其中的一個變量Ci來說,其蘊含的信息越多,那么它對於判斷A屬於Y1還是Y2的貢獻就越大,Ci的信息價值就越大,Ci的IV就越大,它就越應該進入到入模變量列表中。

 

3.IV的計算

前面我們從感性角度和邏輯層面對IV進行了解釋和描述,那么回到數學層面,對於一個待評估變量,他的IV值究竟如何計算呢?為了介紹IV的計算方法,我們首先需要認識和理解另一個概念——WOE,因為IV的計算是以WOE為基礎的。

 

3.1WOE

WOE的全稱是“Weight of Evidence”,即證據權重。WOE是對原始自變量的一種編碼形式。

要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱等等,說的都是一個意思)。分組后,對於第i組,WOE的計算公式如下:

 


其中,pyi是這個組中響應客戶(風險模型中,對應的是違約客戶,總之,指的是模型中預測變量取值為“是”或者說1的個體)占所有樣本中所有響應客戶的比例,pni是這個組中未響應客戶占樣本中所有未響應客戶的比例,#yi是這個組中響應客戶的數量,#ni是這個組中未響應客戶的數量,#yT是樣本中所有響應客戶的數量,#nT是樣本中所有未響應客戶的數量。

從這個公式中我們可以體會到,WOE表示的實際上是“當前分組中響應客戶占所有響應客戶的比例”和“當前分組中沒有響應的客戶占所有沒有響應的客戶的比例”的差異。

對這個公式做一個簡單變換,可以得到:


變換以后我們可以看出,WOE也可以這么理解,他表示的是當前這個組中響應的客戶和未響應客戶的比值,和所有樣本中這個比值的差異。這個差異是用這兩個比值的比值,再取對數來表示的。WOE越大,這種差異越大,這個分組里的樣本響應的可能性就越大,WOE越小,差異越小,這個分組里的樣本響應的可能性就越小。

關於WOE編碼所表示的意義,大家可以自己再好好體會一下。

 

3.2 IV的計算公式

有了前面的介紹,我們可以正式給出IV的計算公式。對於一個分組后的變量,第i 組的WOE前面已經介紹過,是這樣計算的:


同樣,對於分組i,也會有一個對應的IV值,計算公式如下:


有了一個變量各分組的IV值,我們就可以計算整個變量的IV值,方法很簡單,就是把各分組的IV相加:


其中,n為變量分組個數。

 

原文鏈接:https://blog.csdn.net/kevin7658/article/details/50780391

 

 ==========================================

評分卡模型之特征工程中的BadRate單調與特征分箱之間的聯系


Bad Rate:

    壞樣本率,指的是將特征進行分箱之后,每個bin下的樣本所統計得到的壞樣本率

bad rate 單調性與不同的特征場景: 

在評分卡模型中,對於比較嚴格的評分模型,會要求連續性變量和有序性的變量在經過分箱后需要保證bad rate的單調性。

    1. 連續性變量:

        在嚴格的評分卡模型中,對於連續型變量就需要滿足分箱后 所有的bin的 bad rate 要滿足單調性,只有滿足單調新的情況下,才能進行后續的WOE編碼

   2. 離散型變量:

        離散化程度高,且無序的變量:

        比如省份,職業等,我們會根據每個省份信息統計得到bad rate 數值對原始省份信息進行編碼,這樣就轉化為了連續性變 量,進行后續的分箱操作,對於經過bad rate編碼后的特征數據,天然單調。

       只有當分箱后的所有的bin的bad rate 呈現單調性,才可以進行下一步的WOE編碼

        離散化程度低,且無序的變量:

        比如婚姻狀況,只有四五個狀態值,因此就不需要專門進行bad rate數值編碼,只要求出每個離散值對應的bin的bad rate比例是否出現0或者1的情況,若出現說明正負樣本的分布存在極端情況,需要對該bin與其他bin進行合並, 合並過程完了之后 就可以直接進行后續的WOE編碼

        有序的離散變量:

        對於學歷這種情況,存在着小學,初中,高中,本科,碩士,博士等幾種情況,而且從業務角度來說 這些離散值是有序的, 因此我們在分箱的時候,必須保證bin之間的有序性,再根據bad rate 是否為0 或者1的情況 決定是否進行合並,最終將合並的結果進行WOE編碼

    因此bad rate單調性只在連續性數值變量和有序性離散變量分箱的過程中會考慮。

bad rate要求單調性的原因分析:

    1. 邏輯回歸模型本身不要求特征對目標變量的單調性。之所以要求分箱后單調,主要是從業務角度考慮,解釋、使用起來方便一點。如果有某個(分箱后的)特征對目標變量不單調,會加劇模型解釋型的復雜化

    2. 對於像年齡這種特征,其對目標變量往往是一個U型或倒U型的分布,有些公司/部門/團隊是允許變量的bad rate呈(倒)U型的。

原文鏈接:https://blog.csdn.net/shenxiaoming77/article/details/79548807

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM