決策樹屬性選擇度量總結


一.決策樹歸納

 
發展歷程:
ID3-->C4.5-->CART
 

二.常用度量方法

 
常見的度量方法有:信息增益,增益率,基尼指數(Gini指數)
例子:
判斷一個用戶是否會購買電腦的數據,下面的計算都是以這里例子的數據作為計算。
屬性為:age,income,student,credit_rating
label為:buys_computers(no,yes)
  1. 信息增益
 
信息熵公式定義:
 
其中m為分類個數,Pi為第i個類別的所有樣本數量占所有樣本的數量比例。這個公式衡量的是帶分類樣本即整個數據集D的熵。
首先,計算整個數據集的信息熵(數據集的雜亂程度)
 
 
之所以以2為底,計算機是二進制01編碼的。所以顯示需要0.940位才能表示整個數據集。同時說明數據集的雜亂程度為0.940.
當我們在建樹的時候,應該在下一步選擇哪個屬性?選擇這個屬性之后能使整個數據集的雜亂程度減少多少?假設我們選擇age作為下一步划分的屬性,則age作為划分之后,數據集的雜亂程度是:
 
 
 
age屬性下面有三個類別:youth,middle_aged,senior。分布占數據集的5/14,4/14,5/14。括號每個類別信息熵,如youth中no占比2/5,yes占比3/5。
那么以age屬性划分的信息增益為:
 
 
 
就是說當我們以age作為划分之后,能消除數據集的雜亂程度的量為:0.246。同理其他的屬性信息增益為:Gain(income)=0.029。Gain(student)=0.151,Gain(credit_rating)=0.048。我們當然是尋找消除能力最大的屬性作為划分,這里就是age。就是這么不斷地根據屬性划分,知道達到一定條件:樹高度,信息增益足夠小或者不可分割了等(這部分不細說)。
 
對於連續值,先遞增排序,然后可以根據每對相鄰的值的中點划分,計算信息增益來選擇。
 
划分屬性選擇: 選擇新增增益最大的屬性作為划分
 
信息增益划分的缺點
 
偏向具有能分割更分散的數據的屬性,例如如果划分的屬性為product_id,那么最終計算出來的信息熵為0,信息增益最大。但是這種划分是沒有意義的。
 
  1. 增益率
 
為了克服信息增益的缺點,采用增益率來作為衡量指標。
思考:既然信息增益有偏向大量值的傾向,那么找到一種方法歸一化這種大量值屬性的信息增益,使所有的信息增益都處在一個公平的度量環境下就好。
信息增益率的定義:
其中:
 
以income屬性為例:
Gain(income)=0.029,而
 
那么信息增益率為:Gain(income)/info(income)=0.029/1.557=0.019
 
划分屬性選擇:選擇最大信息增益率的屬性做划分。
 
信息增益率的缺點:
信息增益率雖然解決了信息增益的缺點,但是它傾向於產生不平衡的划分,其中一個分區比其他分區小得多。
 
  1. 基尼指數
 
基尼指數要求樹是二叉樹,衡量的是數據集D的不純度,基尼指數的定義為:
 
Pi是D中元組屬於Ci類的概率。為何這里用元組了,以income為例,income下面的類型有:{low,medium,high} 三個類別。這三個類別產生的元組為:{low,medium,high},{low,medium},{low,high},{medium,high},{low},{medium},{high}和{}。這些都是income屬性下面的類別產生的划分元組,不考慮全集{low,medium,high}和空集,那么如果一個屬性下面有v個類別,則有2^2-1種划分方式。
 
拿屬性A中的其中一個元組作為划分,將數據集D划分為D1,D2兩個部分。則D的阻尼指數為:
 
那么根據這個元組的划分導致的不純度降低為:
 
 
例子:
根據一開始的數據,先計算整個數據集的基尼指數,9個樣本屬於buys_computer=yes,5個屬於buys_computer=no。根節點的基尼指數為:
 

 
根據income這個屬性來划分,考慮其中一個元組{low,medium}的划分,屬於{low,medium}的划分到D1,其余的划分到D2。該划分產生的基尼指數為:
 
 
以此類推,可以計算其他元組的基尼指數,然后計算不純度降低了多少,選擇不純度降低最大的作為分裂的准則,產生兩個分支,然后再往下走。
 
由於基尼指數的要求的是二元划分,所以計算量大很多。特別是在連續值的時候。
 
划分屬性選擇: 選擇基尼指數最小的屬性作為划分
 
基尼指數的缺點:
偏向多值屬性,當類的數量大時候計算很困難。
 

三.總結

1.根據信息增益最大的屬性作為分裂節點
2.根據信息增益率最大的屬性作為分裂節點
3.根據阻尼指數最小的屬性作為分裂節點
 
其他屬性度量方法(還沒去研究):卡方檢驗,C-SEP,G-統計量
 
參考:
書籍《數據挖掘概念與技術》第8章第214頁。
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM