決策樹分類算法


決策樹算法是一種歸納分類算法,它通過對 訓練集的學習,挖掘出有用的 規則,用於對 新集進行 預測。在其生成過程中,分割時屬性選擇度量指標是關鍵。通過屬性選擇度量,選擇出最好的將樣本分類的屬性。
 
å¸¸ç¨æ°æ®ææç®æ³ä»å¥é¨å°ç²¾é 第å­ç« <wbr> å³ç­æ <wbr>åç±»ç®æ³æ¦è¿°
 
 
決策樹分類算法,包括ID3算法、C4.5算法和CART算法。都屬於貪婪算法,自頂向下以遞歸的方式構造決策樹。
 
 

ID3算法實例分析

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

  • 第1步計算決策屬性的熵——經驗熵

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

  • 第2步計算條件屬性的熵——條件經驗熵

  • 2-1步計算年齡的條件熵和信息增益

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

  • 2-2步計算收入的條件熵和信息增益

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

  • 2-3步計算學生的條件熵和信息增益

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

  • 2-4步計算信譽的條件熵和信息增益

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

  • 選擇節點 :選擇信息增益最大的屬性

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

常用數據挖掘算法從入門到精通 第七章 ID3決策樹分類算法

繼續重復以上步驟,選擇下一個屬性繼續構造決策樹。

 

 

C4.5算法實例分析

對畢業生的就業信息進行分析,尋找可能影響畢業生就業的因素。

常用數據挖掘算法從入門到精通 第八章 C4.5決策樹分類算法

  • 第1步,計算決策屬性的經驗熵(訓練集的全部信息量)

entropy(就業情況)=entropy(14,8)= -14/22*log2(14/22) - 8/22*log2(8/22) =0.945660

  • 第2步,計算每個屬性的信息增益,以屬性“性別”為例

entropy(男)=entropy(10,7)= -10/17*log2(10/17)- 7/17*log2(7/17) =0.977417

entropy(女)=entropy(4,1)= -4/5*log2(4/5)- 1/5*log2(1/5) =0.721928

因此,“性別”的條件熵為:entropy(性別)=17/22*entropy(男)+5/22*entropy(女) =0.919351

因此,“性別”的信息增益為:Gain(性別)=entropy(就業情況) - entropy(性別) = 0.026308

  • 第3步,計算樣本在“性別”屬性上的分裂信息

split_info(性別)= -17/22*log2(17/22) - 5/22*log2(5/22) =0.773226

  • 第4步,計算樣本在“性別”屬性上的信息增益比

gain_ratio(性別)= Gain(性別)/split_info(性別) =0.026308/0.773226=0.034023

  • 運用同樣的方法計算樣本在其他屬性上的信息增益比

gain_ratio(性別)=0.034023;

gain_ratio(學生干部)= 0.411714;

gain_ratio(綜合成績)=0.088391;

gain_ratio(畢業論文)= 0.101671

  • 第5步,選擇分類屬性

由上述計算結果可知,“學生干部”屬性具有最大的信息增益比,取“學生干部”為根屬性,引出一個分支,樣本按此划分。對引出的每一個分支再用此分類方法進行分類,再引出分支,最后所構造出的決策樹如下圖所示。

常用數據挖掘算法從入門到精通 第八章 C4.5決策樹分類算法

 

 

CART算法實例分析(待添加)

 

參考:

 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM