【數據倉庫與數據挖掘 - 決策樹分類算法】信息量、無條件熵、條件熵、信息增益


決策樹分類算法,針對離散數據來進行預測的。

ID3算法

缺點1:用信息增益來作為選擇分支屬性標准的話,偏向於取值較多的那個屬性

缺點2:只能處理離散型的屬性

缺點3:對於比較小的數據集是有效的

缺點4:可能會出現過度擬合的問題

1.信息增益

描述屬性(條件屬性)

類別屬性(分類屬性)“也是預測的對象”

 

信息增益=無條件熵-條件熵

G(C,Ak) = E(C) - E(C,Ak)

 

例題:

對於如表6.14所示的訓練數據集。構造其決策樹。有一個客戶信息如下:X=(有房=‘否’,婚姻狀況=‘已婚’,年收入=‘中’),采用決策樹分類法,預測該客戶的拖欠貸款類別。

 

 

 結果:求得的年收入的信息增量最大,所以年收入是根節點(決策屬性)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM