決策樹分類算法,針對離散數據來進行預測的。
ID3算法
缺點1:用信息增益來作為選擇分支屬性標准的話,偏向於取值較多的那個屬性
缺點2:只能處理離散型的屬性
缺點3:對於比較小的數據集是有效的
缺點4:可能會出現過度擬合的問題
1.信息增益
描述屬性(條件屬性)
類別屬性(分類屬性)“也是預測的對象”
信息增益=無條件熵-條件熵
G(C,Ak) = E(C) - E(C,Ak)
例題:
對於如表6.14所示的訓練數據集。構造其決策樹。有一個客戶信息如下:X=(有房=‘否’,婚姻狀況=‘已婚’,年收入=‘中’),采用決策樹分類法,預測該客戶的拖欠貸款類別。
結果:求得的年收入的信息增量最大,所以年收入是根節點(決策屬性)