ID3算法實例分析

-
第1步計算決策屬性的熵——經驗熵

-
第2步計算條件屬性的熵——條件經驗熵
- 2-1步計算年齡的條件熵和信息增益

-
2-2步計算收入的條件熵和信息增益

-
2-3步計算學生的條件熵和信息增益

-
2-4步計算信譽的條件熵和信息增益

-
選擇節點 :選擇信息增益最大的屬性


繼續重復以上步驟,選擇下一個屬性繼續構造決策樹。
C4.5算法實例分析
對畢業生的就業信息進行分析,尋找可能影響畢業生就業的因素。

-
第1步,計算決策屬性的經驗熵(訓練集的全部信息量)
entropy(就業情況)=entropy(14,8)= -14/22*log2(14/22) - 8/22*log2(8/22) =0.945660
-
第2步,計算每個屬性的信息增益,以屬性“性別”為例
entropy(男)=entropy(10,7)= -10/17*log2(10/17)- 7/17*log2(7/17) =0.977417
entropy(女)=entropy(4,1)= -4/5*log2(4/5)- 1/5*log2(1/5) =0.721928
因此,“性別”的條件熵為:entropy(性別)=17/22*entropy(男)+5/22*entropy(女) =0.919351
因此,“性別”的信息增益為:Gain(性別)=entropy(就業情況) - entropy(性別) = 0.026308
-
第3步,計算樣本在“性別”屬性上的分裂信息
split_info(性別)= -17/22*log2(17/22) - 5/22*log2(5/22) =0.773226
-
第4步,計算樣本在“性別”屬性上的信息增益比
gain_ratio(性別)= Gain(性別)/split_info(性別) =0.026308/0.773226=0.034023
-
運用同樣的方法計算樣本在其他屬性上的信息增益比
gain_ratio(性別)=0.034023;
gain_ratio(學生干部)= 0.411714;
gain_ratio(綜合成績)=0.088391;
gain_ratio(畢業論文)= 0.101671
-
第5步,選擇分類屬性
由上述計算結果可知,“學生干部”屬性具有最大的信息增益比,取“學生干部”為根屬性,引出一個分支,樣本按此划分。對引出的每一個分支再用此分類方法進行分類,再引出分支,最后所構造出的決策樹如下圖所示。

CART算法實例分析(待添加)
參考:
