C4.5和ID3的差別

決策樹分為兩大類：分類樹和回歸樹，前者用於分類標簽值，后者用於預測連續值，常用算法有ID3、C4.5、CART等。

信息熵

信息量:

信息熵:

信息增益

當計算出各個特征屬性的量化純度值后使用信息增益度來選擇出當前數據集的分割特征屬性；如果信息增益度的值越大，表示在該特征屬性上會損失的純度越大，那么該屬性就越應該在決策樹的上層，計算公式為：

Gain為A為特征對訓練數據集D的信息增益，它為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(D|A)之差。

ID3

ID3算法是決策樹的一個經典的構造算法，內部使用信息熵以及信息增益來進行構建；每次迭代選擇信息增益最大的特征屬性作為分割屬性。

優點:

決策樹構建速度快；實現簡單；

缺點：

計算依賴於特征數目較多的特征，而屬性值最多的屬性並不一定最優ID3算法不是遞增算法ID3算法是單變量決策樹，對於特征屬性之間的關系不會考慮抗噪性差只適合小規模數據集，需要將數據放到內存中

C4.5

在ID3算法的基礎上，進行算法優化提出的一種算法(C4.5)；現在C4.5已經是特別經典的一種決策樹構造算法；使用信息增益率來取代ID3算法中的信息增益，在樹的構造過程中會進行剪枝操作進行優化；能夠自動完成對連續屬性的離散化處理；C4.5算法在選中分割屬性的時候選擇信息增益率最大的屬性，涉及到的公式為：

優點：

產生的規則易於理解准確率較高實現簡單

缺點：

對數據集需要進行多次順序掃描和排序，所以效率較低只適合小規模數據集，需要將數據放到內存中

CART

使用基尼系數作為數據純度的量化指標來構建的決策樹算法就叫做CART(Classification And Regression Tree，分類回歸樹)算法。CART算法使用GINI增益作為分割屬性選擇的標准，選擇GINI增益最大的作為當前數據集的分割屬性；可用於分類和回歸兩類問題。強調備注：CART構建是二叉樹。