一、決策樹不同算法信息指標:
發展過程:ID3 -> C4.5 -> Cart;
相互關系:ID3算法存在這么一個問題,如果某一個特征中種類划分很多,但是每個種類中包含的樣本個數又很少,就會導致信息增益很大的情況,但是這個特征和結果之間並沒有很大的相關性。所以這個特征就不是我們最終想優先決策的特征【這是ID3以信息增益作為指標的一個bug】,為了解決這個問題,引出信息增益率的概念,對應基於ID3的改進算法C4.5算法。
①信息增益(ID3算法):
簡單易懂,適合大部分場景;
但是因為分割越細錯分率越低,效果越好的原因,所以存在分割太細造成對訓練數據的過擬合問題,使得對測試數據的泛化效果差。
最高效的方案為根據各個特征的信息增益從大到小排列得到方案(特征的決策順序)。
計算效率高;
②信息增益率(C4.5算法):
信息增益率=某特征對於總體數據的信息增益 / 該特征自身的熵值
對ID3算法的改進:除了指標變化,其他部分大同小異;
信息增益率可以避免分割太細;【如果分割太細墳墓相應也會增加,信息增益率減小,該特征就不會被優先選中。】
最高效的方案為根據各個特征的信息增益率從大到小排列得到方案。
計算效率較低;
③基尼系數(Cart算法):
基尼(gini)系數:總體內部包含越混亂,基尼系數越大;內部純度越高,基尼系數越小。
基尼系數公式:

k為某節點中包含樣本的種類數目;
pi為某節點中某類樣本數目 / 該節點中樣本總數。
基尼系數計算示例:

最高效的方案為gini系數最小的方案。基尼系數越小,不確定性越小;
但也存在分割過細,容易造成過擬合的情況;通常利用剪枝操作處理;
計算代價高。【可采用特定方法降低計算代價】
二、決策樹的“代價函數”——評價函數
所謂決策樹的“代價函數”其實就是一個對決策樹最優化的定量表述。
評價函數:C(T)=sumi∈leaf [ Ni*H(t) ];
評價函數中的Ni 是每個葉子節點中樣本的個數,在這個公式中相當於權重;H(t)是每個葉子節點的熵值;
評價函數越小越好,為什么呢?因為評價函數中H(t)表示熵值,對於每一個葉子節點我們是希望他的熵值越小越好的,也就是純度(一個節點內包含的樣本種類少)越高越好,純度越高表明分類效果越好【葉子節點就是沒有子節點的節點】
三、對數據集的利用:交叉驗證法:cross-validation
【3 folds cross validation:訓練集:測試集=2:1(從3份中選1份:可以是隨機采樣,然后按比例划分數據集)】
10 folds cross validation : 訓練集:測試集=9:1(從10份中選1份:可以是隨機采樣,然后按比例划分數據集)
第一次:選1作為測試集,選2~9作為訓練集;
第二次:選2作為測試集,選1,3~10作為訓練集;
...
最后,取平均錯分率作為總的錯分率;
參考資料:
1.https://zhuanlan.zhihu.com/p/30059442,作者:犀利哥的大實話
2.https://www.bilibili.com/video/BV1Ps411V7px?p=5,作者:藍亞之舟
3.https://www.cnblogs.com/volcao/p/9478314.html,作者:volcano! 【相關代碼】
