決策樹(二):信息增益(率)/gini系數&評價函數&交叉驗證


一、決策樹不同算法信息指標:

發展過程:ID3 -> C4.5 -> Cart;

相互關系:ID3算法存在這么一個問題,如果某一個特征中種類划分很多,但是每個種類中包含的樣本個數又很少,就會導致信息增益很大的情況,但是這個特征和結果之間並沒有很大的相關性。所以這個特征就不是我們最終想優先決策的特征【這是ID3以信息增益作為指標的一個bug】,為了解決這個問題,引出信息增益率的概念,對應基於ID3的改進算法C4.5算法。

①信息增益(ID3算法):

簡單易懂,適合大部分場景;

但是因為分割越細錯分率越低,效果越好的原因,所以存在分割太細造成對訓練數據的過擬合問題,使得對測試數據的泛化效果差。

最高效的方案為根據各個特征的信息增益從大到小排列得到方案(特征的決策順序)。

計算效率高;

②信息增益率(C4.5算法):

信息增益率=某特征對於總體數據的信息增益 / 該特征自身的熵值

對ID3算法的改進:除了指標變化,其他部分大同小異;

信息增益率可以避免分割太細;【如果分割太細墳墓相應也會增加,信息增益率減小,該特征就不會被優先選中。】

最高效的方案為根據各個特征的信息增益率從大到小排列得到方案。

計算效率較低;

③基尼系數(Cart算法):

基尼(gini)系數:總體內部包含越混亂,基尼系數越大;內部純度越高,基尼系數越小。

基尼系數公式:

k為某節點中包含樣本的種類數目;

pi為某節點中某類樣本數目 / 該節點中樣本總數。

 基尼系數計算示例:

最高效的方案為gini系數最小的方案。基尼系數越小,不確定性越小;

但也存在分割過細,容易造成過擬合的情況;通常利用剪枝操作處理;

計算代價高。【可采用特定方法降低計算代價】

 

二、決策樹的“代價函數”——評價函數

所謂決策樹的“代價函數”其實就是一個對決策樹最優化的定量表述。

評價函數:C(T)=sumi∈leaf [ Ni*H(t) ]; 

評價函數中的Ni 是每個葉子節點中樣本的個數,在這個公式中相當於權重;H(t)是每個葉子節點的熵值;

評價函數越小越好,為什么呢?因為評價函數中H(t)表示熵值,對於每一個葉子節點我們是希望他的熵值越小越好的,也就是純度(一個節點內包含的樣本種類少)越高越好,純度越高表明分類效果越好【葉子節點就是沒有子節點的節點】

 

三、對數據集的利用:交叉驗證法:cross-validation

【3 folds cross validation:訓練集:測試集=2:1(從3份中選1份:可以是隨機采樣,然后按比例划分數據集)】

10 folds cross validation : 訓練集:測試集=9:1(從10份中選1份:可以是隨機采樣,然后按比例划分數據集)

第一次:選1作為測試集,選2~9作為訓練集;

第二次:選2作為測試集,選1,3~10作為訓練集;

...

最后,取平均錯分率作為總的錯分率;

 

參考資料:

1.https://zhuanlan.zhihu.com/p/30059442,作者:犀利哥的大實話

2.https://www.bilibili.com/video/BV1Ps411V7px?p=5,作者:藍亞之舟

3.https://www.cnblogs.com/volcao/p/9478314.html,作者:volcano! 【相關代碼】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM