決策樹(二)：信息增益（率）/gini系數&評價函數&交叉驗證

本文轉載自查看原文 2020-04-30 20:33 1368 機器學習

一、決策樹不同算法信息指標：

發展過程：ID3 -> C4.5 -> Cart;

相互關系：ID3算法存在這么一個問題，如果某一個特征中種類划分很多，但是每個種類中包含的樣本個數又很少，就會導致信息增益很大的情況，但是這個特征和結果之間並沒有很大的相關性。所以這個特征就不是我們最終想優先決策的特征【這是ID3以信息增益作為指標的一個bug】，為了解決這個問題，引出信息增益率的概念，對應基於ID3的改進算法C4.5算法。

①信息增益（ID3算法）：

簡單易懂，適合大部分場景；

但是因為分割越細錯分率越低，效果越好的原因，所以存在分割太細造成對訓練數據的過擬合問題，使得對測試數據的泛化效果差。

最高效的方案為根據各個特征的信息增益從大到小排列得到方案（特征的決策順序）。

計算效率高；

②信息增益率（C4.5算法）：

信息增益率=某特征對於總體數據的信息增益 / 該特征自身的熵值

對ID3算法的改進：除了指標變化，其他部分大同小異；

信息增益率可以避免分割太細；【如果分割太細墳墓相應也會增加，信息增益率減小，該特征就不會被優先選中。】

最高效的方案為根據各個特征的信息增益率從大到小排列得到方案。

計算效率較低；

③基尼系數（Cart算法）：

基尼(gini)系數：總體內部包含越混亂，基尼系數越大；內部純度越高，基尼系數越小。

基尼系數公式：

k為某節點中包含樣本的種類數目；

pi為某節點中某類樣本數目 / 該節點中樣本總數。

基尼系數計算示例：

最高效的方案為gini系數最小的方案。基尼系數越小，不確定性越小；

但也存在分割過細，容易造成過擬合的情況；通常利用剪枝操作處理；

計算代價高。【可采用特定方法降低計算代價】

二、決策樹的“代價函數”——評價函數

所謂決策樹的“代價函數”其實就是一個對決策樹最優化的定量表述。

評價函數：C(T)=sum_i∈leaf[ N_i*H(t) ];

評價函數中的N_i是每個葉子節點中樣本的個數，在這個公式中相當於權重；H(t)是每個葉子節點的熵值；

評價函數越小越好，為什么呢？因為評價函數中H(t)表示熵值，對於每一個葉子節點我們是希望他的熵值越小越好的，也就是純度（一個節點內包含的樣本種類少）越高越好，純度越高表明分類效果越好【葉子節點就是沒有子節點的節點】

三、對數據集的利用：交叉驗證法：cross-validation

【3 folds cross validation：訓練集：測試集=2：1（從3份中選1份：可以是隨機采樣，然后按比例划分數據集）】

10 folds cross validation : 訓練集：測試集=9：1（從10份中選1份：可以是隨機采樣，然后按比例划分數據集）

第一次：選1作為測試集，選2~9作為訓練集；

第二次：選2作為測試集，選1，3~10作為訓練集；

...

最后，取平均錯分率作為總的錯分率；

參考資料：

1.https://zhuanlan.zhihu.com/p/30059442，作者：犀利哥的大實話

2.https://www.bilibili.com/video/BV1Ps411V7px?p=5，作者：藍亞之舟

3.https://www.cnblogs.com/volcao/p/9478314.html，作者：volcano！【相關代碼】

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹算法-信息熵-信息增益-信息增益率-GINI系數-轉決策樹算法2-決策樹分類原理2.3-信息增益率決策樹--信息增益，信息增益比，Geni指數的理解決策樹(一)：原理&熵&條件熵&信息增益決策樹 - 熵,信息增益的計算《機器學習(周志華)》筆記--決策樹（2）--划分選擇：信息熵、信息增益、信息增益率、基尼指數決策樹算法2-決策樹分類原理2.2-信息增益信息熵、信息增益、信息增益率、gini、woe、iv、VIF 統計學習方法之決策樹（2）信息增益比，決策樹的生成算法 python實現簡單決策樹（信息增益）——基於周志華的西瓜書數據