決策樹基本原理

本文轉載自查看原文 2020-03-15 14:35 636 算法

決策樹的幾個常用算法：ID3, C4.5和CART算法

原理：

要對數據進行分類，涉及到通過選取什么樣的特征對數據進行分類，比如將柚子和西瓜進行分類，可以選取（大小、顏色、甜度等特征）

決策樹的功能就是判斷使用哪個特征，然后選取他認為最好的特征對數據進行分類。

那么他是如何選取最好的特征呢？

對於ID3（選取信息增益最大的特征），C4.5（選擇信息增益率最大的特征），CART（選擇基尼值最小的特征）

1）ID3信息增益計算：

baseEnt = -Σ p_i * log₂(p_i)

InfoGain = baseEnt - Σ p_j * ent(j) # 信息增益：j 表示以此數據特征來分類后的其他特征（需剔除j數據）

2）C4.5信息增益率計算：

信息增益率=信息增益 / Σ p_j*log₂(p_j)

3）gini系數的計算

gini = -Σ p_j ²

通常不會一次就能把數據進行分類（比如橘子和檸檬），可能需要不斷地計算當前數據的信息熵（增益率、基尼值）選取最好的特征然后分類迭代下去，直到達到設置的條件（比如一定的樹深度）。

1、計算復雜度不高

2、結果易於理解

3、對中間值缺失不敏感

可能會產生過度匹配問題

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹原理決策樹分類原理決策樹算法原理(上) 決策樹(ID3 )原理及實現【Python機器學習實戰】決策樹和集成學習（一）——決策樹原理決策樹算法2-決策樹分類原理2.3-信息增益率決策樹決策樹算法決策樹算法 KNN與決策樹