決策樹(三)：常見算法及剪枝策略

本文轉載自查看原文 2020-04-24 11:16 1080 機器學習

核心思路：在決策樹各個結點上應用信息增益准則選擇特征，遞歸地構建決策樹。
具體方法：(1)從根結點(root node)開始，對結點計算所有可能的特征的信息增益，然后選擇信息增益最大的特征作為結點的特征，並由該特征的不同取值建立子結點；(2)再對子結點遞歸地調用以上方法，構建決策樹。

決策樹構建停止條件：直到所有的信息增益均很小或沒有特征可以選擇為止。
ID3相當於用極大似然法進行概率模型的選擇.

缺點：ID3算法只有樹的生成，所以該算法生成的樹容易產生過擬合。

** 采用信息增益比來選擇特征。**

CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率。既可以用於分類也可以用於回歸。

剪枝的目的在於：緩解決策樹的"過擬合"，降低模型復雜度，提高模型整體的學習效率
(決策樹生成學習局部的模型，而決策樹剪枝學習整體的模型)

基本策略：

預剪枝：是指在決策樹生成過程中，對每一個結點在划分前進行估計，若當前結點的划分不能帶來決策樹泛化性能提升，則停止划分並將當前結點標記為葉子結點。
優點：降低了過擬合地風險，並顯著減少了決策樹地訓練時間開銷和測試時間開銷。
缺點：有些分支地當前划分雖不能提升泛化性能、甚至可能導致泛化性能下降，但是在其基礎上進行地后續划分卻可能導致性能顯著提高；
預剪枝基於'貪心'本質禁止這些分支展開，給預剪枝決策樹帶來了欠擬合的風險。
后剪枝：先從訓練集生成一棵完整的決策樹，然后自底向上地對非葉子結點進行考察，若將該結點對應地子樹替換為葉結點能帶來決策樹泛化性能提升，則將該子樹替換為葉結點。
優點：一般情況下后剪枝決策樹的欠擬合風險很小，泛化性能往往優於預剪枝決策樹。
缺點：自底向上的注意考察，時間開銷較高。

現有的后剪枝方法

基於極小化損失函數或代價函數的剪枝(李航：《統計學習方法》)。
設樹T的葉結點個數為|T|,t是樹T的葉結點，該葉節點有\(N_t\)個樣本，其中k類的樣本
有N_(tk)個，\(k=1,2,...,V\),\(H_t(T)\)為葉結點t上的經驗熵，α>=0為參數，則決策樹的
損失函數可以定義為：

參考文獻：

1.周志華.《機器學習》，2016版.

2.李航.《統計學習方法》.

3.機器學習實戰

4.黎婭,郭江娜.決策樹的剪枝策略研究[J].河南科學,2009,27(03):320-323

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹剪枝算法決策樹算法決策樹算法決策樹算法就是要你明白機器學習系列--決策樹算法之悲觀剪枝算法(PEP) 決策樹的剪枝，分類回歸樹CART 決策樹分類算法決策樹算法原理(上) 決策樹算法總結決策樹學習基決策樹學習基本算法