決策樹(三):常見算法及剪枝策略


主要算法

ID3 算法

核心思路:在決策樹各個結點上應用信息增益准則選擇特征,遞歸地構建決策樹。
具體方法:(1)從根結點(root node)開始,對結點計算所有可能的特征的信息增益,然后選擇信息增益最大的特征作為結點的特征,並由該特征的不同取值建立子結點;(2)再對子結點遞歸地調用以上方法,構建決策樹。

決策樹構建停止條件:直到所有的信息增益均很小或沒有特征可以選擇為止。
ID3相當於用極大似然法進行概率模型的選擇.

缺點:ID3算法只有樹的生成,所以該算法生成的樹容易產生過擬合。

C4.5 算法

** 采用信息增益比來選擇特征。**

CART(classification and regression)算法

CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率。既可以用於分類也可以用於回歸。

  • 分類決策樹
    CART假定決策樹是二叉樹。 分類決策樹就是遞歸地構建二叉決策樹地過程。
  • 回歸決策樹

決策樹剪枝

剪枝的目的在於:緩解決策樹的"過擬合",降低模型復雜度,提高模型整體的學習效率
(決策樹生成學習局部的模型,而決策樹剪枝學習整體的模型)

基本策略:

  • 預剪枝:是指在決策樹生成過程中,對每一個結點在划分前進行估計,若當前結點的划分不能帶來決策樹泛化性能提升,則停止划分並將當前結點標記為葉子結點。
    優點:降低了過擬合地風險,並顯著減少了決策樹地訓練時間開銷和測試時間開銷。
    缺點:有些分支地當前划分雖不能提升泛化性能、甚至可能導致泛化性能下降,但是在其基礎上進行地后續划分卻可能導致性能顯著提高;
    預剪枝基於'貪心'本質禁止這些分支展開,給預剪枝決策樹帶來了欠擬合的風險。

  • 后剪枝:先從訓練集生成一棵完整的決策樹,然后自底向上地對非葉子結點進行考察,若將該結點對應地子樹替換為葉結點能帶來決策樹泛化性能提升,則將該子樹替換為葉結點。
    優點:一般情況下后剪枝決策樹的欠擬合風險很小,泛化性能往往優於預剪枝決策樹。
    缺點:自底向上的注意考察,時間開銷較高。

現有的后剪枝方法

  1. 基於極小化損失函數或代價函數的剪枝(李航:《統計學習方法》)。
    設樹T的葉結點個數為|T|,t是樹T的葉結點,該葉節點有\(N_t\)個樣本,其中k類的樣本
    有N_(tk)個,\(k=1,2,...,V\),\(H_t(T)\)為葉結點t上的經驗熵,α>=0為參數,則決策樹的
    損失函數可以定義為:

2.其它方法
文獻:決策樹的剪枝策略研究

參考文獻:

1.周志華.《機器學習》,2016版.

2.李航.《統計學習方法》.

3.機器學習實戰

4.黎婭,郭江娜.決策樹的剪枝策略研究[J].河南科學,2009,27(03):320-323


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM