主要算法
ID3 算法
核心思路:在決策樹各個結點上應用信息增益准則選擇特征,遞歸地構建決策樹。
具體方法:(1)從根結點(root node)開始,對結點計算所有可能的特征的信息增益,然后選擇信息增益最大的特征作為結點的特征,並由該特征的不同取值建立子結點;(2)再對子結點遞歸地調用以上方法,構建決策樹。
決策樹構建停止條件:直到所有的信息增益均很小或沒有特征可以選擇為止。
ID3相當於用極大似然法進行概率模型的選擇.
缺點:ID3算法只有樹的生成,所以該算法生成的樹容易產生過擬合。
C4.5 算法
** 采用信息增益比來選擇特征。**
CART(classification and regression)算法
CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率。既可以用於分類也可以用於回歸。
- 分類決策樹
CART假定決策樹是二叉樹。 分類決策樹就是遞歸地構建二叉決策樹地過程。
- 回歸決策樹
決策樹剪枝
剪枝的目的在於:緩解決策樹的"過擬合",降低模型復雜度,提高模型整體的學習效率
(決策樹生成學習局部的模型,而決策樹剪枝學習整體的模型)
基本策略:
-
預剪枝:是指在決策樹生成過程中,對每一個結點在划分前進行估計,若當前結點的划分不能帶來決策樹泛化性能提升,則停止划分並將當前結點標記為葉子結點。
優點:降低了過擬合地風險,並顯著減少了決策樹地訓練時間開銷和測試時間開銷。
缺點:有些分支地當前划分雖不能提升泛化性能、甚至可能導致泛化性能下降,但是在其基礎上進行地后續划分卻可能導致性能顯著提高;
預剪枝基於'貪心'本質禁止這些分支展開,給預剪枝決策樹帶來了欠擬合的風險。 -
后剪枝:先從訓練集生成一棵完整的決策樹,然后自底向上地對非葉子結點進行考察,若將該結點對應地子樹替換為葉結點能帶來決策樹泛化性能提升,則將該子樹替換為葉結點。
優點:一般情況下后剪枝決策樹的欠擬合風險很小,泛化性能往往優於預剪枝決策樹。
缺點:自底向上的注意考察,時間開銷較高。
現有的后剪枝方法
- 基於極小化損失函數或代價函數的剪枝(李航:《統計學習方法》)。
設樹T的葉結點個數為|T|,t是樹T的葉結點,該葉節點有\(N_t\)個樣本,其中k類的樣本
有N_(tk)個,\(k=1,2,...,V\),\(H_t(T)\)為葉結點t上的經驗熵,α>=0
為參數,則決策樹的
損失函數可以定義為:
2.其它方法
文獻:決策樹的剪枝策略研究
參考文獻:
1.周志華.《機器學習》,2016版.
2.李航.《統計學習方法》.
3.機器學習實戰
4.黎婭,郭江娜.決策樹的剪枝策略研究[J].河南科學,2009,27(03):320-323