西瓜書第四章 決策樹


  讀書筆記 周志華老師的《機器學習》

 

4.1 基本流程

  一個決策樹包含一個根結點、若干個內部結點和若干個葉結點;葉結點對應於決策結果,其他每個結點則對應於一個屬性測試;每個結點包含的樣本集合根據屬性測試的結果被划分到子結點中;根結點包含樣本全集,從根結點到每個葉結點的路徑對應了一個判定測試序列。

  決策樹的生成是一個遞歸過程,在決策樹基本算法中,有三種情形會導致遞歸返回:(1)當前節點包含的樣本全屬於同一類別,無需划分;(2)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法划分;把當前結點標記為葉結點,並將其類別設定為該結點所含樣本最多的類別,利用了當前結點的后驗分布(3)當前結點包含的樣本集合為空,不能划分,把當前結點標記為葉結點,但將其類別設定為其父節點所含樣本最多的類別,這里是將父結點的樣本分布作為當前結點的先驗分布。

 

4.2 划分選擇

  希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的“純度”purity越來越高

信息增益

  “信息熵”information entropy是度量樣本集合純度最常用的一種指標,假定當前樣本集合D中第k類樣本所占比例為p_k(k=1,2,...,|y|),則D的信息熵定義為

  End(D)的值越小,則D的純度越高。

  用屬性a對樣本集D進行划分所獲得的“信息增益”information gain:

  一般而言,信息增益越大,使用屬性a來進行划分所獲得的“純度提升”越大,所以划分屬性,

增益率

  如果使得每個樣例的編號作為屬性,每個分支有一個樣本,這些分支結點的純度已達到最大,但是這樣的決策樹不具有泛化能力,無法對新樣本進行有效預測,信息增益准則對可取值數目較多的屬性有所偏好。

  著名的C4.5決策樹算法使用“增益率”gain ratio來選擇最優划分屬性。

  增益率准則對可取值數目較少的屬性有多偏好,因此,C4.5算法並不是直接選擇增益率最大的候選划分屬性,而是使用了一個啟發式:先從候選划分屬性中找出信息增益高於平均水平的屬性,再從中選擇增益率最高的。

基尼系數

  CART決策樹Classification and Regression Tree是一種著名的決策樹學習算法,分類和回歸都可用,CART決策樹使用“基尼系數”Gini index來選擇划分屬性。數據集D的純度可用基尼值來度量:

  Gini(D)反映了從數據集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此,Gini(D)越小,則數據集D的純度越高。

  屬性a的基尼指數定義為,

  我們在候選屬性集合A中,選擇使得划分后基尼指數最小的屬性作為最優划分屬性,即

 

4.3 剪枝處理

  剪枝pruning是決策樹學習算法對付“過擬合”的主要手段,決策樹分支過多,以至於把訓練集自身的一些特點當做所有數據都具有的一般性質而導致過擬合,“預剪枝”prepruning和“后剪枝”postpruning是決策樹剪枝的兩種基本策略,預剪枝是指在決策樹生成過程中,對每個結點在划分前先進行估計,若當前結點的划分不能帶來決策樹泛化性能提升,則停止划分並將當前結點標記為葉結點;后剪枝則是先從訓練集生成一顆完整的決策樹,然后自底向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化性能的提升,則將該子樹替換為葉結點。

  判別決策樹泛化性能提升:隨機划分數據集為訓練集和驗證集,根據上節中的一些准則選擇屬性划分,預剪枝根據划分前后的對驗證集預測結果進行評判是否繼續划分,降低了過擬合的風險,顯著減少了決策樹的訓練時間開銷和測試時間開銷,但有些分支的當前划分雖不能提升泛化性能、甚至導致下降,但在其基礎上進行后續划分有可能導致性能顯著提高,預剪枝可能帶來“欠擬合”風險。后剪枝從訓練集生成一顆完整的決策樹,自底向上決定是否剪枝,后剪枝決策樹通常比預剪枝決策樹保留了更多的分支,一般泛化能力優於預剪枝決策樹,欠擬合風險小,但是后剪枝決策樹在生成完全決策樹之后進行,並且要自底向上對樹中所有非葉結點逐一考察,訓練時間開銷比預剪枝和未剪枝都要大很多。

 

4.4 連續與缺失值

  連續值屬性一般采用二分法進行處理,對屬性區間尋找中位點進行划分,與離散屬性不同,若當前結點划分屬性為連續屬性,該屬性還可作為其后代結點的划分屬性。  

  缺失值處理:不完整樣本

  如何在屬性缺失的情況下進行划分屬性選擇?

  給定划分屬性,若樣本在該屬性上的值缺失,如何對樣本進行划分?

  若樣本x在划分屬性a上的取值未知,則將x同時划入所有子結點,且樣本權值在與屬性值a=v對應的子結點中調整為為~r_v*w_x.

 

4.5 多變量決策樹

  非葉結點不再是僅對某個屬性,而是對屬性的線性組合進行測試。

 

 

決策樹優點:計算量簡單,可解釋性強,比較適合處理有缺失屬性的樣本,能夠處理不相關的特征

     缺點:容易過擬合,后續出現了隨機森林,減小了過擬合現象

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM