決策樹原理介紹


決策樹(decision tree)是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。

決策樹的生成是一個遞歸的過程。在決策樹的基本算法中,有三種情況會導致遞歸返回:(1)當前節點包含的樣本全屬於同一類別,無需划分;(2)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法划分;(3)當前節點包含的樣本集為空,不能划分。

划分選擇

決策樹學習的關鍵在於,在每個分裂節點處如何選擇最優划分屬性。一般而言,隨着划分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的“純度”越來越高。

ID3決策樹

信息增益

“信息熵”(information entropy)是度量樣本集合純度最常用的一種指標。

其中pi是S屬於類別i的比例,需要注意的是底數仍然為2,原因熵是以二進制位的個數來度量編碼長度,同時注意,如果目標屬性具有c個可能值,那么熵最大可能為log2(c)。

已經有了熵作為衡量訓練樣例集合純度的標准,現在可以定義屬性分類訓練數據的效力的度量標准。這個標准被稱為“信息增益(information gain)”。簡單的說,一個屬性的信息增益就是由於使用這個屬性分割樣例而導致的期望熵降低(或者說,樣本按照某屬性划分時造成熵減少的期望,個人結合前面理解,總結為用來衡量給定的屬性區分訓練樣例的能力)。更精確地講,一個屬性A相對樣例集合S的信息增益Gain(S,A)被定義為:

 

C4.5決策樹

增益率

實際上,信息增益准則對可取值數目較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,C4.5決策樹算法不直接使用信息增益,而是使用“增益率”(gain ratio)來選擇最優划分屬性。信息增益率的計算相關公式:

需注意的是,信息增益率對可取值數目較少的屬性有所偏好,因此,C4.5算法並不是直接選擇增益率最大的候選划分屬性,而是使用了一個啟發式的方法:先從候選划分屬性中找出信息增益高於平均水平的屬性,再從中選擇增益率最高的。

剪枝處理

剪枝(pruning)是決策樹學習算法對付“過擬合”的主要手段。在決策樹學習中,為了盡可能正確分類訓練樣本,節點划分過程不斷重復,有時會造成決策樹分支過多,這時就可能因訓練樣本學得“太好”了,以至於把訓練樣本自身的一些特點當作所有數據都具有的一般性質而導致過擬合。因此,可通過主動去掉一些分支來降低過擬合的風險。

決策樹剪枝的基本策略有“預剪枝”和“后剪枝”。預剪枝是指在決策樹生成的過程中,對每個節點在划分前先進行估計,若當前節點的划分不能帶來決策樹泛化性能的提升,則停止划分並將當前節點標記為葉節點;后剪枝則是先從訓練集生成一棵完整的決策樹,然后自底向上地對非葉節點進行考察,若將該節點對應的子樹替換為葉節點能帶來決策樹泛化性能提升,則將該子樹替換為葉節點。

那如何判斷決策樹泛化性能是否提升呢?可以使用留出法,即預留一部書數據用作“驗證集”以進行性能評估。

預剪枝

預剪枝使得決策樹的很多分支都沒有“展開”,這不僅降低了過擬合的風險,還顯著減少了決策樹的訓練時間開銷和測試時間開銷。但另一方面,有些分支的當前划分雖不能提升泛化性能,甚至可能導致泛化性能暫時下降,但在其基礎上進行的后續划分卻有可能導致性能顯著提高;預剪枝基於“貪心”本質禁止了這些分支展開,給預剪枝決策樹帶來了欠擬合的風險。

后剪枝

后剪枝決策樹通常比預剪枝決策樹保留了更多的分支。一般情形下,后剪枝決策樹的欠擬合風險很小,泛化性能往往優於預剪枝決策樹。但后剪枝過程是在生成完全決策樹之后進行的,並且要自底向上地對樹中的所有非葉節點進行逐一考察,因此其訓練時間開銷比未剪枝決策樹和預剪枝決策樹都要大得多。

 

CART

CART(分類與回歸樹,classification and regression tree)是一個二叉決策樹,亦即決策樹的每個內部節點(決策節點)最多有兩個分支。

CART算法由以下兩步組成:

(1)決策樹生成:基於訓練數據集生成決策樹,生成的決策樹要盡量大;

(2)決策樹剪枝:用驗證數據集對已生成的樹進行剪枝並選擇最優子樹,這時用損失函數最小作為剪枝的標准。

CART生成

決策樹的生成就是遞歸地構建二叉決策樹的過程,對回歸樹用平方誤差最小化准則,對分類樹用基尼指數(Gini index)最小化准則,進行特征選擇,生成二叉樹。

回歸樹的生成

選擇怎樣對輸入空間進行划分,這里采用啟發式的方法,選擇第j個變量和它取的值s,作為切分變量和切分點,並定義兩個區域:

然后尋找最優切分變量j和最優切分點s,具體地,求解:

對固定輸入變量j可以找到最優切分點s:

遍歷所有輸入變量,找到最優的切分變量j,構成一個對(j,s)。依此將輸入空間划分為兩個區域。接着,對每個區域重復上述划分過程,直到滿足停止條件為止,這樣就生成一棵回歸樹。這樣的回歸樹叫做最小二乘回歸樹。

分類樹的生成

分類樹用基尼指數選擇最優特征,同時決定該特征的最優二值切分點。

CART剪枝

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM