機器學習總結（4）—分類中的樹模型（決策樹及RF.GBDT集成模型）

本文轉載自查看原文 2020-11-11 17:43 554 機器學習

前言

　　過去幾個月，一直在學習機器學習模型，輸入只是學習的一部分，輸出可以幫助自己更熟練地掌握概念和知識。把一個復雜的事物簡單的講述出來，才能表示真正弄懂了這個知識。所以我將在博客中盡量簡單地把這些模型講述出來，以加深自己的掌握，也為他人提供一點點參考。感謝大神劉建平Pinard的博客，如有任何疑惑可參考該神博客，此作僅為狗尾續貂之作。

　　每個模型介紹都將用基本思想，輸入，輸出，損失函數，優化方法，偽代碼來進行介紹

正文

1.決策樹

　　基本思想　

　　決策樹是一個經典的分類算法，用if,else構成，可以分類，回歸，也可以拿來做集成模型的弱學習器，這里介紹sklearn中的決策樹方法，cart樹。

　　這就是決策樹模型，每個節點2分類，這里會產生一個問題，算法怎么知道先用哪個節點來分類最合適呢？CART分類樹算法使用基尼系數來決定用哪個特征進行分類，基尼系數代表了模型的不純度，基尼系數越小，則不純度越低，選用這個特征越好。

　　輸入

　　樣本X，屬於的分類標簽y

　　輸出

　　我們希望生成一棵樹，這棵樹由很多個節點組成，我們希望得到對於分類最合適的節點。

　　損失函數

　　這里我們的損失函數是基尼系數，我們希望每次選節點時，選取可以讓基尼系數最小的節點。假設有k個類別，每個類別有Ck個，共D個樣本。那么基尼系數的表達式是：

　　對於某一個特征把樣本化為兩個群體時，基尼系數的表達式為：

　　對於離散型特征來說，把所有離散特征用來分類，並比較一下，選用最小的，然后接下來的節點繼續這樣做

　　對於連續特征，具體的思路如下，比如m個樣本的連續特征A有m個，從小到大排列為 $a_{1}, a_{2}, . . ., a_{m}$

$a_{1}, a_{2}, . . ., a_{m}$

　　優化方法

　　決策樹沒有什么梯度下降等優化方法，就是計算然后比較，所以這里就介紹一下它的剪枝方法。

　　由於決策樹容易過擬合，為了增加泛化性能，我們對決策樹某些太細分的節點進行剪枝，那么怎么判斷是否是太過細分了呢？CART采用的辦法是后剪枝法，即先生成決策樹，然后產生所有可能的剪枝后的CART樹，然后使用交叉驗證來檢驗各種剪枝的效果，選擇泛化能力最好的剪枝策略

　　也就是說，CART樹的剪枝算法可以概括為兩步，

　　第一步是從原始決策樹生成各種剪枝效果的決策樹

　　第二步是用交叉驗證來檢驗剪枝后的預測能力，選擇泛化預測能力最好的剪枝后的樹作為最終的CART樹

　　首先我們看看剪枝的損失函數度量，在剪枝的過程中，對於任意的一刻子樹T,其損失函數為：

　　其中，

　　當這兩個相等時，代表可以剪枝

　　上面我們講到，可以計算出每個子樹是否剪枝的閾值

　　偽代碼

　　輸入：訓練集X，基尼系數閾值，樣本個數閾值

　　輸出：一顆決策樹T

　　1) 對於當前節點的數據集為X，如果樣本個數小於閾值或者沒有特征，則返回決策子樹，當前節點停止遞歸。

　　2) 計算樣本集X的基尼系數，如果基尼系數小於閾值，則返回決策樹子樹，當前節點停止遞歸。

　　3) 計算當前節點現有的各個特征的各個特征值對數據集X的基尼系數。對於缺失值的處理按之前所說。

　　4) 在計算出來的各個特征的各個特征值對數據集X的基尼系數中，選擇基尼系數最小的特征A和對應的特征值a。根據這個最優特征和最優特征值，把數據集划分成兩部分X1和X2，同時建立當前節點的左右節點，左節點的數據集X為X1，右節點的數據集X為X2.

　　5) 對左右的子節點遞歸的調用1-4步，生成決策樹。

　　如何解決回歸問題

　　回歸問題，用和方差度量損失，選擇分出的兩個集合的和方差最小的來進行節點分組：

　　前身（ID3和C4.5）

　　ID3通過信息論中的信息增益來尋找最優的節點，信息增益最大，就選哪個特征。無法處理缺失值，無法處理連續特征，且如果一個特征分類多，天然占優勢。還有過擬合的問題，另外ID3的分裂不是2分裂的方式。

　　C4.5為了解決上述問題，不能處理連續特征：把連續特征離散化，選出每個連續特征的中間節點。對於特征分類多天然占優的情況：改進一下用信息增益比來度量（連續特征還是信息增益）。過擬合與CART樹采用相同的剪枝處理。對缺失值處理：用CART樹相同的方法。C4.5也有缺點，計算用的熵模型，費時間。只能用於分類，分裂方式還是多叉樹。

2.隨機森林RF

　　基本思想

　　隨機森林是集成模型中的bagging模型，其基本思想是訓練多棵樹對同一數據進行預測，然后把這些樹預測結果做一個投票，投票加總進行分類。抄一張現成的圖：

　　隨機采樣：這里每棵樹的訓練在樣本中有放回隨機采樣，一般采m個。

　　訓練過程：隨機森林的每棵樹訓練過程與cart有一點不同，他不會選最優節點來划分，而是先隨機選一個特征子集，再在子集中選最優，增強泛化能力。

　　如何處理缺失值呢？和CART樹一樣，把缺失的特征的基尼系數*權重（意思就是你缺失了，你就乘以0.x，相比不缺失的特征，你就往后稍一稍），實在要用你分類了，缺失特征值的樣本同時划入你分的兩類中，同時這些樣本要分別乘以權重（這里權重就是分開的比例）

　　其實這里就已經把隨機森林介紹完了，輸入輸出，優化方法都是決策樹那一套了。

　　偽代碼　

　　1.for i in n(n顆子樹)

　　　　1.1 for i in m:隨機采樣數據集

　　　　1.2 隨機選擇特征子集，形成新的數據集

　　　　1.3 用數據集訓練一顆決策樹

　　2.統計n顆決策樹的分類結果

3.梯度提升樹GBDT

　　基本思想

　　GBDT是屬於集成學習中的Boosting方法，bagging是多個訓練器單獨訓練然后投票，而boosting方法是前面的學習結果要影響后面的一種方法（比如：這個弱學習器預測出來的一個樣本的結果不如意，下一個弱學習器訓練時，這個樣本的權重就會增加，這樣算損失函數的時候就會偏向這個樣本多一些）

　　以下介紹基於GBDT回歸樹：GBDT基於boosting思想，用殘差來擬合下一棵樹，最終形成強學習器。什么叫擬合殘差，舉個例子是這樣：如果你要吃一塊餅，你先吃完一半（0.5），再吃剩下一半的一半（0.25），如此往復，最終擬合整個1。GBDT就是第一顆樹盡量擬合，第二棵樹擬合這個殘差，第三棵樹再擬合剩下的殘差，f(最終) = f(初) + f(殘1) + f(殘2) +...第一輪的損失就是第二輪的殘差，第二輪的損失就是第三輪殘差。但是這個損失如何度量呢？