GBDT(梯度提升樹) 原理小結


    在之前博客中,我們對Boosting家族的Adaboost算法做了總結,本文就對Boosting家族中另一個重要的算法梯度提升樹(Gradient Boosting Decison Tree, 以下簡稱GBDT)做一個總結。GBDT有很多簡稱,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其實都是指的同一種算法,本文統一簡稱GBDT。GBDT在BAT大廠中也有廣泛的應用,假如要選擇3個最重要的機器學習算法的話,個人認為GBDT應該占一席之地。

1. GBDT概述

    GBDT也是集成學習Boosting家族的成員,但是卻和傳統的Adaboost有很大的不同。回顧下Adaboost,我們是利用前一輪迭代弱學習器的誤差率來更新訓練集的權重,這樣一輪輪的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱學習器限定了只能使用CART回歸樹模型,同時迭代思路和Adaboost也有所不同。

    在GBDT的迭代中,假設我們前一輪迭代得到的強學習器是ft-1(x)損失函數是L(y,ft-1(x)) 我們本輪迭代的目標是找到一個CART回歸樹模型的弱學習器ht(x),讓本輪的損失L(t,ft-1(x)+ht(x))最小。也就是說,本輪迭代找到決策樹,要讓樣本的損失盡量變得更小。

 

    GBDT的思想可以用一個通俗的例子解釋,假如有個人30歲,我們首先用20歲去擬合,發現損失有10歲,這時我們用6歲去擬合剩下的損失,發現差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數還沒有完,可以繼續迭代下面,每一輪迭代,擬合的歲數誤差都會減小。

 

    從上面的例子看這個思想還是蠻簡單的,但是有個問題是這個損失的擬合不好度量,損失函數各種各樣,怎么找到一種通用的擬合方法呢?

2. GBDT的負梯度擬合

    在上一節中,我們介紹了GBDT的基本思路,但是沒有解決損失函數擬合方法的問題。針對這個問題,大牛Freidman提出了用損失函數的負梯度來擬合本輪損失的近似值進而擬合一個CART回歸樹。第t輪的第i個樣本的損失函數的負梯度表示為:

     

    利用(xi,rti)(i=1,2,...m),我們可以擬合一顆CART回歸樹,得到了第t顆回歸樹,其對應的葉節點區域Rtj,j=1,2,...,J。其中J為葉子節點的個數。

    針對每一個葉子節點里的樣本,我們求出使損失函數最小,也就是擬合葉子節點最好的的輸出值ctj如下:

  

    這樣我們就得到了本輪的決策樹擬合函數如下:

      

    從而本輪最終得到的強學習器的表達式如下:

        

    通過損失函數的負梯度來擬合,我們找到了一種通用的擬合損失誤差的辦法,這樣無輪是分類問題還是回歸問題,我們通過其損失函數的負梯度的擬合,就可以用GBDT來解決我們的分類回歸問題。區別僅僅在於損失函數不同導致的負梯度不同而已。

3. GBDT回歸算法

    好了,有了上面的思路,下面我們總結下GBDT的回歸算法。為什么沒有加上分類算法一起?那是因為分類算法的輸出是不連續的類別值,需要一些處理才能使用負梯度,我們在下一節講。

    輸入:是訓練集樣本T={(x1,y1),(x2,y2)...(xm,ym)}, 最大迭代次數T, 損失函數L。

              輸出是強學習器f(x) 

    1) 初始化弱學習器:

  

    

    2) 對迭代輪數t=1,2,...T有:

      a)對樣本i=1,2,...m,計算負梯度

     

      b)利用(xi,r ti)(i=1,2...m), 擬合一顆CART回歸樹,得到第t顆回歸樹,其對應的葉子節點區域為Rtj,j=1.2...J 。其中J為回歸樹t的葉子節點的個數。

      c) 對葉子區域j =1,2,..J,計算最佳擬合值

   

        d) 更新強學習器

   

    3) 得到強學習器f(x)的表達式

   

4. GBDT分類算法

    這里我們再看看GBDT分類算法,GBDT的分類算法從思想上和GBDT的回歸算法沒有區別,但是由於樣本輸出不是連續的值,而是離散的類別,導致我們無法直接從輸出類別去擬合類別輸出的誤差。

    為了解決這個問題,主要有兩個方法,一個是用指數損失函數,此時GBDT退化為Adaboost算法。另一種方法是用類似於邏輯回歸的對數似然損失函數的方法。也就是說,我們用的是類別的預測概率值和真實概率值的差來擬合損失。本文僅討論用對數似然損失函數的GBDT分類。而對於對數似然損失函數,我們又有二元分類和多元分類的區別。

4.1 二元GBDT分類算法

    對於二元GBDT,如果用類似於邏輯回歸的對數似然損失函數,則損失函數為:

  

    其中y {-1,1} 則此時的負梯度誤差為:

  

    對於生成的決策樹,我們各個葉子節點的最佳殘差擬合值為:

  

    由於上式比較難優化,我們一般使用近似值代替

   

    除了負梯度計算和葉子節點的最佳殘差擬合的線性搜索,二元GBDT分類和GBDT回歸算法過程相同。

4.2 多元GBDT分類算法

    多元GBDT要比二元GBDT復雜一些,對應的是多元邏輯回歸和二元邏輯回歸的復雜度差別。假設類別數為K,則此時我們的對數似然損失函數為:

        

    其中如果樣本輸出類別為k,則yk=1第k類的概率Pk(x)表達式為:

   

    集合上兩式,我們可以計算出第t輪的i個樣本對應類別 的負梯度誤差為:

   

    觀察上式可以看出,其實這里的誤差就是樣本i對應類別 的真實概率和t-1輪預測概率的差值。

    對於生成的決策樹,我們各個葉子節點的最佳殘差擬合值為:

   

    由於上式比較難優化,我們一般使用近似值代替:

   

    除了負梯度計算和葉子節點的最佳殘差擬合的線性搜索,多元GBDT分類和二元GBDT分類以及GBDT回歸算法過程相同。

5. GBDT常用損失函數

    這里我們再對常用的GBDT損失函數做一個總結。

    對於分類算法,其損失函數一般有對數損失函數和指數損失函數兩種:

    a) 如果是指數損失函數,則損失函數表達式為

    

     其負梯度計算和葉子節點的最佳殘差擬合參見Adaboost原理篇。

    b) 如果是對數損失函數,分為二元分類和多元分類兩種,參見4.1節和4.2節。

    對於回歸算法,常用損失函數有如下4種:

    a)均方差,這個是最常見的回歸損失函數了

 

   

    b)絕對損失,這個損失函數也很常見

  

    對應負梯度誤差為:

 

    c)Huber損失,它是均方差和絕對損失的折衷產物,對於遠離中心的異常點,采用絕對損失,而中心附近的點采用均方差。這個界限一般用分位數點度量。損失函數如下:  

  

     對應的負梯度誤差為:

 

  

    d) 分位數損失。它對應的是分位數回歸的損失函數,表達式為

 

      其中 為分位數,需要我們在回歸前指定。對應的負梯度誤差為:

 

      對於Huber損失和分位數損失,主要用於健壯回歸,也就是減少異常點對損失函數的影響。

6. GBDT的正則化

    和Adaboost一樣,我們也需要對GBDT進行正則化,防止過擬合。GBDT的正則化主要有三種方式。

    第一種是和Adaboost類似的正則化項,即步長(learning rate)。定義為V,對於前面的弱學習器的迭代

   

    如果我們加上了正則化項,則有:

  

       v 的取值范圍為0<v<1.對於同樣的訓練集學習效果,較小的v意味着我們需要更多的弱學習器的迭代次數。通常我們用步長和迭代最大次數一起來決定算法的擬合效果。

    第二種正則化的方式是通過子采樣比例(subsample)。取值為(0,1]。注意這里的子采樣和隨機森林不一樣,隨機森林使用的是放回抽樣,而這里是不放回抽樣。如果取值為1,則全部樣本都使用,等於沒有使用子采樣。如果取值小於1,則只有一部分樣本會去做GBDT的決策樹擬合。選擇小於1的比例可以減少方差,即防止過擬合,但是會增加樣本擬合的偏差,因此取值不能太低。推薦在[0.5, 0.8]之間。

    使用了子采樣的GBDT有時也稱作隨機梯度提升樹(Stochastic Gradient Boosting Tree, SGBT)。由於使用了子采樣,程序可以通過采樣分發到不同的任務去做boosting的迭代過程,最后形成新樹,從而減少弱學習器難以並行學習的弱點。

    第三種是對於弱學習器即CART回歸樹進行正則化剪枝。在決策樹原理篇里我們已經講過,這里就不重復了。

7. GBDT小結 

    GBDT終於講完了,GDBT本身並不復雜,不過要吃透的話需要對集成學習的原理,決策樹原理和各種損失函樹有一定的了解。由於GBDT的卓越性能,只要是研究機器學習都應該掌握這個算法,包括背后的原理和應用調參方法。目前GBDT的算法比較好的庫是xgboost。當然scikit-learn也可以。

    最后總結下GBDT的優缺點。

    GBDT主要的優點有:

    1) 可以靈活處理各種類型的數據,包括連續值和離散值。

    2) 在相對少的調參時間情況下,預測的准確率也可以比較高。這個是相對SVM來說的。

    3)使用一些健壯的損失函數,對異常值的魯棒性非常強。比如 Huber損失函數和Quantile損失函數。

    GBDT的主要缺點有:

    1)由於弱學習器之間存在依賴關系,難以並行訓練數據。不過可以通過自采樣的SGBT來達到部分並行。

          (文章參考自劉建平機器學習)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM