機器學習算法中GBDT和XGBOOST的區別有哪些?


作者:wepon
鏈接:https://www.zhihu.com/question/41354392/answer/98658997
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

最近贊忽然多了起來,我猜是校招季來了吧。但如果面試官問你這個問題,我建議不要按我的回答來,背答案不如自己理解透了,況且我這是十分得五分的答案。最初的GBDT發展到現在的XGBoost,改進是一點一滴來的,是一篇篇論文的積累,很多方法並非XGBoost第一次提出,當然也不是說XGBoost沒改進,可以說XGBoost把算法和系統實現都做得淋漓盡致。所以如果不是為了速成,不是為了校招,建議把經典的論文拿出來讀一讀,相信對算法的理解能更進一層。

最近實習剛好在組內分享了GBDT,所以有了這番感悟,看了更多資料,發現自己理解還是有偏差,附上我做的ppt,若再有偏差,歡迎跟我郵件交流:

 

以下原答案:

-----------------------------------

xgboost相比傳統gbdt有何不同?xgboost為什么快?xgboost如何支持並行?

 

看了陳天奇大神的文章和slides,略抒己見,沒有面面俱到,不恰當的地方歡迎討論:

  • 傳統GBDT以CART作為基分類器,xgboost還支持線性分類器,這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂回歸(分類問題)或者線性回歸(回歸問題)。
  • 傳統GBDT在優化時只用到一階導數信息,xgboost則對代價函數進行了二階泰勒展開,同時用到了一階和二階導數。順便提一下,xgboost工具支持自定義代價函數,只要函數可一階和二階求導。
  • xgboost在代價函數里加入了正則項,用於控制模型的復雜度。正則項里包含了樹的葉子節點個數、每個葉子節點上輸出的score的L2模的平方和。從Bias-variance tradeoff角度來講,正則項降低了模型的variance,使學習出來的模型更加簡單,防止過擬合,這也是xgboost優於傳統GBDT的一個特性。
  • Shrinkage(縮減),相當於學習速率(xgboost中的eta)。xgboost在進行完一次迭代后,會將葉子節點的權重乘上該系數,主要是為了削弱每棵樹的影響,讓后面有更大的學習空間。實際應用中,一般把eta設置得小一點,然后迭代次數設置得大一點。(補充:傳統GBDT的實現也有學習速率)
  • 列抽樣(column subsampling)。xgboost借鑒了隨機森林的做法,支持列抽樣,不僅能降低過擬合,還能減少計算,這也是xgboost異於傳統gbdt的一個特性。

 

  • 對缺失值的處理。對於特征的值有缺失的樣本,xgboost可以自動學習出它的分裂方向。
  • xgboost工具支持並行。boosting不是一種串行的結構嗎?怎么並行的?注意xgboost的並行不是tree粒度的並行,xgboost也是一次迭代完才能進行下一次迭代的(第t次迭代的代價函數里包含了前面t-1次迭代的預測值)。xgboost的並行是在特征粒度上的。我們知道,決策樹的學習最耗時的一個步驟就是對特征的值進行排序(因為要確定最佳分割點),xgboost在訓練之前,預先對數據進行了排序,然后保存為block結構,后面的迭代中重復地使用這個結構,大大減小計算量。這個block結構也使得並行成為了可能,在進行節點的分裂時,需要計算每個特征的增益,最終選增益最大的那個特征去做分裂,那么各個特征的增益計算就可以開多線程進行。

 

  • 可並行的近似直方圖算法。樹節點在進行分裂時,我們需要計算每個特征的每個分割點對應的增益,即用貪心法枚舉所有可能的分割點。當數據無法一次載入內存或者在分布式情況下,貪心算法效率就會變得很低,所以xgboost還提出了一種可並行的近似直方圖算法,用於高效地生成候選的分割點。

 

=============

回復

在評論里的問題,因為有些公式放正文比較好。評論里討論的問題的大意是 “xgboost代價函數里加入正則項,是否優於cart的剪枝”。其實陳天奇大神的slides里面也是有提到的,我當一下搬運工。

 

決策樹的學習過程就是為了找出最優的決策樹,然而從函數空間里所有的決策樹中找出最優的決策樹是NP-C問題,所以常采用啟發式(Heuristic)的方法,如CART里面的優化GINI指數、剪枝、控制樹的深度。這些啟發式方法的背后往往隱含了一個目標函數,這也是大部分人經常忽視掉的。xgboost的目標函數如下:

 

其中正則項控制着模型的復雜度,包括了葉子節點數目T和leaf score的L2模的平方:

 

那這個跟剪枝有什么關系呢??? 跳過一系列推導,我們直接來看xgboost中樹節點分裂時所采用的公式:

 

這個公式形式上跟ID3算法(采用entropy計算增益) 、CART算法(采用gini指數計算增益) 是一致的,都是用分裂后的某種值 減去 分裂前的某種值,從而得到增益。為了限制樹的生長,我們可以加入閾值,當增益大於閾值時才讓節點分裂,上式中的gamma即閾值,它是正則項里葉子節點數T的系數,所以xgboost在優化目標函數的同時相當於做了預剪枝。另外,上式中還有一個系數lambda,是正則項里leaf score的L2模平方的系數,對leaf score做了平滑,也起到了防止過擬合的作用,這個是傳統GBDT里不具備的特性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM