終於有人說清楚了--XGBoost算法


1. 什么是XGBoost

XGBoost是陳天奇等人開發的一個開源機器學習項目,高效地實現了GBDT算法並進行了算法和工程上的許多改進,被廣泛應用在Kaggle競賽及其他許多機器學習競賽中並取得了不錯的成績。

說到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。因為XGBoost本質上還是一個GBDT,但是力爭把速度和效率發揮到極致,所以叫X (Extreme) GBoosted。包括前面說過,兩者都是boosting方法。

關於GBDT,這里不再提,可以查看我前一篇的介紹,點此跳轉

1.1 XGBoost樹的定義

先來舉個例子,我們要預測一家人對電子游戲的喜好程度,考慮到年輕和年老相比,年輕更可能喜歡電子游戲,以及男性和女性相比,男性更喜歡電子游戲,故先根據年齡大小區分小孩和大人,然后再通過性別區分開是男是女,逐一給各人在電子游戲喜好程度上打分,如下圖所示。

就這樣,訓練出了2棵樹tree1和tree2,類似之前gbdt的原理,兩棵樹的結論累加起來便是最終的結論,所以小孩的預測分數就是兩棵樹中小孩所落到的結點的分數相加:2 + 0.9 = 2.9。爺爺的預測分數同理:-1 + (-0.9)= -1.9。具體如下圖所示:

恩,你可能要拍案而起了,驚呼,這不是跟上文介紹的GBDT乃異曲同工么?

事實上,如果不考慮工程實現、解決問題上的一些差異,XGBoost與GBDT比較大的不同就是目標函數的定義。XGBoost的目標函數如下圖所示:

其中:

  • 紅色箭頭所指向的L 即為損失函數(比如平方損失函數:\(l(y_i,y^i)=(y_i-y^i)^2\))
  • 紅色方框所框起來的是正則項(包括L1正則、L2正則)
  • 紅色圓圈所圈起來的為常數項
  • 對於f(x),XGBoost利用泰勒展開三項,做一個近似。f(x)表示的是其中一顆回歸樹。

看到這里可能有些讀者會頭暈了,這么多公式,我在這里只做一個簡要式的講解,具體的算法細節和公式求解請查看這篇博文,講得很仔細通俗理解kaggle比賽大殺器xgboost

XGBoost的核心算法思想不難,基本就是:

  1. 不斷地添加樹,不斷地進行特征分裂來生長一棵樹,每次添加一個樹,其實是學習一個新函數f(x),去擬合上次預測的殘差。
  2. 當我們訓練完成得到k棵樹,我們要預測一個樣本的分數,其實就是根據這個樣本的特征,在每棵樹中會落到對應的一個葉子節點,每個葉子節點就對應一個分數
  3. 最后只需要將每棵樹對應的分數加起來就是該樣本的預測值。

顯然,我們的目標是要使得樹群的預測值\(y_i^{'}\)盡量接近真實值\(y_i\),而且有盡量大的泛化能力。類似之前GBDT的套路,XGBoost也是需要將多棵樹的得分累加得到最終的預測得分(每一次迭代,都在現有樹的基礎上,增加一棵樹去擬合前面樹的預測結果與真實值之間的殘差)。

那接下來,我們如何選擇每一輪加入什么 f 呢?答案是非常直接的,選取一個 f 來使得我們的目標函數盡量最大地降低。這里 f 可以使用泰勒展開公式近似。

實質是把樣本分配到葉子結點會對應一個obj,優化過程就是obj優化。也就是分裂節點到葉子不同的組合,不同的組合對應不同obj,所有的優化圍繞這個思想展開。到目前為止我們討論了目標函數中的第一個部分:訓練誤差。接下來我們討論目標函數的第二個部分:正則項,即如何定義樹的復雜度。

1.2 正則項:樹的復雜度

XGBoost對樹的復雜度包含了兩個部分:

  • 一個是樹里面葉子節點的個數T
  • 一個是樹上葉子節點的得分w的L2模平方(對w進行L2正則化,相當於針對每個葉結點的得分增加L2平滑,目的是為了避免過擬合)

我們再來看一下XGBoost的目標函數(損失函數揭示訓練誤差 + 正則化定義復雜度):

\[L(\phi)=\sum_{i}l(y_i^{'}-y_i)+\sum_k\Omega(f_t) \]

正則化公式也就是目標函數的后半部分,對於上式而言,\(y_i^{'}\)是整個累加模型的輸出,正則化項∑kΩ(ft)是則表示樹的復雜度的函數,值越小復雜度越低,泛化能力越強。

1.3 樹該怎么長

很有意思的一個事是,我們從頭到尾了解了xgboost如何優化、如何計算,但樹到底長啥樣,我們卻一直沒看到。很顯然,一棵樹的生成是由一個節點一分為二,然后不斷分裂最終形成為整棵樹。那么樹怎么分裂的就成為了接下來我們要探討的關鍵。對於一個葉子節點如何進行分裂,XGBoost作者在其原始論文中給出了一種分裂節點的方法:枚舉所有不同樹結構的貪心法

不斷地枚舉不同樹的結構,然后利用打分函數來尋找出一個最優結構的樹,接着加入到模型中,不斷重復這樣的操作。這個尋找的過程使用的就是貪心算法。選擇一個feature分裂,計算loss function最小值,然后再選一個feature分裂,又得到一個loss function最小值,你枚舉完,找一個效果最好的,把樹給分裂,就得到了小樹苗。

總而言之,XGBoost使用了和CART回歸樹一樣的想法,利用貪婪算法,遍歷所有特征的所有特征划分點,不同的是使用的目標函數不一樣。具體做法就是分裂后的目標函數值比單子葉子節點的目標函數的增益,同時為了限制樹生長過深,還加了個閾值,只有當增益大於該閾值才進行分裂。從而繼續分裂,形成一棵樹,再形成一棵樹,每次在上一次的預測基礎上取最優進一步分裂/建樹。

1.4 如何停止樹的循環生成

凡是這種循環迭代的方式必定有停止條件,什么時候停止呢?簡言之,設置樹的最大深度、當樣本權重和小於設定閾值時停止生長以防止過擬合。具體而言,則

  1. 當引入的分裂帶來的增益小於設定閥值的時候,我們可以忽略掉這個分裂,所以並不是每一次分裂loss function整體都會增加的,有點預剪枝的意思,閾值參數為(即正則項里葉子節點數T的系數);
  2. 當樹達到最大深度時則停止建立決策樹,設置一個超參數max_depth,避免樹太深導致學習局部樣本,從而過擬合;
  3. 樣本權重和小於設定閾值時則停止建樹。什么意思呢,即涉及到一個超參數-最小的樣本權重和min_child_weight,和GBM的 min_child_leaf 參數類似,但不完全一樣。大意就是一個葉子節點樣本太少了,也終止同樣是防止過擬合;

2. XGBoost與GBDT有什么不同

除了算法上與傳統的GBDT有一些不同外,XGBoost還在工程實現上做了大量的優化。總的來說,兩者之間的區別和聯系可以總結成以下幾個方面。

  1. GBDT是機器學習算法,XGBoost是該算法的工程實現。
  2. 在使用CART作為基分類器時,XGBoost顯式地加入了正則項來控制模 型的復雜度,有利於防止過擬合,從而提高模型的泛化能力。
  3. GBDT在模型訓練時只使用了代價函數的一階導數信息,XGBoost對代 價函數進行二階泰勒展開,可以同時使用一階和二階導數。
  4. 傳統的GBDT采用CART作為基分類器,XGBoost支持多種類型的基分類 器,比如線性分類器。
  5. 傳統的GBDT在每輪迭代時使用全部的數據,XGBoost則采用了與隨機 森林相似的策略,支持對數據進行采樣。
  6. 傳統的GBDT沒有設計對缺失值進行處理,XGBoost能夠自動學習出缺 失值的處理策略。

3. 為什么XGBoost要用泰勒展開,優勢在哪里?

XGBoost使用了一階和二階偏導, 二階導數有利於梯度下降的更快更准. 使用泰勒展開取得函數做自變量的二階導數形式, 可以在不選定損失函數具體形式的情況下, 僅僅依靠輸入數據的值就可以進行葉子分裂優化計算, 本質上也就把損失函數的選取和模型算法優化/參數選擇分開了. 這種去耦合增加了XGBoost的適用性, 使得它按需選取損失函數, 可以用於分類, 也可以用於回歸。

4. 代碼實現

GitHub:點擊進入

機器學習通俗易懂系列文章

3.png

5. 參考文獻

通俗理解kaggle比賽大殺器xgboost

作者:@mantchs

GitHub:https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論!共同完善此項目!群號:【541954936】NLP面試學習群


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM