XGBoost原理介紹


XGBoost原理介紹

1. 什么是XGBoost

XGBoost是一個開源機器學習項目,實現了GBDT算法,進行了算法和工程上的許多改進,廣泛應用在Kaggle競賽及許多機器學習競賽中。

說到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。XGBoost本質上還是一個GBDT,力爭把速度和效率發揮到極致,所以叫X (Extreme) GBoosted。兩者都是boosting方法。

1.1 XGBoost樹的定義

舉個例子,要預測一家人對電子游戲的喜好程度,考慮到年輕和年老相比,年輕更可能喜歡電子游戲,以及男性和女性相比,男性更喜歡電子游戲。先根據年齡大小區分小孩和大人,再通過性別區分開是男是女,逐一給各人在電子游戲喜好程度上打分,如下圖所示。

 

 

 訓練出了2棵樹tree1和tree2,類似之前gbdt的原理,兩棵樹的結論累加起來便是最終的結論,所以小孩的預測分數就是兩棵樹中小孩所落到的結點的分數相加:2 + 0.9 = 2.9。爺爺的預測分數同理:-1 + (-0.9)= -1.9。具體如下圖所示:

 

 

 如果不考慮工程實現、解決問題上的一些差異,XGBoost與GBDT比較大的不同就是目標函數的定義。XGBoost的目標函數如下圖所示:

 

 其中:

  • 紅色箭頭所指向的L 即為損失函數(比如平方損失函數:\\(l(y_i,y^i)=(y_i-y^i)^2\\))
  • 紅色方框所框起來的是正則項(包括L1正則、L2正則)
  • 紅色圓圈所圈起來的為常數項
  • 對於f(x),XGBoost利用泰勒展開三項,做一個近似。f(x)表示的是其中一顆回歸樹。

XGBoost的核心算法思想不難,基本就是:

  1. 不斷地添加樹,不斷地進行特征分裂來生長一棵樹,每次添加一個樹,其實是學習一個新函數f(x),去擬合上次預測的殘差。
  2. 當訓練完成得到k棵樹,要預測一個樣本的分數,其實就是根據這個樣本的特征,在每棵樹中會落到對應的一個葉子節點,每個葉子節點就對應一個分數。
  3. 最后只需要將每棵樹對應的分數加起來就是該樣本的預測值。

目標是要使得樹群的預測值\\(y_i^{\'}\\)盡量接近真實值\\(y_i\\),而且有盡量大的泛化能力。類似之前GBDT的套路,XGBoost也是需要將多棵樹的得分累加得到最終的預測得分(每一次迭代,都在現有樹的基礎上,增加一棵樹去擬合前面樹的預測結果與真實值之間的殘差)。

 

 

 如何選擇每一輪加入什么 f 呢?選取一個 f 來使得的目標函數盡量最大地降低。這里 f 可以使用泰勒展開公式近似。

 

 

 實質是把樣本分配到葉子結點會對應一個obj,優化過程就是obj優化。也就是分裂節點到葉子不同的組合,不同的組合對應不同obj,所有的優化圍繞這個思想展開。這是目標函數中的第一個部分:訓練誤差。接下來討論目標函數的第二個部分:正則項,即如何定義樹的復雜度。

1.2 正則項:樹的復雜度

XGBoost對樹的復雜度包含了兩個部分:

  • 一個是樹里面葉子節點的個數T
  • 一個是樹上葉子節點的得分w的L2模平方(對w進行L2正則化,相當於針對每個葉結點的得分增加L2平滑,目的是為了避免過擬合)

 

 

 再來看一下XGBoost的目標函數(損失函數揭示訓練誤差 + 正則化定義復雜度):

\\[L(\\phi)=\\sum_{i}l(y_i^{\'}-y_i)+\\sum_k\\Omega(f_t)\\]

正則化公式也就是目標函數的后半部分,對於上式,\\(y_i^{\'}\\)是整個累加模型的輸出,正則化項∑kΩ(ft)是則表示樹的復雜度的函數,值越小復雜度越低,泛化能力越強。

1.3 樹該怎么長

xgboost如何優化、如何計算。一棵樹的生成是由一個節點一分為二,然后不斷分裂最終形成為整棵樹。樹怎么分裂的就成為了接下來要探討的關鍵。葉子節點如何進行分裂,XGBoost給出了一種分裂節點的方法:枚舉所有不同樹結構的貪心法

不斷地枚舉不同樹的結構,然后利用打分函數來尋找出一個最優結構的樹,接着加入到模型中,不斷重復這樣的操作。這個尋找的過程使用的就是貪心算法。選擇一個feature分裂,計算loss function最小值,然后再選一個feature分裂,又得到一個loss function最小值,枚舉完,找一個效果最好的,把樹給分裂,就得到了小樹苗。

總而言之,XGBoost使用了和CART回歸樹一樣的想法,利用貪婪算法,遍歷所有特征的所有特征划分點,不同的是使用的目標函數不一樣。具體做法就是分裂后的目標函數值比單子葉子節點的目標函數的增益,同時為了限制樹生長過深,還加了個閾值,只有當增益大於該閾值才進行分裂。從而繼續分裂,形成一棵樹,再形成一棵樹,每次在上一次的預測基礎上取最優進一步分裂/建樹。

1.4 如何停止樹的循環生成

循環迭代什么時候停止呢?設置樹的最大深度、當樣本權重和小於設定閾值時停止生長以防止過擬合。

  1. 當引入的分裂帶來的增益小於設定閥值的時候,可以忽略掉這個分裂,所以並不是每一次分裂loss function整體都會增加的,有點預剪枝的意思,閾值參數為(即正則項里葉子節點數T的系數);
  2. 當樹達到最大深度時則停止建立決策樹,設置一個超參數max_depth,避免樹太深導致學習局部樣本,從而過擬合;
  3. 樣本權重和小於設定閾值時則停止建樹。什么意思呢,即涉及到一個超參數-最小的樣本權重和min_child_weight,和GBM的 min_child_leaf 參數類似,但不完全一樣。大意就是一個葉子節點樣本太少了,也終止同樣是防止過擬合;

2. XGBoost與GBDT有什么不同

除了算法上與傳統的GBDT有一些不同外,XGBoost還在工程實現上做了大量的優化。

  1. GBDT是機器學習算法,XGBoost是該算法的工程實現。
  2. 在使用CART作為基分類器時,XGBoost顯式地加入了正則項來控制模 型的復雜度,防止過擬合,提高模型的泛化能力。
  3. GBDT在模型訓練時只使用了代價函數的一階導數信息,XGBoost對代價函數進行二階泰勒展開,可以同時使用一階和二階導數。
  4. 傳統的GBDT采用CART作為基分類器,XGBoost支持多種類型的基分類器,比如線性分類器。
  5. 傳統的GBDT在每輪迭代時使用全部的數據,XGBoost則采用了與隨機森林相似的策略,支持對數據進行采樣。
  6. 傳統的GBDT沒有設計對缺失值進行處理,XGBoost能夠自動學習出缺失值的處理策略。

3. XGBoost泰勒展開的優勢

XGBoost使用了一階和二階偏導, 二階導數有利於梯度下降的更快更准。依靠輸入數據的值,進行葉子分裂優化計算, 本質上也就把損失函數的選取和模型算法優化/參數選擇分開。這種去耦合增加了XGBoost的適用性,按需選取損失函數, 可以用於分類, 也可以用於回歸。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM