GBDT 詳解分析轉+整理

本文轉載自查看原文 2018-10-15 14:23 1371 machine learning

GBDT
需要解釋的三個問題
- 既然圖1和圖2 最終效果相同，為何還需要GBDT呢？
- Gradient呢？不是“G”BDT么？
- 這不是boosting吧？Adaboost可不是這么定義的。
GBDT的適用范圍

GBDT

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一種迭代的決策樹算法，該算法由多棵決策樹組成，所有樹的結論累加起來做最終答案。它在被提出之初就和SVM一起被認為是泛化能力（generalization)較強的算法。近些年更因為被用於搜索排序的機器學習模型而引起大家關注。

GBDT 主要由三個概念組成：
- regression decision tree (DT)
- Gradiant Boosting (GB)
- Shrinkage (算法的一個重要演進分枝，目前大部分源碼都按該版本實現）

DT 回歸樹 Regression Decision Tree

提起決策樹（DT, Decision Tree) 絕大部分人首先想到的就是C4.5分類決策樹。但如果一開始就把GBDT中的樹想成分類樹，那就是一條歪路走到黑，一路各種坑，最終摔得都要咯血了還是一頭霧水說的就是LZ自己啊有木有。咳嗯，所以說千萬不要以為GBDT是很多棵分類樹。
決策樹分為兩大類，回歸樹和分類樹。前者用於預測實數值，如明天的溫度、用戶的年齡、網頁的相關程度；后者用於分類標簽值，如晴天/陰天/霧/雨、用戶性別、網頁是否是垃圾頁面。這里要強調的是，前者的結果加減是有意義的，如10歲+5歲-3歲=12歲，后者則無意義，如男+男+女=到底是男是女？ GBDT的核心在於累加所有樹的結果作為最終結果，就像前面對年齡的累加（-3是加負3），而分類樹的結果顯然是沒辦法累加的，所以GBDT中的樹都是回歸樹，不是分類樹, 這點對理解GBDT相當重要（盡管GBDT調整后也可用於分類但不代表GBDT的樹是分類樹）。那么回歸樹是如何工作的呢？
下面我們以對人的性別判別/年齡預測為例來說明，每個instance都是一個我們已知性別/年齡的人，而feature則包括這個人上網的時長、上網的時段、網購所花的金額等。
作為對比，先說分類樹，我們知道C4.5分類樹在每次分枝時，是窮舉每一個feature的每一個閾值，找到使得按照feature<=閾值，和feature>閾值分成的兩個分枝的熵最大的feature和閾值（熵最大的概念可理解成盡可能每個分枝的男女比例都遠離1:1，其實應該使用特征選擇的術語進行描述，應該使用信息增益或者信息增益比來表示），按照該標准分枝得到兩個新節點，用同樣方法繼續分枝直到所有人都被分入性別唯一的葉子節點，或達到預設的終止條件，若最終葉子節點中的性別不唯一，則以多數人的性別作為該葉子節點的性別。(這個地方的熵最大可能沒把問題解釋清楚)
回歸樹總體流程也是類似，不過在每個節點（不一定是葉子節點）都會得一個預測值，以年齡為例，該預測值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每一個feature的每個閾值找最好的分割點，但衡量最好的標准不再是最大熵，而是 最小化均方差--即（每個人的年齡-預測年齡）^2 的總和 / N ，或者說是每個人的預測誤差平方和除以 N。這很好理解，被預測出錯的人數越多，錯的越離譜，均方差就越大，通過最小化均方差能夠找到最靠譜的分枝依據。分枝直到每個葉子節點上人的年齡都唯一（這太難了）或者達到預設的終止條件（如葉子個數上限），若最終葉子節點上人的年齡不唯一，則以該節點上所有人的平均年齡做為該葉子節點的預測年齡。若還不明白可以Google "Regression Tree"，或閱讀本文的第一篇論文中Regression Tree部分。

梯度迭代

好吧，我起了一個很大的標題，但事實上我並不想多講Gradient Boosting的原理，因為不明白原理並無礙於理解GBDT中的Gradient Boosting。喜歡打破砂鍋問到底的同學可以閱讀這篇英文wikihttp://en.wikipedia.org/wiki/Gradient_boosted_trees#Gradient_tree_boosting
Boosting，迭代，即通過迭代多棵樹來共同決策。這怎么實現呢？難道是每棵樹獨立訓練一遍，比如A這個人，第一棵樹認為是10歲，第二棵樹認為是0歲，第三棵樹認為是20歲，我們就取平均值10歲做最終結論？--當然不是！且不說這是投票方法並不是GBDT，只要訓練集不變，獨立訓練三次的三棵樹必定完全相同，這樣做完全沒有意義。之前說過，GBDT是把所有樹的結論累加起來做最終結論的，所以可以想到每棵樹的結論並不是年齡本身，而是年齡的一個累加量。GBDT的核心就在於，每一棵樹學的是之前所有樹結論和的殘差，這個殘差就是一個加預測值后能得真實值的累加量。比如A的真實年齡是18歲，但第一棵樹的預測年齡是12歲，差了6歲，即殘差為6歲。那么在第二棵樹里我們把A的年齡設為6歲去學習，如果第二棵樹真的能把A分到6歲的葉子節點，那累加兩棵樹的結論就是A的真實年齡；如果第二棵樹的結論是5歲，則A仍然存在1歲的殘差，第三棵樹里A的年齡就變成1歲，繼續學。這就是Gradient Boosting在GBDT中的意義，簡單吧。

GBDT工作過程實例

還是年齡預測，簡單起見訓練集只有4個人，A,B,C,D，他們的年齡分別是14,16,24,26。其中A、B分別是高一和高三學生；C,D分別是應屆畢業生和工作兩年的員工。
如果是用一棵傳統的回歸決策樹來訓練，會得到如下圖1所示結果：
現在我們使用GBDT來做這件事，由於數據太少，我們限定葉子節點最多有兩個，即每棵樹都只有一個分枝，並且限定只學兩棵樹。我們會得到如下圖2所示結果：
在第一棵樹分枝和圖1一樣，由於A,B年齡較為相近，C,D年齡較為相近，他們被分為兩撥，每撥用平均年齡作為預測值。此時計算殘差（殘差的意思就是： A的預測值 + A的殘差 = A的實際值），所以A的殘差就是16-15=1（注意，A的預測值是指前面所有樹累加的和，這里前面只有一棵樹所以直接是15，如果還有樹則需要都累加起來作為A的預測值）。進而得到A,B,C,D的殘差分別為-1,1，-1,1。然后我們拿殘差替代A,B,C,D的原值，到第二棵樹去學習，如果我們的預測值和它們的殘差相等，則只需把第二棵樹的結論累加到第一棵樹上就能得到真實年齡了。這里的數據顯然是我可以做的，第二棵樹只有兩個值1和-1，直接分成兩個節點。此時所有人的殘差都是0，即每個人都得到了真實的預測值。
換句話說，現在A,B,C,D的預測值都和真實年齡一致了。Perfect!：

A: 14歲高一學生，購物較少，經常問學長問題；預測年齡A = 15 – 1 = 14

B: 16歲高三學生；購物較少，經常被學弟問問題；預測年齡B = 15 + 1 = 16

C: 24歲應屆畢業生；購物較多，經常問師兄問題；預測年齡C = 25 – 1 = 24

D: 26歲工作兩年員工；購物較多，經常被師弟問問題；預測年齡D = 25 + 1 = 26
那么哪里體現了Gradient呢？其實回到第一棵樹結束時想一想，無論此時的cost function是什么，是均方差還是均差，只要它以誤差作為衡量標准，殘差向量(-1, 1, -1, 1)都是它的全局最優方向，這就是Gradient。

需要解釋的三個問題

講到這里我們已經把GBDT最核心的概念、運算過程講完了！沒錯就是這么簡單。
不過講到這里很容易發現三個問題：

既然圖1和圖2 最終效果相同，為何還需要GBDT呢？

答案是過擬合。過擬合是指為了讓訓練集精度更高，
學到了很多”僅在訓練集上成立的規律“，導致換一個數據集當前規律就不適用了。
其實只要允許一棵樹的葉子節點足夠多，訓練集總是能訓練到100%准確率的
（大不了最后一個葉子上只有一個instance)。
在訓練精度和實際精度（或測試精度）之間，后者才是我們想要真正得到的。

我們發現圖1為了達到100%精度使用了3個feature（上網時長、時段、網購金額），
其中分枝“上網時長>1.1h” 很顯然已經過擬合了，這個數據集上A,B也許恰好A
每天上網1.09h, B上網1.05小時，但用上網時間是不是>1.1小時來判斷所有人
的年齡很顯然是有悖常識的；

相對來說圖2的boosting雖然用了兩棵樹 ，但其實只用了2個feature就搞定了，后一個
feature是問答比例，顯然圖2的依據更靠譜。（當然，這里是LZ故意做的數據，所以才能
靠譜得如此狗血。實際中靠譜不靠譜總是相對的） Boosting的最大好處在於，每一步的
殘差計算其實變相地增大了分錯instance的權重，而已經分對的instance則都趨向於0。
這樣后面的樹就能越來越專注那些前面被分錯的instance。
就像我們做互聯網，總是先解決60%用戶的需求湊合着，再解決35%用戶的需求，最后才關
注那5%人的需求。
這樣就能逐漸把產品做好，因為不同類型用戶需求可能完全不同，需要分別獨立分析。
如果反過來做，或者剛上來就一定要做到盡善盡美，往往最終會竹籃打水一場空。

Gradient呢？不是“G”BDT么？

到目前為止，我們的確沒有用到求導的Gradient。在當前版本GBDT描述中，的確沒有用
到Gradient，該版本用殘差作為全局最優的絕對方向，並不需要Gradient求解.

這不是boosting吧？Adaboost可不是這么定義的。

這是boosting，但不是Adaboost。GBDT不是Adaboost Decistion Tree。就像提到決策樹大家會想起C4.5，提到boost多數人也會想到Adaboost。Adaboost是另一種boost方法，它按分類對錯，分配不同的weight，計算cost function時使用這些weight，從而讓“錯分的樣本權重越來越大，使它們更被重視”。
Bootstrap也有類似思想，它在每一步迭代時不改變模型本身，也不計算殘差，而是從N個instance訓練集中按一定概率重新抽取N個instance出來（單個instance可以被重復sample），對着這N個新的instance再訓練一輪。由於數據集變了迭代模型訓練結果也不一樣，而一個instance被前面分錯的越厲害，它的概率就被設的越高，這樣就能同樣達到逐步關注被分錯的instance，逐步完善的效果。Adaboost的方法被實踐證明是一種很好的防止過擬合的方法，但至於為什么則至今沒從理論上被證明。
GBDT也可以在使用殘差的同時引入Bootstrap re-sampling，GBDT多數實現版本中也增加的這個選項，但是否一定使用則有不同看法。re-sampling一個缺點是它的隨機性，即同樣的數據集合訓練兩遍結果是不一樣的，也就是模型不可穩定復現，這對評估是很大挑戰，比如很難說一個模型變好是因為你選用了更好的feature，還是由於這次sample的隨機因素。

GBDT的適用范圍

該版本GBDT幾乎可用於所有回歸問題（線性/非線性），相對logistic regression僅能用於線性回歸，GBDT的適用面非常廣。亦可用於二分類問題（設定閾值，大於閾值為正例，反之為負例）。根據sklearn官網上的說明，對於多分類的數據：

The advantages of GBRT are:

Natural handling of data of mixed type (= heterogeneous features)
Predictive power
Robustness to outliers in output space (via robust loss functions)

The disadvantages of GBRT are:

Scalability, due to the sequential nature of boosting it can hardly be parallelized.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 GBDT詳解 GBDT回歸樹過程詳解（轉）Linux 文本對比 diff 命令詳解（整理） Java性能分析神器-JProfiler詳解（轉） Java性能分析神器-JProfiler詳解（一）（轉） Java性能分析神器-JProfiler詳解（一）（轉） (轉)【多媒體封裝格式詳解】--- AAC ADTS格式分析 Understand:高效代碼靜態分析神器詳解（轉） oracle表空間表分區詳解及oracle表分區查詢使用方法(轉+整理) 別人整理的DP大全（轉）

GBDT 詳解分析 轉+整理