Boosted Trees 介紹

本文轉載自查看原文 2017-12-31 15:34 1415 Machine Learning

原文地址： http://xgboost.apachecn.org/cn/latest/model.html#xgboost

Boosted Trees 介紹

XGBoost 是 “Extreme Gradient Boosting” 的縮寫，其中 “Gradient Boosting” 一詞在論文 Greedy Function Approximation: A Gradient Boosting Machine 中，由 Friedman 提出。 XGBoost 基於這個原始模型。這是 gradient boosted trees（梯度增強樹）的教程，大部分內容是基於 xgboost 的作者的這些 slides 。

GBM （boosted trees，增強樹）已經有一段時間了，關於這個話題有很多的材料。這個教程試圖用監督學習的元素以獨立和有原則的方式解釋 boosted trees （增強樹）。我們認為這個解釋更加清晰，更加正式，並激發了 xgboost 中使用的變體。

監督學習的要素

XGBoost 用於監督學習問題，我們使用訓練數據 $x_{i}$

模型和參數

監督學習中的 model（模型） 通常是指給定輸入 $x_{i}$

parameters（參數） 是我們需要從數據中學習的未確定部分。在線性回歸問題中，參數是系數 $w$

目標函數：訓練損失 + 正則

基於對 $y_{i}$

關於目標函數的一個非常重要的事實是，它們 must always（必須總是） 包含兩個部分：training loss （訓練損失）和 regularization（正則化）。

O b j (Θ) = L (Θ) + Ω (Θ)

其中 $L$

L (Θ) = \sum i (y i - y^i) 2

另一個常用的損失函數是 logistic 回歸的 logistic 損失。

L (θ) = \sum i [y i ln (1 + e - y^i) + (1 - y i) ln (1 + e

regularization term（正則化項） 是人們通常忘記添加的內容。正則化項控制模型的復雜性，這有助於避免過擬合。這聽起來有些抽象，那么我們在下面的圖片中考慮下面的問題。在圖像左上角給出輸入數據點的情況下，要求您在視覺上 fit（擬合） 一個 step function（階梯函數）。您認為三種中的哪一種解決方案是最擬合效果最好的？

Step function

答案已經標注為紅色了。請思考一下這個是否在你的視覺上較為合理？總的原則是我們想要一個 simple（簡單） 和 predictive（可預測） 的模型。兩者之間的權衡也被稱為機器學習中的 bias-variance tradeoff（偏差-方差權衡）。

對於線性模型常見的正則化項有 $L_{2}$

為什么要介紹 general principle（一般原則）

上面介紹的要素構成了監督學習的基本要素，它們自然是機器學習工具包的基石。例如，你應該能夠描述 boosted trees 和 random forests 之間的差異和共同點。以正式的方式理解這個過程也有助於我們理解我們正在學習的目標以及啟發式算法背后的原因，例如 pruning 和 smoothing 。

tree ensembles（樹集成）

既然我們已經介紹了監督學習的內容，那么接下來讓我們開始介紹真正的 trees 吧。首先，讓我們先來了解一下 xgboost 的 model（模型） ： tree ensembles（樹集成）。樹集成模型是一組 classification and regression trees （CART）。下面是一個 CART 的簡單的示例，它可以分類是否有人喜歡電腦游戲。

CART

我們把一個家庭的成員分成不同的葉子，並把他們分配到相應的葉子節點上。 CART 與 decision trees（決策樹）有些許的不同，就是葉子只包含決策值。在 CART 中，每個葉子都有一個 real score （真實的分數），這給了我們更豐富的解釋，超越了分類。這也使得統一的優化步驟更容易，我們將在本教程的后面部分看到。

通常情況下，單棵樹由於過於簡單而不夠強大到可以支持在實踐中使用的。實際使用的是所謂的 tree ensemble model（樹集成模型），它將多棵樹的預測加到一起。

TwoCART

上圖是兩棵樹的集成的例子。將每棵樹的預測分數加起來得到最終分數。如果你看一下這個例子，一個重要的事實就是兩棵樹互相 complement（補充） 。在數學表示上，我們可以在表單中編寫我們的模型。

y^i = \sum k = 1 K f k (x i), f k \in F

其中 $K$

o b j (Θ) = \sum i n l (y i, y^i) + \sum k = 1 K Ω (f k)

那么問題來了，random forests（隨機森林）的 model（模型） 是什么？這正是 tree ensembles（樹集成）！所以 random forests 和 boosted trees 在模型上並沒有什么不同，不同之處在於我們如何訓練它們。這意味着如果你寫一個 tree ensembles（樹集成）的預測服務，你只需要編寫它們中的一個，它們應該直接為 random forests（隨機森林）和 boosted trees（增強樹）工作。這也是監督學習基石元素的一個例子。

Tree Boosting

在介紹完模型之后，我們從真正的訓練部分開始。我們應該怎么學習 trees 呢？答案是，對於所有的監督學習模型都一樣的處理：定義一個合理的目標函數，然后去嘗試優化它！

假設我們有以下目標函數（記住它總是需要包含訓練損失和正則化）

O b j = \sum i = 1 n l (y i, y^(t) i) + \sum i = 1 t Ω (f

附加訓練

我們想要問的第一件事就是樹的 parameters（參數） 是什么。你可能已經發現了，我們要學習的是那些函數 $f_{i}$

y^(0) i y^(1) i y^(2) i

另外還有一個問題，每一步我們想要哪棵 tree 呢？一個自然而然的事情就是添加一個優化我們目標的方法。

O b j (t) = \sum i = 1 n l (y i, y^(t) i) +

如果我們考慮使用 MSE 作為我們的損失函數，它將是下面的形式。

O b j (t) = \sum i = 1 n (y i - (y^(t - 1) i +

MSE 的形式比較友好，具有一階項（通常稱為殘差）和二次項。對於其他形式的損失（例如，logistic loss），獲得這么好的形式並不是那么容易。所以在一般情況下，我們把損失函數的泰勒展開到二階

O b j (t) = \sum i = 1 n [l (y i, y^(t - 1) i) + g i f t

其中 $g_{i}$

g i h i = \partial y^(t - 1) i l (y i, y^

我們刪除了所有的常量之后， $t$

\sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t ( x i ) ] + Ω ( f t )

這成為了新樹的優化目標。這個定義的一個重要優點是它只依賴於 $g_{i}$

模型復雜度

我們已經介紹了訓練步驟，但是等等，還有一個重要的事情，那就是 regularization（正則化） ！我們需要定義樹的復雜度 $Ω (f)$

f t (x) = w q (x), w \in R T, q : R d \to {1, 2, \dots, T} .

這里 $w$

Ω (f) = γ T + 1 2 λ \sum j = 1 T w 2 j

當然有不止一種方法來定義復雜度，但是這個具體的方法在實踐中運行良好。正則化是大多數樹的包不那么謹慎或簡單忽略的一部分。這是因為對傳統的樹學習算法的對待只強調提高 impurity（不純性），而復雜度控制則是啟發式的。通過正式定義，我們可以更好地了解我們正在學習什么，是的，它在實踐中運行良好。

The Structure Score（結構分數）

這是 derivation（派生）的神奇部分。在對樹模型進行重新格式化之后，我們可以用第 $t$

O b j (t) \approx \sum i = 1 n [g i w q (x i) + 1 2 h

其中 $I_{j} = {i | q (x_{i}) = j}$

O b j (t) = \sum j = 1 T [G j w j + 1 2 ( H j + λ ) w 2 j ] + γ T

在這個等式中 $w_{j}$

w * j = - G j H j + λ O b j * = - 1 2 \sum j = 1 T G 2 j

最后一個方程度量一個樹結構 $q (x)$

Structure Score

如果這一切聽起來有些復雜，我們來看一下圖片，看看分數是如何計算的。基本上，對於一個給定的樹結構，我們把統計 $g_{i}$

學習樹結構

既然我們有了一個方法來衡量一棵樹有多好，理想情況下我們會列舉所有可能的樹並挑選出最好的樹。在實踐中，這種方法是比較棘手的，所以我們會盡量一次優化樹的一個層次。具體來說，我們試圖將一片葉子分成兩片，並得到分數

G a i n = 1 2 [ G 2 L H L + λ + G 2 R H R + λ - ( G L +

這個公式可以分解為 1) 新左葉上的得分 2) 新右葉上的得分 3) 原始葉子上的得分 4) additional leaf（附加葉子）上的正則化。我們可以在這里看到一個重要的事實：如果增益小於 $γ$

對於真實有價值的數據，我們通常要尋找一個最佳的分割。為了有效地做到這一點，我們把所有的實例按照排序順序排列，如下圖所示。 Best split

然后從左到右的掃描就足以計算所有可能的拆分解決方案的結構得分，我們可以有效地找到最佳的拆分。

XGBoost 最后的話

既然你明白了什么是 boosted trees 了，你可能會問這在 XGBoost 中的介紹在哪里？ XGBoost 恰好是本教程中引入的正式原則的動力！更重要的是，在 systems optimization（系統優化） 和 principles in machine learning（機器學習原理） 方面都有深入的研究。這個庫的目標是推動機器計算極限的極端，以提供一個scalable（可擴展）, portable（可移植） 和 accurate（精確的） 庫。確保你試一試，最重要的是，向社區貢獻你的智慧（代碼，例子，教程）！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [翻譯] 提升樹算法的介紹（Introduction to Boosted Trees） Spark Gradient-boosted trees (GBTs)梯度提升樹 Spark Gradient-boosted trees (GBTs)梯度提升樹【Spark機器學習速成寶典】模型篇07梯度提升樹【Gradient-Boosted Trees】（Python版） Link-Cut Trees 小記 310. Minimum Height Trees 決策樹(Decision Trees) [LeetCode] Unique Binary Search Trees II [leetcode]Unique Binary Search Trees II @ Python 機器學習算法 --- Decision Trees Algorithms