GBDT的基本原理

本文轉載自查看原文 2015-03-09 21:43 32343 機器學習

這里以二元分類為例子，給出最基本原理的解釋

GBDT 是多棵樹的輸出預測值的累加

GBDT的樹都是回歸樹而不是分類樹

分類樹

分裂的時候選取使得誤差下降最多的分裂

計算的技巧

最終分裂收益按照下面的方式計算，注意圓圈內的部分是固定值

GBDT 二分類

GBDT在實現中可以完全復用上面的計算方法框架，只是我們的優化的目標函數不同。

這里使用的是指數誤差函數，不管是預測正確還是錯誤誤差值都存在，但是正確的預測會使得誤差值小於錯誤的預測參考

AdaBoost and the Super Bowl of Classiﬁers

A Tutorial Introduction to Adaptive Boosting

關於常用誤差函數參考 http://www.cnblogs.com/rocketfan/p/4083821.html

參考 Greedy Functon Approximation:A Gradient Boosting Machine

4.4節關於二分類情況誤差函數的設計

這里其實和上面給出的一樣，只是增加了 log(1 +, 另外多了一個2,2yF), 參考前面的LossFunction http://www.cnblogs.com/rocketfan/p/4083821.html

的推導，其實這個應該算作LogLoss或者說是logistic regression, cross entropy error,也就是從probablity出發的logloss推導到output F(x)的表示就是上面的

式子，而它看上去剛好就是一個指數誤差函數。

嚴格意義上說是LogLoss不是指數誤差不過LogLoss和指數誤差看上去比較相似。

這個F值其實就是邏輯回歸的思路，類似語音語言處理一書27頁解釋，線性加權的值（output)用來預測 p(true)和p(false)的比例的log值（回歸值是實數范圍取值不適合預測0-1，做了一個轉換)，越是接近true，那么F(x)越接近+無窮(對應最大可能性判斷true)， p(false)越大那么越接近-無窮(對應最大可能性判斷false)