最近兩天在學習GBDT,看了一些資料,了解到GBDT由很多回歸樹構成,每一棵新回歸樹都是建立在上一棵回歸樹的損失函數梯度降低的方向。
以下為自己的理解,以及收集到的覺着特別好的學習資料。
1、GBDT可用於回歸任務和分類任務。
GBDT做回歸任務時,每一棵子樹的構建過程與cart回歸樹的建立過程相同,使用最小化均方誤差來選擇最優划分的特征,不同點是GBDT子樹的根節點數據為前一棵子樹所有樣本真實值與其所在葉子結點預測值的殘差。
GBDT做分類任務時,可以做二分類,也可以做多分類。一直沒搞懂最優划分特征的准則是怎樣的。直到看了下面這篇文章:
Gradient Boosting Decision Tree學習[1],這篇文章比較詳細地講述了基本理論,公式推導,GBDT建樹過程。
還可以再看看這篇文章機器學習中的算法(1)-決策樹模型組合之隨機森林與GBDT[2],有個例子,以及算法流程的講解。
2、GBDT運用的正則化技巧
加入正則化項,是為了防止模型過於復雜,可以看看這篇文章GBDT運用的正則化技巧[3]。
3、利用GBDT組合特征具體方法
利用GBDT模型構造新特征[4]介紹了Facebook發表的利用GBDT模型構造新特征的方法。
4、sklearn中GBDT調參問題
參考文獻鏈接地址:
[1]http://www.lai18.com/content/1406280.html
[2]http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html
[3]https://chuan92.com/2016/04/11/regularization-on-gbdt
[4]https://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html#fn:fbgbdt
[5]http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm