相關內容簡體繁體

樹模型之Bagging總結

本文轉載自查看原文 2020-02-29 14:38 791

Bagging vs. Boosting

Bagging和Boosting是樹模型集成的兩種典型方式。Bagging集成隨機挑選樣本和特征訓練不同樹，每棵樹盡可能深，達到最高的精度。依靠小偏差收斂到理想的准確率。Boosting算法注重迭代構建一系列分類器, 每次分類都將上一次分錯的樣本的權重提高，依靠弱模型和多次迭代達到最高精度。

QA

為什么Bagging模型使用強模型?
bagging的方式要求有大量的模型,模型越多效果的方差越小, 結果越接近平均水平, 所以只要保證單個模型的偏差就可以保證整體效果, 所以要求單模型的性能越強越好.
為什么Boosting 使用弱模型?
Boosting模型都針對分錯的樣本進行優化,所以每個基分類器的准確率是能夠得到保證的也就是說偏差較小, 所以只要保證方差小就可以保證整體效果. 如果是強模型的話,基分類器的個數越多,方差越大. 但是弱分類的方差會稍微比強基分類器的方差小一點.

Random Forest

RandomForest是一種典型的bagging集成算法。訓練時，針對樣本，會隨機抽取不同的樣本和特征訓練不剪枝的CART樹，一直訓練到達到預定義的基分類器個數。對於輸出，針對分類問題，預測結果是各個基分類器的投票，針對回歸問題，預測結果是各個分類器的輸出結果的平均值。

模型評價 (准確率 \時間 \空間 \模型復雜程度 \過擬合 \噪聲影響 \是否可並行化 \調參)

准確率: 相比GBDT算法,它默認參數的效果不錯,可以很好地作為baseline模型
時間: 時間復雜度主要取決於數據集的復雜程度，如果數據集很復雜的話, 需要100-200棵樹, 如果不復雜的話,一般10-100棵樹就好
空間:空間復雜度因為需要訓練大量的樹, 所以很耗內存.
模型復雜度: 模型很簡單
過擬合: 每次采取部分的樣本, 所以在樹的深度和樹的數量不過分的情況下, 是不會出現過擬合現象的.
噪聲影響: 采取隨機采取的方式,不一定會采到特征, 所以抗噪聲能力很好
是否可並行化: 因為樹模型之間無關聯,所以可以並行化.
調參: 樹的棵樹, 層數, 特征數量, 葉子節點的最少樣本數量, 內部節點的最少樣本數量,

優點

支持多種樹集成，可以形成強大的異構集成算法
在隨機挑選樣本和特征，可以減少異常點的影響，降低過擬合

缺點

耗時耗內存:每個基分類器的准確率不是很高，所以要求有大量的基分類器才能取得良好的效果，分界線是100，所以整體的訓練時間很長，一般適合小數據訓練

QA

為什么RF不用后剪枝,但是實現了預剪枝?
方差和偏差的角度
為什么要用隨機采取樣本和特征的方式?
優點:樣本數量,模型差異化;
缺點:欠擬合(配合強分類就可以效果很好)
為什么可以並行化?
模型之間沒有關聯
RF使用的是什么樹?
可以是分類樹也可以是回歸樹，評價指標分別是gini指數和均方差和
RF對輸入數據有什么要求嗎?
連續特征可以直接用，離散特征需要處理成labelhot或者onehot

調參小結

主要調節樹的棵樹和深度、選擇樣本和特征的比例

相比GBDT的默認輸出，RF的默認參數要好一些。
先調節分類器個數從10:200的范圍內挑，但是一般數據較小的話，10:100就可以了
在調節最大深度，調節最大深度要和內部節點的最小樣本數量一起調，最大深度的范圍[3-20]，節點的最小樣本數量范圍[50,200]
在調節內部節點的最少樣本數量和葉子節點的最少樣本數量，范圍分別是[80,150],[10,50]
最后調節特征數量，一般是[0.5,0.8]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 常見樹模型節點分裂方式總結集成學習算法總結----Boosting和Bagging Bagging與隨機森林(RF)算法原理總結機器學習總結（二）bagging與隨機森林樹模型 Boosting和Bagging 線段樹合並總結線段樹模板總結 [總結]樹與圖的遍歷紅黑樹總結（1）

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM