樹模型之Bagging總結


Bagging vs. Boosting

Bagging和Boosting是樹模型集成的兩種典型方式。Bagging集成隨機挑選樣本和特征訓練不同樹,每棵樹盡可能深,達到最高的精度。依靠小偏差收斂到理想的准確率。Boosting算法注重迭代構建一系列分類器, 每次分類都將上一次分錯的樣本的權重提高,依靠弱模型和多次迭代達到最高精度。

QA

  • 為什么Bagging模型使用強模型?
      bagging的方式要求有大量的模型,模型越多效果的方差越小, 結果越接近平均水平, 所以只要保證單個模型的偏差就可以保證整體效果, 所以要求單模型的性能越強越好.
  • 為什么Boosting 使用弱模型?
      Boosting模型都針對分錯的樣本進行優化,所以每個基分類器的准確率是能夠得到保證的也就是說偏差較小, 所以只要保證方差小就可以保證整體效果. 如果是強模型的話,基分類器的個數越多,方差越大. 但是弱分類的方差會稍微比強基分類器的方差小一點.

Random Forest

RandomForest是一種典型的bagging集成算法。訓練時,針對樣本,會隨機抽取不同的樣本和特征訓練不剪枝的CART樹,一直訓練到達到預定義的基分類器個數。對於輸出,針對分類問題,預測結果是各個基分類器的投票,針對回歸問題,預測結果是各個分類器的輸出結果的平均值。

模型評價 (准確率 \時間 \空間 \模型復雜程度 \過擬合 \噪聲影響 \是否可並行化 \調參)

  1. 准確率: 相比GBDT算法,它默認參數的效果不錯,可以很好地作為baseline模型
  2. 時間: 時間復雜度主要取決於數據集的復雜程度,如果數據集很復雜的話, 需要100-200棵樹, 如果不復雜的話,一般10-100棵樹就好
  3. 空間:空間復雜度因為需要訓練大量的樹, 所以很耗內存.
  4. 模型復雜度: 模型很簡單
  5. 過擬合: 每次采取部分的樣本, 所以在樹的深度和樹的數量不過分的情況下, 是不會出現過擬合現象的.
  6. 噪聲影響: 采取隨機采取的方式,不一定會采到特征, 所以抗噪聲能力很好
  7. 是否可並行化: 因為樹模型之間無關聯,所以可以並行化.
  8. 調參: 樹的棵樹, 層數, 特征數量, 葉子節點的最少樣本數量, 內部節點的最少樣本數量,

優點

  1. 支持多種樹集成,可以形成強大的異構集成算法
  2. 在隨機挑選樣本和特征,可以減少異常點的影響,降低過擬合

缺點

耗時耗內存:每個基分類器的准確率不是很高,所以要求有大量的基分類器才能取得良好的效果,分界線是100,所以整體的訓練時間很長,一般適合小數據訓練

QA

  • 為什么RF不用后剪枝,但是實現了預剪枝?
      方差和偏差的角度
  • 為什么要用隨機采取樣本和特征的方式?
      優點:樣本數量,模型差異化;
      缺點:欠擬合(配合強分類就可以效果很好)
  • 為什么可以並行化?
      模型之間沒有關聯
  • RF使用的是什么樹?
      可以是分類樹也可以是回歸樹,評價指標分別是gini指數和均方差和
  • RF對輸入數據有什么要求嗎?
      連續特征可以直接用,離散特征需要處理成labelhot或者onehot

調參小結

主要調節樹的棵樹和深度、選擇樣本和特征的比例

  1. 相比GBDT的默認輸出,RF的默認參數要好一些。
  2. 先調節分類器個數從10:200的范圍內挑,但是一般數據較小的話,10:100就可以了
  3. 在調節最大深度,調節最大深度要和內部節點的最小樣本數量一起調,最大深度的范圍[3-20],節點的最小樣本數量范圍[50,200]
  4. 在調節內部節點的最少樣本數量和葉子節點的最少樣本數量,范圍分別是[80,150],[10,50]
  5. 最后調節特征數量,一般是[0.5,0.8]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM