摘要:在隨機森林介紹中提到了Bagging方法,這里就具體的學習下bagging方法。
Bagging方法是一個統計重采樣的技術,它的基礎是Bootstrap。基本思想是:利用Bootstrap方法重采樣來生成多個版本的預測分類器,然后把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器的好,因為綜合了各個分類器的特點。之所以用可重復的隨機采樣技術Bootstrap,是因為進行重復的隨機采樣所獲得的樣本可以得到沒有或者含有較少的噪聲數據。
在訓練集上采樣Bootstrap的方法進行采樣,平均1/3的樣本不會出現在采樣的樣本集合中,這就意味着訓練集中的噪聲點可能不會出現在Bootstrap所采集的樣本集合中,所以與在原始樣本集合上構建分類器相比,Bootstrap方法可以更容易的獲得好的分類器。
在Leo Breiman的論文 :Bagging Predictors 中他研究了不穩定性問題。他指出神經網絡,分類和回歸樹,線性回歸等方法的子集選擇都不是穩定的。K-nearest相鄰方法是穩定的。在論文中表明,Bagging方法可以正常的處理不穩定情況。實踐和理論證明Bagging方法可以將一個好的不穩定的過程推向最優化方向發展。
Bagging算法流程如下:
1:對於給定的訓練樣本集合,通過n次的隨機可重復的采樣,從原始的樣本集合中構建一個Bootstrap樣本集合。
2:對於每一個Bootstrap樣本集合構建一顆決策樹。
3:重復1-2步,獲取更多的決策樹。
4:讓每一棵決策樹對輸入量X進行投票
5:計算所有的投票數目,並以投票最多的一個分類標簽作為X的類型。