統計學習方法--提升方法adaBoost算法（集成學習）

本文轉載自查看原文 2017-03-15 16:37 1699

1、主要內容

　　介紹集成學習，然后講述boosting和bagging的區別與聯系，同時對adaBoost進行推導然后進行gbdt的推導，最后比較隨機森林和gdbt的區別和聯系。

2、集成學習

　　集成學習（ensamble learning）通過構建多個學習器來完成任務。集成學習的一般結構：先產生一組“個體學習器”，然后再用某種策略將這些個體學習器進行聯系起來，個體學習器由現有的一個算法產生，比如說c4.5決策樹，bp神經網絡等。根據集成學習中個體學習器是否相同可以分為同質集成和已質集成，同質集成中個體學習器被稱為“基學習器”，已質集成中的個體學習器稱為“組件學習器”。

　　集成學習通過使用多個學習器進行組合獲得強大的功能，通常個體學習器為弱分類器：分類結果不是太好但是要比隨機猜測的預測結果好（精度高於50%）。目前集成學習的生成方式有兩類：

　　1）、boosting：個體學習器之間存在強烈的依賴關系，只能進行串行生成不同的個體學習器，以adaboost和gdbt為代表

　　2)、bagging：個體學習器獨立生成，互相之間沒有關系，以隨機森林為代表

3、boosting 和 bagging

　　boosting的工作機制：從初始訓練數據集出發訓練出一個基學習器，然后再根據基學習器的表現對訓練的樣本進行調整，使得先前基學習器中學習結果錯誤的樣本權重提升獲得更大的關注，然后使用調整后的訓練樣本進行訓練下一個基學習器，如此重復直到產生足夠數量的基學習器。

　　bagging的工作機制：都訓練樣本進行又放回的抽樣（bootstrap sampling）產生和訓練數據規模相同的新的訓練數據，重復動作產生N個訓練樣本，然后使用這N個樣本數據進行分別訓練基學習器，基學習器之間沒有關系，相互獨立。

4、adaboost算法

　　輸入：訓練數據集 T={(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}; 其中xy = {-1, +1};弱分類器算法

　　輸出：最終分類器G(x)，此處得到的是一個分類器

　　(1)、初始化訓練數據的分布權重

　　　　D1 = {w₁₁，w₁₂，....，w_1i，.....，w_1N}， i = 1，2，3, ..... , N

　　　　w_1i = 1/N

　　(2)、對於要生成M個基學習器，則對於m = 1,2,.....,M:

　　(a)、使用具有權重分布D_m的訓練數據進行生成基學習器：

　　(b)、計算G_m(x)在訓練數據集上的分類誤差率：

　　關於這個誤差率計算的問題，針對不同的問題有不同的計算方法，此處為分類器的計算方法，上式還可以寫為：

　　這個表達式就表明了計算分類錯誤率時就是被G_m(x)誤分類樣本的權重之和，從這個關系上可以看出分類誤差率和樣本權重之間的關系。在此處，實際工程中需要判斷以下誤差率是否小於0.5，如果小於則表示這個基學習器還不如隨機預測的結果，如果加入到最終分類器中會嚴重影響分類器的性能需要拋棄該學習器。

　　(c)、計算基學習器G_m(x)的系數

　　基學習器G_m(x)的系數就是這個學習器正確分類的概率除以分錯概率的對數值的一半。當e_m越小時α_m也就越大，也就是說分類誤差率越小的分類器在最終的分類器中的作用就越來越大，也是保證了最終分類器性能強勁的原因。同時如果 e_m 》0.5的話，結果小於0.這是不允許的，這就是上面要拋棄掉分類誤差大於0.5的學習器的原因。

　　(d)、更新訓練數據集的權重分布

　　其中Z_m為：

　　從更新權重值的公式可以看出，正確分類的樣本數據的權重減小了（e^-a_m < 1）,同樣錯誤分類的樣本的權重變大了，因此錯誤樣本在下一輪的訓練中會被重視，如果這個樣本還是算錯那么誤差率必然會很大，因為必然會導致基學習器變換分類策略使得誤差率變小，通過更新權重避免了改變訓練數據，使不同的訓練數據在基學習器的學習過程中起到不同的作用，這是adaBoost的一個特點。

　　(3)、構建基本分類器的線性組合