Bagging和Boosting的概念與區別


隨機森林屬於集成學習(ensemble learning)中的bagging算法,在集成算法中主要分為bagging算法與boosting算法,

Bagging算法(套袋發)

  • bagging的算法過程如下:
    1. 從原始樣本集中使用Bootstraping 方法隨機抽取n個訓練樣本,共進行k輪抽取,得到k個訓練集(k個訓練集之間相互獨立,元素可以有重復)。
    2. 對於n個訓練集,我們訓練k個模型,(這個模型可根據具體的情況而定,可以是決策樹,knn等)
    3. 對於分類問題:由投票表決產生的分類結果;對於回歸問題,由k個模型預測結果的均值作為最后預測的結果(所有模型的重要性相同)。

Boosting(提升法)

  • boosting的算法過程如下:
    1. 對於訓練集中的每個樣本建立權值wi,表示對每個樣本的權重, 其關鍵在與對於被錯誤分類的樣本權重會在下一輪的分類中獲得更大的權重(錯誤分類的樣本的權重增加)。
    2. 同時加大分類 誤差概率小的弱分類器的權值,使其在表決中起到更大的作用,減小分類誤差率較大弱分類器的權值,使其在表決中起到較小的作用。每一次迭代都得到一個弱分類器,需要使用某種策略將其組合,最為最終模型,(adaboost給每個迭代之后的弱分類器一個權值,將其線性組合作為最終的分類器,誤差小的分類器權值越大。)

Bagging和Boosting 的主要區別

  • 樣本選擇上: Bagging采取Bootstraping的是隨機有放回的取樣,Boosting的每一輪訓練的樣本是固定的,改變的是買個樣的權重。
  • 樣本權重上:Bagging采取的是均勻取樣,且每個樣本的權重相同,Boosting根據錯誤率調整樣本權重,錯誤率越大的樣本權重會變大
  • 預測函數上:Bagging所以的預測函數權值相同,Boosting中誤差越小的預測函數其權值越大。
  • 並行計算: Bagging 的各個預測函數可以並行生成;Boosting的各個預測函數必須按照順序迭代生成.

將決策樹與以上框架組合成新的算法

  • Bagging + 決策樹 = 隨機森林
  • AdaBoost + 決策樹 = 提升樹
  • gradient + 決策樹 = GDBT

決策樹

常用的決策樹有ID3, C4.5 ,CART三種. 三種算法模型構架相似,只是采用了不同的指標

首先介紹ID3算法

  • 基於奧卡姆剃刀原理,即用盡量較少的東西做更多的東西,ID3算法即interactive Dichotomiser3,迭代二叉樹3代,
  • 核心思想:以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進行分類。
  • 信息增益:屬性選擇中一個重要的指標,它定義為一個屬性能夠為分類帶來的多少信息,帶來的信息越多,該屬性也就越重要,而信息量則可以用熵表示。
  • 熵的定義:信息量的期望值,表示隨機變量不確定性的度量,設X是一個取有限個值的離散隨機變量,其概率分布為P(X=xi)=pi,則隨機變量X的熵定義為
    其中,對數以2為底或者以e為底,分布其單位是比特(bit)或者納特(nat)
  • 熵越大,隨機變量的不確定性就越大,當隨機變量只取兩個值,即X的分布式,其熵為,分布為伯努利分布時,熵與概率的關系如圖:,p=0.5時,H(p)=1,熵取值最大,隨機變量的不確定性越大,當p=0或者1時,H(p)=0隨機變量完全沒有不確定性.

條件熵

  • 設有隨機變量(X,Y),其聯合概率分布為,條件熵H(Y|X)表示在已知隨機變量X的條件下,隨機變量隨Y的不確定性。隨機變量X給定的條件下,隨機變量Y的條件熵(conditional entropy)(H(Y|X)),定義為X的給定條件下Y的條件概率分布的熵對X的數學期望。
  • 這里p=P(X=xi),i=1,2,3...n,如果是在決策樹里面的話,就是類標概率與該類標下在該變量下分裂下的熵的乘積之和。
  • 當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到時,所對應的熵與條件熵分別稱為經驗熵與經驗條件熵
  • 此時,信息增益(information gain)表示得知特征X的信息而使得類Y的信息的不確定性減少的程度,

信息增益

  • 特征A對訓練數據集D的信息增益g(D,A),定義為集合D的經驗熵H(D),與特征A給定條件下D的經驗條件熵H(D|A)之差 g(D,A)=H(D)-H(D|A)
  • 決策樹學習應用信息增益准則可以用於特征選擇,給定的訓練集D和特征A,經驗熵H(D)標書對數據集D進行分類的不確定性,而經驗條件熵H(D|A)表示在特征A給定的情況下,對數據集D進行分類的不確定性。信息增益就是表示特征A使得對數據集D的分類的不確定性的減少程度。對於數據集D而言,信息增益依賴於特征,不同特征往往具有不同的信息增益,信息增益大的特征具有更強的分類能力。
  • 未完待續


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM