一些知識點的初步理解_1(集成學習,ing...)


      最近在看一些集成學習方面的知識,其中南京大學的周志華教授寫的幾篇關於集成學習綜述性的文章還不錯。看了下對集成學習有了一個初步的了解,如下:

      集成學習是機器學習中一個非常重要且熱門的分支,是用多個弱分類器構成一個強分類器,其哲學思想是“三個臭皮匠賽過諸葛亮”。一般的弱分類器可以由決策樹,神經網絡,貝葉斯分類器,K-近鄰等構成。已經有學者理論上證明了集成學習的思想是可以提高分類器的性能的,比如說統計上的原因,計算上的原因以及表示上的原因。

 

一、集成學習中主要的3個算法為:boosting,bagging,stacking.

      其中boosting的弱分類器形成是同一種機器學習算法,只是其數據抽取時的權值在不斷更新,每次都是提高前一次分錯了的數據集的權值,最后得到T個弱分類器,且分類器的權值也跟其中間結果的數據有關。

      Bagging算法也是用的同一種弱分類器,其數據的來源是用bootstrap算法得到的。

      Stacking算法分為2層,第一層是用不同的算法形成T個弱分類器,同時產生一個與原數據集大小相同的新數據集,利用這個新數據集和一個新算法構成第二層的分類器。

 

二、 集成學習有效的前提:1.每個弱分類器的錯誤率不能高於0.5。2.弱分類器之間的性能要有較大的差別,否則集成效果不是很好。

 

三、 集成學習按照基本分類器之間的關系可以分為異態集成學習和同態集成學習。異態集成學習是指弱分類器之間本身不同,而同態集成學習是指弱分類器之間本身相同只是

       參數不同。

 

四、 怎樣形成不同的基本分類器呢?主要從以下5個方面得到。

  1. 基本分類器本身的種類,即其構成算法不同。
  2. 對數據進行處理不同,比如說boosting,bagging,stacking, cross-validation,hold-out test.等。
  3. 對輸入特征進行處理和選擇
  4. 對輸出結果進行處理,比如說有的學者提出的糾錯碼
  5. 引入隨機擾動

五、 基本分類器之間的整合方式,一般有簡單投票,貝葉斯投票,基於D-S證據理論的整合,基於不同的特征子集的整合。

 

六、 基礎學習性能的分析方法主要有bias-variance分析法

 

七、 目前有的一般性實驗結論:

      Boosting方法的集成分類器效果明顯優於bagging,但是在某些數據集boosting算法的效果還不如單個分類器的。

使用隨機化的人工神經網絡初始權值來進行集成的方法往往能夠取得和bagging同樣好的效果。

      Boosting算法一定程度上依賴而數據集,而bagging對數據集的依賴沒有那么明顯。

      Boosting算法不僅能夠減少偏差還能減少方差,但bagging算法智能減少方差,對偏差的減少作用不大。

 

八、未來集成學習算法的研究方向:

  1. 集成學習算法的可理解性要提高。
  2. 怎樣構造有差異的基礎分類器。
  3. 與SVM的結合。
  4. 提高boosting的魯棒性,即降低其對噪聲的敏感。
  5. 完善出集成學習的一般理論框架。

 

九、參考文獻:

Zhou, Z.-H. (2009). "Ensemble." Encyclopedia of Database Systems,(Berlin: Springer): 988-991.

Zhou, Z.-H. (2009). "Boosting." Encyclopedia of Database Systems,(Berlin: Springer): 260-263.

Zhou., Z.-H. (2009). "Ensemble learning." Encyclopedia of Biometrics(Berlin: Springer): 270-273.

廖英毅 "集成學習綜述." soft.cs.tsinghua.edu.cn/~keltin/docs/ensemble.pdf.

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM