集成學習多樣性的數學分析 —— 誤差分歧分解


 

1、集成學習背景

假定我們用個體學習器h1, h2, ..., hT通過加權平均法結合產生集成來完成回歸學習任務f:Rd => R:

                                                      

2、分歧(ambiguiry)

個體學習器hi的分歧

對示例x,定義學習器hi的分歧為:

                          

集成的分歧

對示例x,定義集成的分歧為:

                         

 

集成分歧表征了個體學習器在樣本x上的不一致性,即在一定程度上反映了個體學習器的多樣性。

3、個體學習器hi和集成H的平方誤差

個體學習器hi的平方誤差:

                       

 

 

 個體學習器誤的加權平均值 :

                        

 

 

 集成H的平方誤差:

           


 

4、誤差-分歧分解(error-ambiguity decomposition)

step 1

將平方誤差帶入集成分歧中得:

                            

該式對所有樣本x均成立。

step 2

令 p(x) 表示樣本的概率密度,則在全樣本上有(對step 1式兩邊對x積分):

            

 

step 3

個體學習器hi在全樣本上的泛化誤差:

              

個體學習器hi泛化誤差的加權均值:

             

個體學習器hi在全樣本上的分歧項:

               

個體學習器hi的加權分歧值:

               

 集成的泛化誤差:

               

 

step 4

集成的泛化誤差E(誤差-分歧分解):

       

 

這個式子指出:

  個體學習器准確性越高、多樣性越大,則集成越好。

 

上面這個分析首先由[Krogh and Vedelsby, 1995]給出,稱為誤差-分歧分解。

Remark

  看到這,大家可能回想:如果直接把 作為優化目標來求解,不就能得到最優的集成了?

  遺憾的是,現實任務中很難直接對該式進行優化,不僅由於它們是定義在整個樣本空間上,還由於不是一個可直接操作的多樣性度量,它僅在集成構造好之后才能進行估計。

 

  需要注意的是,上面的推導過程只適用於回歸學習,難以直接推廣到分類學習任務上去

 

 

 

 

      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM