1、集成學習背景
假定我們用個體學習器h1, h2, ..., hT通過加權平均法結合產生集成來完成回歸學習任務f:Rd => R:
2、分歧(ambiguiry)
個體學習器hi的分歧
對示例x,定義學習器hi的分歧為:
集成的分歧
對示例x,定義集成的分歧為:
集成分歧表征了個體學習器在樣本x上的不一致性,即在一定程度上反映了個體學習器的多樣性。
3、個體學習器hi和集成H的平方誤差
個體學習器hi的平方誤差:
個體學習器誤的加權平均值 :
集成H的平方誤差:
4、誤差-分歧分解(error-ambiguity decomposition)
step 1
將平方誤差帶入集成分歧中得:
該式對所有樣本x均成立。
step 2
令 p(x) 表示樣本的概率密度,則在全樣本上有(對step 1式兩邊對x積分):
step 3
個體學習器hi在全樣本上的泛化誤差:
個體學習器hi泛化誤差的加權均值:
個體學習器hi在全樣本上的分歧項:
個體學習器hi的加權分歧值:
集成的泛化誤差:
step 4
集成的泛化誤差E(誤差-分歧分解):
這個式子指出:
個體學習器准確性越高、多樣性越大,則集成越好。
上面這個分析首先由[Krogh and Vedelsby, 1995]給出,稱為誤差-分歧分解。
Remark
看到這,大家可能回想:如果直接把 作為優化目標來求解,不就能得到最優的集成了?
遺憾的是,現實任務中很難直接對該式進行優化,不僅由於它們是定義在整個樣本空間上,還由於不是一個可直接操作的多樣性度量,它僅在集成構造好之后才能進行估計。
需要注意的是,上面的推導過程只適用於回歸學習,難以直接推廣到分類學習任務上去。