1. 模型的偏差以及方差:
模型的偏差:是一個相對來說簡單的概念:訓練出來的模型在訓練集上的准確度。
模型的方差:模型是隨機變量。設樣本容量為n的訓練集為隨機變量的集合(X1, X2, ..., Xn),那么模型是以這些隨機變量為輸入的隨機變量函數(其本身仍然是隨機變量):F(X1, X2, ..., Xn)。抽樣的隨機性帶來了模型的隨機性。
我們認為方差越大的模型越容易過擬合:假設有兩個訓練集A和B,經過A訓練的模型Fa與經過B訓練的模型Fb差異很大,這意味着Fa在類A的樣本集合上有更好的性能,而Fb在類B的訓練樣本集合上有更好的性能,這樣導致在不同的訓練集樣本的條件下,訓練得到的模型的效果差異性很大,很不穩定,這便是模型的過擬合現象,而對於一些弱模型,它在不同的訓練樣本集上 性能差異並不大,因此模型方差小,抗過擬合能力強,因此boosting算法就是基於弱模型來實現防止過擬合現象。
我們常說集成學習框架中的基模型是弱模型,通常來說弱模型是偏差高(在訓練集上准確度低),方差小(防止過擬合能力強)的模型。但是,並不是所有集成學習框架中的基模型都是弱模型。bagging和stacking中的基模型為強模型(偏差低方差高),boosting中的基模型為弱模型。
在bagging和boosting框架中,通過計算基模型的期望和方差,我們可以得到模型整體的期望和方差。為了簡化模型,我們假設基模型的權重、方差及兩兩間的相關系數相等。由於bagging和boosting的基模型都是線性組成的,那么有:

2. bagging的偏差和方差
對於bagging來說,每個基模型的權重等於1/m且期望近似相等(子訓練集都是從原訓練集中進行子抽樣),故我們可以進一步化簡得到:

根據上式我們可以看到,整體模型的期望近似於基模型的期望,這也就意味着整體模型的偏差和基模型的偏差近似。同時,整體模型的方差小於等於基模型的方差(當相關性為1時取等號),隨着基模型數(m)的增多,整體模型的方差減少,從而防止過擬合的能力增強,模型的准確度得到提高。但是,模型的准確度一定會無限逼近於1嗎?並不一定,當基模型數增加到一定程度時,方差公式第二項的改變對整體方差的作用很小,防止過擬合的能力達到極限,這便是准確度的極限了。另外,在此我們還知道了為什么bagging中的基模型一定要為強模型,否則就會導致整體模型的偏差度低,即准確度低。
Random Forest是典型的基於bagging框架的模型,其在bagging的基礎上,進一步降低了模型的方差。Random Fores中基模型是樹模型,在樹的內部節點分裂過程中,不再是將所有特征,而是隨機抽樣一部分特征納入分裂的候選項。這樣一來,基模型之間的相關性降低,從而在方差公式中,第一項顯著減少,第二項稍微增加,整體方差仍是減少。
3. boosting的偏差和方差
對於boosting來說,基模型的訓練集抽樣是強相關的,那么模型的相關系數近似等於1,故我們也可以針對boosting化簡公式為:

通過觀察整體方差的表達式,我們容易發現,若基模型不是弱模型,其方差相對較大,這將導致整體模型的方差很大,即無法達到防止過擬合的效果。因此,boosting框架中的基模型必須為弱模型。
因為基模型為弱模型,導致了每個基模型的准確度都不是很高(因為其在訓練集上的准確度不高)。隨着基模型數的增多,整體模型的期望值增加,更接近真實值,因此,整體模型的准確度提高。但是准確度一定會無限逼近於1嗎?仍然並不一定,因為訓練過程中准確度的提高的主要功臣是整體模型在訓練集上的准確度提高,而隨着訓練的進行,整體模型的方差變大,導致防止過擬合的能力變弱,最終導致了准確度反而有所下降。
基於boosting框架的Gradient Tree Boosting模型中基模型也為樹模型,同Random Forrest,我們也可以對特征進行隨機抽樣來使基模型間的相關性降低,從而達到減少方差的效果。
4. 模型的獨立性
衡量模型之間獨立性:抽樣的隨機性決定了模型的隨機性,如果兩個模型的訓練集抽樣過程不獨立,則兩個模型則不獨立,bagging中基模型的訓練樣本都是獨立的隨機抽樣,但是基模型卻不一定獨立,因為我們討論模型的隨機性時,抽樣是針對於樣本的整體。而bagging中的抽樣是針對於訓練集(整體的子集),所以並不能稱其為對整體的獨立隨機抽樣。那么到底bagging中基模型的相關性體現在哪呢?總結下bagging的抽樣為兩個過程:
- 樣本抽樣:整體模型F(X1, X2, ..., Xn)中各輸入隨機變量(X1, X2, ..., Xn)對樣本的抽樣
- 子抽樣:從整體模型F(X1, X2, ..., Xn)中隨機抽取若干輸入隨機變量成為基模型的輸入隨機變量
假若在子抽樣的過程中,兩個基模型抽取的輸入隨機變量有一定的重合,那么這兩個基模型對整體樣本的抽樣將不再獨立,這時基模型之間便具有了相關性。
