解釋一
偏差:描述的是預測值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實數據,如下圖第二行所示。
方差:描述的是預測值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數據的分布越分散,如下圖右列所示。

參考:Understanding the Bias-Variance Tradeoff
解釋二
Bias:誤差,對象是單個模型,期望輸出與真實標記的差別
Variance:方差,對象是多個模型
從同一個數據集中,用科學的采樣方法得到幾個不同的子訓練集,用這些訓練集訓練得到的模型往往並不相同。

以上圖為例:
\1. 左上的模型偏差最大,右下的模型偏差最小;
\2. 左上的模型方差最小,右下的模型方差最大
為了理解第二點,可以看下圖。藍色和綠色分別是同一個訓練集上采樣得到的兩個訓練子集,由於采取了復雜的算法去擬合,兩個模型差異很大。如果是拿直線擬合的話,顯然差異不會這么大。

一般來說,偏差、方差和模型的復雜度之間的關系是這樣子滴:

實際中,我們需要找到偏差和方差都較小的點。
XGBOOST中,我們選擇盡可能多的樹,盡可能深的層,來減少模型的偏差;
通過cross-validation,通過在驗證集上校驗,通過正則化,來減少模型的方差
從而獲得較低的泛化誤差。
Blog: https://blog.yilon.top
