統計學習方法(一):泛化誤差上界


介紹

泛化誤差上界可理解為模型學習能力的“出錯上限”,顯然,當樣本容量趨於無窮大時,泛化誤差上界趨於\(0\).

本文介紹較簡單的二分類問題中的泛化誤差上界.以下先給出結論:

定理

在二分類問題中,若假設空間為有限個函數的集合\(\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}\)
對於任意一個函數\(f \in \mathcal{F}\),至少以概率\(1-\delta\),

以下不等式成立:

\[R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) \tag{1.1} \]

其中,

\[R(f)=E[L(Y,f(X))] \tag{1.2} \]

\[\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i)) \tag{1.3} \]

\[\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \tag{1.4} \]

\((1.1)\)中,\(R(f)\)為泛化誤差,或者稱之為測試集上的期望風險,\(\hat{R}(f)\)為訓練集上的經驗風險,\(\hat{R}(f)+\varepsilon(d, N, \delta)\)即為泛化誤差上界.觀察式\((1.2)\)可知,泛化誤差上界與樣本數\(N\)成正比,與假設空間包含的函數數量\(d\)成反比. 因此:當樣本數\(N\)越大,泛化誤差上界越小,當假設空間\(\mathcal{F}\)包含的函數越多,泛化誤差上界越大.

證明

證明利用了Hoeffding不等式:

\(Sn= \sum_{i=1}^{N} X_i\)是獨立隨機變量\(X_1, X_2,\cdots,X_n\)之和,\(X_i \in [a_i, b_i]\),則對任意\(t>0\),以下不等式成立:

\[P(S_n - E(S_n) \geqslant t) \leqslant \exp \left(\frac{-2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2} \right ) \tag{1.5} \]

\[P(E(S_n) - S_n \geqslant t) \leqslant \exp \left(\frac{-2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2} \right ) \tag{1.6} \]

觀察式\((1.2)\)可知,\(R(f)\)是隨機變量\(L(Y,f(X))\)的期望值.觀察式\((1,3)\)可知,\(\hat R(f)\)\(N\)個獨立隨機變量\(L(Y,f(X))\)的樣本均值. 因此我們需要找到\(\bar X_n\)\(E(\bar X_n)\)之間的關系. 對上述Hoeffding不等式進行變形:

\[P(\bar X_n - E(\bar X_n) \geqslant t) =P(S_n-E(S_n) \geqslant nt) \leqslant \exp \left(\frac {-2n^2t^2}{\sum_{i=1}^{n} (b_i - a_i)^2}\right) \tag{1.7}\]

在二分類問題中,顯然\(a_i=0\)\(b_i=1\),因此上式可寫為:

\[P \left(R(f) - \hat{R}(f) \geqslant \varepsilon \right) \leqslant \exp (-2N \varepsilon^2) \tag{1.8} \]

從假設空間的全部函數上看,上式可寫為:

\[P(\exists f \in \mathcal{F}: R(f) - \hat{R}(f) \geqslant \varepsilon ) = P \left(\bigcup_{f \in \mathcal{F}} \{R(f) - \hat{R}(f) \geqslant \varepsilon \} \right) \leqslant d \exp (-2N \varepsilon^2) \tag{1.9} \]

考慮對立事件。對任意\(f \in \mathcal{F}\), 有:

\[P(R(f)-\hat{R}(f) < \varepsilon) \geqslant 1 - d \exp(-2N\varepsilon^2) \tag{1.10} \]

令:

\[\delta = d \exp(-2N\varepsilon^2) \tag{1.11} \]

\(\varepsilon\)的值可由上式反解得出,即得到式\((1.4)\)

綜上,至少以概率\(1-\delta\)\(P(R(f) < \hat{R}(f) + \varepsilon)\)成立,證畢.

總結

然而這只是最簡單的二分類里的結論,對於更一般的假設空間如何找出泛化誤差上界就超出我的認知范圍了,路漫漫其修遠兮Orz.

參考文獻:[1] 李航.統計學習方法(第2版)[M].北京:清華大學出版社, 2019.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM