學習理論:
- 偏差方差權衡(Bias/variance tradeoff)
- 訓練誤差和一般誤差(Training error & generation error)
- 經驗風險最小化(Empiried risk minization)
- 聯合界引理和Hoeffding不等式(Union bound & Hoeffding inequality)
- 有限與無限假設類的討論(Discuss on finite and infinite hypothesis class)
一、偏差方差權衡
1. 偏差與方差
回顧之前在討論線性回歸問題時,通常存在以下三種情況:
- 圖1,用一條直線擬合一個呈現二次結構的散點,無論訓練樣本怎樣增多,一次函數都無法准確地表示出二次函數。我們認為它具有高偏差(high bias),表現出欠擬合(underfit)。
- 圖3,用一條五次多項式函數來擬合數據,對於數據的結果,得到的仍然不是一個好的模型,算法擬合出了數據中的一些奇怪規律。我們認為它具有高方差(high variance),表現出過擬合(overfit)。
- 圖2,用一條二次函數來擬合數據,很顯然能夠匹配數據集合的一般規律。
偏差與方差之間存在某種平衡。如果模型過於簡單且參數較少,它可能有高偏差(低方差);相反,如果模型過於復雜且參數眾多,它可能有高方差(低偏差)。它們之間究竟存在怎樣的關系呢?為了說明這個問題,先要提出一個更為一般的機器學習模型——經驗風險最小化,在正式介紹該模型之前,需要對兩個引理有所了解來幫助理解。
2. 兩個引理
為了解釋偏差方差權衡現象,需要引出兩個引理:聯合界引理和Hoeffding不等式。
(1)聯合界引理
這個引理常作為概率論的公理,k個事件中任意事件發生的概率最多為每個事件獨立發生的概率之和。其中,事件可能發生,也可能不發生。
(2)Hoeffding不等式
這個引理在學習理論中也稱為Chernoff邊界(Chernoff bound),給出了一種估計伯努利隨機變量均值時,錯誤概率的上界。關於這個上界有個很有意思的結論:隨着樣本數目m增大,高斯分布的凸性會隨之收縮,也就是高斯分布的尾部會變小,中間隆起。舉個例子,當你投擲一枚兩面的硬幣,人像面朝上的概率為Φ,在投擲m次(m足夠大)后,計算人像面朝上的次數是一種很好的估計Φ值的方法。
3. 兩個誤差
介紹兩個學習理論中十分重要的概念:訓練誤差與一般誤差。
(1)訓練誤差
考慮二元分類y∈{0,1},給定訓練集合S={(x(i),y(i));i=1,2,...,m},訓練樣本服從獨立同分布D,對於一個假設函數h,我們定義訓練誤差(Training error),也叫作經驗風險(empirical risk)或經驗誤差(empirical error):
(2)一般誤差
一般誤差(Generation error)定義為:
它表示當從服從分布D的樣本集合中取出一個樣本(x,y),假設函數h將會分類錯誤的概率。
4. 經驗風險最小化
以線性分類器為例,它的假設函數可以寫成:
擬合參數θ的一個方法是求解目標函數使訓練誤差最小。
這個過程被稱作經驗風險最小化(ERM-empirical risk minimization),它是簡化的機器學習模型,邏輯回歸和支持向量機可以看作為這個非凸優化問題的凸性近似。
二、假設類
1. 假設類的定義
假設類(hypothesis class)為學習算法建立的所有分類器的集合。如線性分類器中,假設類H是輸入范圍X上所有分類器的集合;在神經網絡中,假設類H是由一些神經網絡結構表示的所有分類器的集合。
線性分類器的假設類H為:
經驗風險最小化要做的是給定訓練集合,從這k個函數中選取一個使得訓練誤差最小:
2. 有限假設類情形
首先考慮有限假設類的情況,H={h1,...,hk}為有k個假設函數的假設類,也就是由k個從X映射到{0,1}的函數組成。接下來,要證明一般誤差與最小誤差之間是有上界的,簡單地說,當訓練誤差很小時,一般誤差也不會很大。
證明策略:
- 訓練誤差是一般誤差很好的估計;
- EMR輸出假設的一般誤差存在上界。
證明過程:
(1)一致收斂概率界:
a. 固定假設成立
- 前提條件:考慮一個假設類H中的任意固定的假設hi∈H,定義服從伯努利分布D的隨機變量Z=1{hi(x)≠y},表示第i個假設函數對樣本錯誤分類的指示函數的值,其中Zj=1{hi(x(j))≠y(j)}。那么P(Zj=1)=ε(hj),表示由分布D產生一個訓練樣本,假設對該樣本錯誤分類的概率,也就是假設hj的一般誤差。故Zj為一個伯努利隨機變量,均值為ε(hj)。ε(h)為隨機變量Z(或Zj)的期望值,訓練誤差為m個獨立同分布伯努利隨機變量Zj的平均值,每個樣本都是由均值為一般誤差ε(hj)的伯努利分布生成。
- 利用Hoeffding不等式可以得到:
上式說明,給定一個假設hi,訓練誤差與一般誤差之間差異大於γ的概率有上界,即訓練誤差將會以很大的概率接近於一般誤差。當m很大時,訓練誤差與一般誤差之間的差異就很小。但是到目前為止,只證明了針對某個固定假設,兩種誤差之間的差異存在上界。由於最終我們要證明訓練誤差是一般誤差很好的估計,故還需要證明在整個假設類H上任意一個h都滿足這個條件。
b. 任意假設成立
假設Ai表示的事件,已經證明對於任意的Ai,
利用聯合界引理可以得到:
同時用1減去兩邊得到:
上式說明,在不小於概率的情況下,對於假設類H中的所有hi,兩個誤差之間的差異將會在γ之內,這就是一致收斂(uniform convergence)。當m很大時,所有的訓練誤差將收斂於一般誤差,即所有訓練誤差與一般誤差都十分接近。
(2)樣本復雜度界:
給定γ和δ,m的值是多少?
求解m的值得:
只要樣本數目m大於上式,對於任意的假設h,就能保證訓練誤差與一般誤差之間的差異都在γ之內的概率至少是1-δ,稱為樣本復雜度界(Sample complexity bound)。
m與logk呈正比,而logk增長的十分緩慢,隨着k的不斷增大,樣本數目不會有太大的提高。
(3)誤差界:
固定m和δ,求解γ的值。至少在1-δ的概率下,對於所有假設類中的假設有:
γ的值為不等式右邊的值
假設一致收斂成立,所有h∈H,都滿足:

h*是最理想的情況,學習算法就算再好也不會比h*好,因此將學習算法與之比較是有意義的。
定理:令H為有限的假設類,|H|>k,令m和δ固定,至少在1-δ的概率下,我們有:
設γ的值為,由一致收斂結果,至少在1-δ的概率下,ε(h)至少比ε(h*)要高2γ。這個結論可以很好地幫助我們量化偏差方差權衡的問題。
如果選擇更復雜的目標函數或更多特征的類H’,例如,將線性假設類換成二次假設類,假設類中最好的假設只可能更好,不等式右邊的第一項(偏差bias)會減小,但代價是k會增加,從而第二項(方差variance)增加,這就是偏差方差權衡,可以用下圖更具體的描述。
隨着模型復雜度(如多項式的次數、假設類的大小等)的增長,訓練誤差逐漸降低,而一般誤差先降低到最低點再重新增長。訓練誤差降低,是因為模型越復雜,對於訓練集合的擬合就越好。對於一般誤差,最左邊的端點表示欠擬合(高偏差),最右邊的端點表示過擬合(高方差),最小化一般誤差時,一般傾向於選取中間的模型復雜度,最小一般誤差的區域。
最后介紹上述定理的Corollary推論:
令假設類含有k個假設,|H|=k,給定γ和δ,為了保證:
至少在1-δ的概率下,滿足條件:
3. 無限假設類情形
根據Corollary推論,定義了為滿足誤差率所需的樣本數目的界,與樣本復雜度有關的結論。接下來要把它推廣到無限假設類的情形。
H以d個實數為參數,例如使用邏輯回歸,解決包含n個特征的問題,d應該為n+1,所以邏輯回歸會找到一個線性決策邊界,以n+1個實數為參數。在計算機中用雙精度浮點數64bit表示一個實數,那么此時用64d個位來表示參數,具有64d個狀態,,為了滿足這個條件,m符合:
訓練樣本的數目大致和假設類的參數數目呈線性關系。這個論點並不是充分的,只是用來加深直觀的理解。
(1)分散的定義
給定d個樣本的集合S={x(1),...,x(d)},假設類H可以分散S,那么對於S的任意一種標記方式都可以從H中找到一個假設h能夠對S的d個樣本進行完美預測。
- H={二維上的線性分類器}
- H={三維上的線性分類器}
(2)VC維
給定一個假設類H,定義VC維(Vapnik-Chervonenkis dimension),記作VC(H),表示能夠被H分散最大集合的大小。如果一個假設類可以分散任意大的集合,那么它的VC維維無窮大。
若H是所有二維線性分類器構成的假設類,VC(H)=3。即使也有幾個特例例外,不過這並不影響整體。
推廣到一般情形,對於任意維度,線性分類器是n維的,也就是n維假設類對應的VC維度為n+1。
定理:給定一個假設類H,令VC(H)=d,至少在1-δ的概率下,對於任意h∈H有如下結論:
因此,至少在1-δ的概率下,以下結論也成立:
第一個結論說明一般誤差與訓練誤差之間的差異存在上界,由不等式右邊的式子O()限定。第二個結論說明,若一般誤差與訓練誤差相差不大的情況下,那么選擇的假設的一般誤差與最好的一般誤差之間的差異最多是O()。
Corollary:為了保證對於所有的h∈H有,也就是
,至少在1-δ的概率下,要滿足:
也就是為了保證一般誤差與訓練誤差的差異足夠小,假設類的VC維需要與m的階相同。對於EMR來說,需要訓練的樣本數目大概和假設類的VC維呈線性關系,樣本復雜度的上界由VC維給定,最壞的情況下,樣本復雜度的上下界均由VC維確定。對於大多數合理的假設類,VC維總是與模型的參數成正比。而事實上,樣本數目與模型參數數量也成線性關系。
在SVM中,核函數將特征映射到無限維的特征空間,看似VC維度是無窮大的,因為它是n+1,而n為無窮大。事實證明:具有較大間隔的線性分類器假設類都有比較低的VC維。
若,則
僅包含較大間隔線性分類器假設類的VC維是有上界的,且上界並不依賴於x的維度。SVM會自動找到一個具有較小VC維的假設類,不會出現過擬合。
最后,結合上述內容解釋ERM與之前學習過的學習算法之間的聯系。
最理想的分類器是一個指示函數(階梯函數),不是一個凸函數,事實證明線性分類器使訓練誤差最小是一個NP難問題。邏輯回歸與支持向量機都可以看作是這個問題(ERM)的凸性近似。邏輯回歸一般采用極大似然性,如果加入負號就可以得到圖中的曲線,實際上是近似地在最小化訓練誤差,它是ERM的一種近似。同時,支持向量機也可以看作是ERM的一種近似,不同的是它嘗試用兩段不同的線性函數近似,看似是鉸鏈的形狀。