經驗風險最小化


學習理論:

  • 偏差方差權衡(Bias/variance tradeoff)
  • 訓練誤差和一般誤差(Training error & generation error)
  • 經驗風險最小化(Empiried risk minization)
  • 聯合界引理和Hoeffding不等式(Union bound & Hoeffding inequality)
  • 有限與無限假設類的討論(Discuss on finite and infinite hypothesis class)

 

一、偏差方差權衡

1. 偏差與方差

     回顧之前在討論線性回歸問題時,通常存在以下三種情況:

  • 圖1,用一條直線擬合一個呈現二次結構的散點,無論訓練樣本怎樣增多,一次函數都無法准確地表示出二次函數。我們認為它具有高偏差(high bias),表現出欠擬合(underfit)
  • 圖3,用一條五次多項式函數來擬合數據,對於數據的結果,得到的仍然不是一個好的模型,算法擬合出了數據中的一些奇怪規律。我們認為它具有高方差(high variance),表現出過擬合(overfit)
  • 圖2,用一條二次函數來擬合數據,很顯然能夠匹配數據集合的一般規律。

     偏差與方差之間存在某種平衡。如果模型過於簡單且參數較少,它可能有高偏差(低方差);相反,如果模型過於復雜且參數眾多,它可能有高方差(低偏差)。它們之間究竟存在怎樣的關系呢?為了說明這個問題,先要提出一個更為一般的機器學習模型——經驗風險最小化,在正式介紹該模型之前,需要對兩個引理有所了解來幫助理解。

 

2. 兩個引理

   為了解釋偏差方差權衡現象,需要引出兩個引理:聯合界引理和Hoeffding不等式。

 (1)聯合界引理

  

    這個引理常作為概率論的公理,k個事件中任意事件發生的概率最多為每個事件獨立發生的概率之和。其中,事件可能發生,也可能不發生。

 (2)Hoeffding不等式

   

     這個引理在學習理論中也稱為Chernoff邊界(Chernoff bound),給出了一種估計伯努利隨機變量均值時,錯誤概率的上界。關於這個上界有個很有意思的結論:隨着樣本數目m增大,高斯分布的凸性會隨之收縮,也就是高斯分布的尾部會變小,中間隆起。舉個例子,當你投擲一枚兩面的硬幣,人像面朝上的概率為Φ,在投擲m次(m足夠大)后,計算人像面朝上的次數是一種很好的估計Φ值的方法。

 

3. 兩個誤差

    介紹兩個學習理論中十分重要的概念:訓練誤差與一般誤差。

 (1)訓練誤差

    考慮二元分類y∈{0,1},給定訓練集合S={(x(i),y(i));i=1,2,...,m},訓練樣本服從獨立同分布D,對於一個假設函數h,我們定義訓練誤差(Training error),也叫作經驗風險(empirical risk)或經驗誤差(empirical error):

   

 (2)一般誤差

   一般誤差(Generation error)定義為:

 

   它表示當從服從分布D的樣本集合中取出一個樣本(x,y),假設函數h將會分類錯誤的概率。

 

4. 經驗風險最小化

   以線性分類器為例,它的假設函數可以寫成:

   

   擬合參數θ的一個方法是求解目標函數使訓練誤差最小。

  

   這個過程被稱作經驗風險最小化(ERM-empirical risk minimization),它是簡化的機器學習模型,邏輯回歸和支持向量機可以看作為這個非凸優化問題的凸性近似。

 

二、假設類

1. 假設類的定義

     假設類(hypothesis class)為學習算法建立的所有分類器的集合。如線性分類器中,假設類H是輸入范圍X上所有分類器的集合;在神經網絡中,假設類H是由一些神經網絡結構表示的所有分類器的集合。

     線性分類器的假設類H為:

     

     經驗風險最小化要做的是給定訓練集合,從這k個函數中選取一個使得訓練誤差最小:

   

 

2. 有限假設類情形

    首先考慮有限假設類的情況,H={h1,...,hk}為有k個假設函數的假設類,也就是由k個從X映射到{0,1}的函數組成。接下來,要證明一般誤差與最小誤差之間是有上界的,簡單地說,當訓練誤差很小時,一般誤差也不會很大。

    證明策略:

  • 訓練誤差是一般誤差很好的估計;
  • EMR輸出假設的一般誤差存在上界。

    證明過程:

(1)一致收斂概率界:

     a. 固定假設成立

  • 前提條件:考慮一個假設類H中的任意固定的假設hi∈H,定義服從伯努利分布D的隨機變量Z=1{hi(x)≠y},表示第i個假設函數對樣本錯誤分類的指示函數的值,其中Zj=1{hi(x(j))≠y(j)}。那么P(Zj=1)=ε(hj),表示由分布D產生一個訓練樣本,假設對該樣本錯誤分類的概率,也就是假設hj的一般誤差。故Zj為一個伯努利隨機變量,均值為ε(hj)。ε(h)為隨機變量Z(或Zj)的期望值,訓練誤差為m個獨立同分布伯努利隨機變量Zj的平均值,每個樣本都是由均值為一般誤差ε(hj)的伯努利分布生成。

      

  • 利用Hoeffding不等式可以得到:

      

       上式說明,給定一個假設hi,訓練誤差與一般誤差之間差異大於γ的概率有上界,即訓練誤差將會以很大的概率接近於一般誤差。當m很大時,訓練誤差與一般誤差之間的差異就很小。但是到目前為止,只證明了針對某個固定假設,兩種誤差之間的差異存在上界。由於最終我們要證明訓練誤差是一般誤差很好的估計,故還需要證明在整個假設類H上任意一個h都滿足這個條件。

      b. 任意假設成立

       假設Ai表示的事件,已經證明對於任意的Ai,

       利用聯合界引理可以得到:

       

      同時用1減去兩邊得到:

     

      上式說明,在不小於概率的情況下,對於假設類H中的所有hi,兩個誤差之間的差異將會在γ之內,這就是一致收斂(uniform convergence)。當m很大時,所有的訓練誤差將收斂於一般誤差,即所有訓練誤差與一般誤差都十分接近。

 

(2)樣本復雜度界:

      給定γ和δ,m的值是多少?

      

      求解m的值得:

       

      只要樣本數目m大於上式,對於任意的假設h,就能保證訓練誤差與一般誤差之間的差異都在γ之內的概率至少是1-δ,稱為樣本復雜度界(Sample complexity bound)

      m與logk呈正比,而logk增長的十分緩慢,隨着k的不斷增大,樣本數目不會有太大的提高。

 

(3)誤差界:

       固定m和δ,求解γ的值。至少在1-δ的概率下,對於所有假設類中的假設有:

      

      γ的值為不等式右邊的值

 

     假設一致收斂成立,所有h∈H,都滿足:

    

     接下來要推導出H中具有最小訓練誤差假設的一般誤差 。並定義h *,H中具有最小一般誤差的假設。

     

     

     h*是最理想的情況,學習算法就算再好也不會比h*好,因此將學習算法與之比較是有意義的。

     

     定理:令H為有限的假設類,|H|>k,令m和δ固定,至少在1-δ的概率下,我們有:

    

     設γ的值為,由一致收斂結果,至少在1-δ的概率下,ε(h)至少比ε(h*)要高2γ。這個結論可以很好地幫助我們量化偏差方差權衡的問題。

     如果選擇更復雜的目標函數或更多特征的類H’,例如,將線性假設類換成二次假設類,假設類中最好的假設只可能更好,不等式右邊的第一項(偏差bias)會減小,但代價是k會增加,從而第二項(方差variance)增加,這就是偏差方差權衡,可以用下圖更具體的描述。

    

      隨着模型復雜度(如多項式的次數、假設類的大小等)的增長,訓練誤差逐漸降低,而一般誤差先降低到最低點再重新增長。訓練誤差降低,是因為模型越復雜,對於訓練集合的擬合就越好。對於一般誤差,最左邊的端點表示欠擬合(高偏差),最右邊的端點表示過擬合(高方差),最小化一般誤差時,一般傾向於選取中間的模型復雜度,最小一般誤差的區域。

 

     最后介紹上述定理的Corollary推論

     令假設類含有k個假設,|H|=k,給定γ和δ,為了保證:

    

     至少在1-δ的概率下,滿足條件:

     

 

3. 無限假設類情形

    根據Corollary推論,定義了為滿足誤差率所需的樣本數目的界,與樣本復雜度有關的結論。接下來要把它推廣到無限假設類的情形。

    H以d個實數為參數,例如使用邏輯回歸,解決包含n個特征的問題,d應該為n+1,所以邏輯回歸會找到一個線性決策邊界,以n+1個實數為參數。在計算機中用雙精度浮點數64bit表示一個實數,那么此時用64d個位來表示參數,具有64d個狀態,,為了滿足這個條件,m符合:

   

    訓練樣本的數目大致和假設類的參數數目呈線性關系。這個論點並不是充分的,只是用來加深直觀的理解。

 (1)分散的定義

    給定d個樣本的集合S={x(1),...,x(d)},假設類H可以分散S,那么對於S的任意一種標記方式都可以從H中找到一個假設h能夠對S的d個樣本進行完美預測。

  • H={二維上的線性分類器}

    

  • H={三維上的線性分類器}

 

  (2)VC維

       給定一個假設類H,定義VC維(Vapnik-Chervonenkis dimension),記作VC(H),表示能夠被H分散最大集合的大小。如果一個假設類可以分散任意大的集合,那么它的VC維維無窮大。

       若H是所有二維線性分類器構成的假設類,VC(H)=3。即使也有幾個特例例外,不過這並不影響整體。

   

       推廣到一般情形,對於任意維度,線性分類器是n維的,也就是n維假設類對應的VC維度為n+1。

       定理:給定一個假設類H,令VC(H)=d,至少在1-δ的概率下,對於任意h∈H有如下結論:

      

       因此,至少在1-δ的概率下,以下結論也成立:

      

      第一個結論說明一般誤差與訓練誤差之間的差異存在上界,由不等式右邊的式子O()限定。第二個結論說明,若一般誤差與訓練誤差相差不大的情況下,那么選擇的假設的一般誤差與最好的一般誤差之間的差異最多是O()。

      Corollary:為了保證對於所有的h∈H有,也就是,至少在1-δ的概率下,要滿足: 

      也就是為了保證一般誤差與訓練誤差的差異足夠小,假設類的VC維需要與m的階相同。對於EMR來說,需要訓練的樣本數目大概和假設類的VC維呈線性關系,樣本復雜度的上界由VC維給定,最壞的情況下,樣本復雜度的上下界均由VC維確定。對於大多數合理的假設類,VC維總是與模型的參數成正比。而事實上,樣本數目與模型參數數量也成線性關系。

      在SVM中,核函數將特征映射到無限維的特征空間,看似VC維度是無窮大的,因為它是n+1,而n為無窮大。事實證明:具有較大間隔的線性分類器假設類都有比較低的VC維。

      若,則

      僅包含較大間隔線性分類器假設類的VC維是有上界的,且上界並不依賴於x的維度。SVM會自動找到一個具有較小VC維的假設類,不會出現過擬合。

 

      最后,結合上述內容解釋ERM與之前學習過的學習算法之間的聯系。

     

 

      最理想的分類器是一個指示函數(階梯函數),不是一個凸函數,事實證明線性分類器使訓練誤差最小是一個NP難問題。邏輯回歸與支持向量機都可以看作是這個問題(ERM)的凸性近似。邏輯回歸一般采用極大似然性,如果加入負號就可以得到圖中的曲線,實際上是近似地在最小化訓練誤差,它是ERM的一種近似。同時,支持向量機也可以看作是ERM的一種近似,不同的是它嘗試用兩段不同的線性函數近似,看似是鉸鏈的形狀。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM