(筆記)斯坦福機器學習第九講--經驗風險最小化


本講內容

1. Bias/Variance trade-off (偏差-方差權衡)

2. Empirical risk minimization(ERM) (經驗風險最小化)

3. Union Bound/ Hoeffding inequality (聯合界/霍夫丁不等式)

4. Uniform convergence (一致收斂)

 

1. 偏差方差權衡

 

對於上圖左的情況,我們稱之為欠擬合(under-fitting),或者說,我們認為算法的偏差很高。高偏差意味着一個事實:即使你有無窮多的訓練數據,算法依然不能擬合出數據的內在結構(比如二次結構)

對於上圖右的情況,我們稱之為過擬合(over-fitting),或者說,我們認為算法的方差很高。高方差意味着一個事實:算法擬合出了數據中的一些奇怪的規律,或者說一些怪異的屬性。

 

2. 經驗風險最小化 ERM

定義一個線性分類器

其中  (note

假設有m個訓練樣本,樣本之間是獨立同分布的。

定義訓練誤差:

訓練誤差也被稱為風險。

經驗風險最小化: 選擇分類器函數的參數,使得分類器的訓練誤差(training error)最小。

 

讓我們換一種考慮方式:我們不是在選擇最優分類器函數的參數,而是在選擇最優的分類器函數。

定義假設類 

假設類的每一個成員都是參數n+1個的線性分類器函數。

重新定義ERM:從假設類H中選取一個函數,使得分類器的訓練誤差最小。

實際上,我們並不關心訓練誤差的大小,我們關心的是分類器對於未知樣本的預測能力,也就是一般誤差(generation error):

先引入兩條引理:

1.聯合界引理(Union Bound):

令  表示k個事件,這些事件不一定是獨立的,

2.Hoeffding 不等式:

假設Z1,…,Zm為m個獨立同分布(iid,independent and identically distributed)的隨機變量,服從於伯努利分布,即

並且

  

為這些隨機變量的均值,給定 ,那么有

表達的是對真實分布的估計值與真實分布之間的差值大於  的概率的上界,這個上界隨着m的增加而指數下降。

考慮具有有限假設類的情形:

猜想類H具有k個假設

ERM會從H中選出具有最小訓練誤差的假設 

需要證明

1. 訓練誤差是一個對一般誤差的很好的近似

2. ERM選擇的假設的一般誤差存在上界

首先證明第一項,從猜想類H中任意選取一個假設 ,定義

服從伯努利分布,因此

其均值是假設的一般誤差。

訓練誤差為

由Hoeffding不等式可知

假設m很大,即訓練樣本很多,那么訓練誤差將會以很大概率近似於一般誤差。

定義事件  為   發生

 

那么對於整個猜想類來說

 

兩邊同時用1減去

也就是說,在不小於  的概率下,對於猜想類H中的所有假設h,其訓練誤差和一般誤差之間的差距將會在  以內。

這被稱為 一致收斂

定義

那么給定  和  解出 

意思是,只要你的訓練集合包含至少上述m這么多的樣本,那么概率至少在  下,有 對H中的所有假設成立。

樣本復雜度:為了達到一個特定的錯誤的界,你需要多大的訓練集合。

誤差界:

同樣的,我們可以固定m和這里寫圖片描述,得到

這里寫圖片描述

 定義為H中具有最小一般誤差的假設, 為H中具有最小訓練誤差的假設,那么至少在  的概率下,有

             

             

              

             

也就是說,我們選擇的(具有最小訓練誤差的)假設的一般誤差,和具有最小一般誤差的假設的一般誤差之間的差值存在  的上界。

直觀上,我們可以把第一項  看成是選擇假設的偏差,第二項  看成選擇假設的方差。

當我們將H替換為更復雜的猜想類H',即H是H'的子集時,第一項只會變的更小,即偏差變小;而由於k的增大,第二項會變的更大,即方差變大。

將一切總結為兩個定理如下: 

 

 

 

 

 

 

 

 

 

 

 

 第九講完。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM