本講內容
1. Bias/Variance trade-off (偏差-方差權衡)
2. Empirical risk minimization(ERM) (經驗風險最小化)
3. Union Bound/ Hoeffding inequality (聯合界/霍夫丁不等式)
4. Uniform convergence (一致收斂)
1. 偏差方差權衡

對於上圖左的情況,我們稱之為欠擬合(under-fitting),或者說,我們認為算法的偏差很高。高偏差意味着一個事實:即使你有無窮多的訓練數據,算法依然不能擬合出數據的內在結構(比如二次結構)
對於上圖右的情況,我們稱之為過擬合(over-fitting),或者說,我們認為算法的方差很高。高方差意味着一個事實:算法擬合出了數據中的一些奇怪的規律,或者說一些怪異的屬性。
2. 經驗風險最小化 ERM
定義一個線性分類器

其中
(note
)
假設有m個訓練樣本,樣本之間是獨立同分布的。
定義訓練誤差:

訓練誤差也被稱為風險。
經驗風險最小化: 選擇分類器函數的參數,使得分類器的訓練誤差(training error)最小。

讓我們換一種考慮方式:我們不是在選擇最優分類器函數的參數,而是在選擇最優的分類器函數。
定義假設類

假設類的每一個成員都是參數n+1個的線性分類器函數。
重新定義ERM:從假設類H中選取一個函數,使得分類器的訓練誤差最小。

實際上,我們並不關心訓練誤差的大小,我們關心的是分類器對於未知樣本的預測能力,也就是一般誤差(generation error):

先引入兩條引理:
1.聯合界引理(Union Bound):
令
表示k個事件,這些事件不一定是獨立的,

2.Hoeffding 不等式:
假設Z1,…,Zm為m個獨立同分布(iid,independent and identically distributed)的隨機變量,服從於伯努利分布,即


並且
為這些隨機變量的均值,給定
,那么有

表達的是對真實分布的估計值與真實分布之間的差值大於
的概率的上界,這個上界隨着m的增加而指數下降。
考慮具有有限假設類的情形:
猜想類H具有k個假設
ERM會從H中選出具有最小訓練誤差的假設

需要證明
1. 訓練誤差是一個對一般誤差的很好的近似
2. ERM選擇的假設的一般誤差存在上界
首先證明第一項,從猜想類H中任意選取一個假設
,定義
服從伯努利分布,因此
其均值是假設的一般誤差。
訓練誤差為

由Hoeffding不等式可知

假設m很大,即訓練樣本很多,那么訓練誤差將會以很大概率近似於一般誤差。
定義事件
為
發生
有

那么對於整個猜想類來說

=

兩邊同時用1減去



也就是說,在不小於
的概率下,對於猜想類H中的所有假設h,其訓練誤差和一般誤差之間的差距將會在
以內。
這被稱為 一致收斂。
定義
那么給定
和
解出

意思是,只要你的訓練集合包含至少上述m這么多的樣本,那么概率至少在
下,有
對H中的所有假設成立。
樣本復雜度:為了達到一個特定的錯誤的界,你需要多大的訓練集合。
誤差界:
同樣的,我們可以固定m和
,得到

定義
為H中具有最小一般誤差的假設,
為H中具有最小訓練誤差的假設,那么至少在
的概率下,有




也就是說,我們選擇的(具有最小訓練誤差的)假設的一般誤差,和具有最小一般誤差的假設的一般誤差之間的差值存在
的上界。
直觀上,我們可以把第一項
看成是選擇假設的偏差,第二項
看成選擇假設的方差。
當我們將H替換為更復雜的猜想類H',即H是H'的子集時,第一項只會變的更小,即偏差變小;而由於k的增大,第二項會變的更大,即方差變大。
將一切總結為兩個定理如下:


第九講完。
