摘要:以前在機器學習中一直使用經驗風險來逼近真實風險,但是事實上大多數情況經驗風險並不能夠准確逼近真實風險。后來業界就提出了泛化誤差的概念(generalization error),在機器學習中泛化誤差是用來衡量一個學習機器推廣未知數據的能力,即根據從樣本數據中學習到的規則能夠應用到新數據的能力。常用的計算方法是:用在訓練集上的誤差平均值-在測試集上的誤差平均值。
一:經驗風險
機器學習本質上是一種對問題真實模型的逼近,這種近似模型也叫做一個假設。因為真實模型肯定是無法得到的,那我們的假設肯定與真實情況之間存在誤差,這種誤差或者誤差的積累也叫做風險。
在我們選擇了一個假設(或者獲得一個分類器)后,為了得到真實誤差的逼近,我們用分類器在樣本數據上的分類結果與樣本本身真實結果之間的差值來表示。這個差值叫做經驗風險。
以前機器學習中經常通過經驗風險的最小化作為目標,但是后來發現很多分類函數在樣本集合上能夠很輕易的獲得100%的正確率,但是在對真實數據的分類卻很糟。也表明了這種分類函數推廣能力(泛化能力)差。導致這種現象的原因是:經驗風險並不能夠真正的逼近真實風險,因為樣本集合的數目相對於真實世界要分類的數據來說就是九牛一毛。
之后統計學中就引入了泛化誤差界的概念。
二:泛化誤差界
泛化誤差界刻畫了學習算法的經驗風險與期望風險之間偏差和收斂速度.
真實的風險應該由兩部分組成:
1:經驗風險,代表分類器在給定樣本上的誤差(可以精確計算)。
2:置信風險,代表我們可以在多大程度上信任分類器在未知數據上的分類結果(不可以精確計算),因為不可以精確計算,所以只能給出一個估計區間,也因為這個泛化誤差只能給出一個上界。 與置信風險相關的變量有兩個:
a)樣本數量,樣本數量越大表明我們的學習結果正確的可能性越大,此時置信風險越小。
b)VC維,分類函數的VC維越大,推廣能力越差,置信風險越大。
真實風險 ≤ 經驗風險 + 置信風險。
現在統計學習的目標就從經驗風險最小化變為經驗風險與置信風險之和最小化。