問題
假設空間的樣本復雜度(sample complexity):隨着問題規模的增長導致所需訓練樣本的增長稱為sample complexity。
實際情況中,最有可能限制學習器成功的因素是訓練數據的有限性。
在使用學習器的過程中,我們希望得到與訓練數據擬合程度高的假設(hypothesis)。(在前面文章中提到,這樣的假設我們稱之為g)。
這就要求訓練錯誤率為0。而實際上,大部分情況下,我們找不到這樣的hypothesis(通過學習機得到的hypothesis)在訓練集上有錯誤率為0。
所以退而求其次,我們只能要求通過學習機得到的hypothesis在訓練集上錯誤率越低越好,最好接近0。
問題描述:
令D為有限的訓練集,Ein(h)(in-sample error)為假設h在訓練集D上的訓練錯誤率,Eout(h)(out-of-sample error)是定義在全部數據的錯誤率。
(由此可知Eout(h)是不可直接求出的,因為不太可能將學習完無限的數據)。令g代表假設集中訓練錯誤率最小的假設。
Hoeffding Inequality
Hoeffding Inequality刻畫的是某個事件的真實概率與m各不同的Bernoulli試驗中觀察到的頻率之間的差異。由上述的Hoeffding Inequality可知,
對我們是不可能得到真實的Eout(h),但我們可以通過讓假設h在有限的訓練集D上的錯誤率Ein(h)代表Eout(h)。
什么意思呢?Hoeffding Inequality告訴我們:較好擬合訓練數據的假設與該假設針對整個數據集的預測,這兩者的誤差率相差很大的情況發生的概率其實是很小的。
Bad Sample and Bad Data
壞的樣本(Bad Sample):假設h在有限的訓練集D上的錯誤率Ein(h)=0,而真實錯誤率Eout(h)=1/2的情況。
壞的數據(Bad Data):Ein和Eout差別很大的情況。(通常情況下是Eout很大,Ein很小。
下面就將包含Bad data的Data用在多個h上。
上圖說明:
-
對於任一個假設hi,由Hoeffding可知其在所有的數據上(包括Bad Data)上出現不好的情況的總體概率是很小的。
Bound of Bad Data
由上面的表中可以得到下面的結論:
對於所有的M(假設的個數),N(數據集規模)和閾值,Hoeffding Inequality都是有效的
我們不必要知道Eout,可以通過Ein來代替Eout(這句話的意思是Ein(g)=Eout(g) is PAC).
感謝台大林老師的課。
參考:[原]【機器學習基礎】理解為什么機器可以學習2——Hoeffding不等式
http://www.tuicool.com/articles/yyu2AnM
更多技術干貨請關注: