機器學習(4)Hoeffding Inequality--界定概率邊界


問題


 

假設空間的樣本復雜度(sample complexity):隨着問題規模的增長導致所需訓練樣本的增長稱為sample complexity。

實際情況中,最有可能限制學習器成功的因素是訓練數據的有限性。

 

在使用學習器的過程中,我們希望得到與訓練數據擬合程度高的假設(hypothesis)。(在前面文章中提到,這樣的假設我們稱之為g)。

這就要求訓練錯誤率為0。而實際上,大部分情況下,我們找不到這樣的hypothesis(通過學習機得到的hypothesis)在訓練集上有錯誤率為0。

所以退而求其次,我們只能要求通過學習機得到的hypothesis在訓練集上錯誤率越低越好,最好接近0。

 

問題描述:

令D為有限的訓練集,Ein(h)(in-sample error)為假設h在訓練集D上的訓練錯誤率,Eout(h)(out-of-sample error)是定義在全部數據的錯誤率。

(由此可知Eout(h)是不可直接求出的,因為不太可能將學習完無限的數據)。令g代表假設集中訓練錯誤率最小的假設。

Hoeffding Inequality


Hoeffding Inequality刻畫的是某個事件的真實概率與m各不同的Bernoulli試驗中觀察到的頻率之間的差異。由上述的Hoeffding Inequality可知,

對我們是不可能得到真實的Eout(h),但我們可以通過讓假設h在有限的訓練集D上的錯誤率Ein(h)代表Eout(h)。

什么意思呢?Hoeffding Inequality告訴我們:較好擬合訓練數據的假設與該假設針對整個數據集的預測,這兩者的誤差率相差很大的情況發生的概率其實是很小的。

Bad Sample and Bad Data


壞的樣本(Bad Sample):假設h在有限的訓練集D上的錯誤率Ein(h)=0,而真實錯誤率Eout(h)=1/2的情況。

壞的數據(Bad Data):Ein和Eout差別很大的情況。(通常情況下是Eout很大,Ein很小。

下面就將包含Bad data的Data用在多個h上。

上圖說明:

  1. 對於任一個假設hi,由Hoeffding可知其在所有的數據上(包括Bad Data)上出現不好的情況的總體概率是很小的。

 

Bound of Bad Data

由上面的表中可以得到下面的結論:

對於所有的M(假設的個數),N(數據集規模)和閾值,Hoeffding Inequality都是有效的

我們不必要知道Eout,可以通過Ein來代替Eout(這句話的意思是Ein(g)=Eout(g) is PAC).

 

感謝台大林老師的課。 

參考:[原]【機器學習基礎】理解為什么機器可以學習2——Hoeffding不等式

http://www.tuicool.com/articles/yyu2AnM

 

更多技術干貨請關注:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM