霍夫丁不等式與真實的機器學習


1.霍夫丁不等式

在一個罐子里,放着很多小球,他們分兩種顏色{橘色,綠色}。從罐中隨機抓N個小球。設:罐中橘色球的比例為μ(未知),抓出來的樣本中橘色球的比例為ν(已知)。根據概率論中的霍夫丁不等式(Hoeffding’s Inequality)若N足夠大,ν就很可能接近μ。

同理的,在機器學習中:N足夠大的時候可以用數據集D上的 [h(x)≠f(x)] 來推測{χ}上的 [h(x)≠f(x)]。就是說,如果樣本足夠大,那么備選函數h在D上犯錯誤的比例接近其在{χ}上犯錯誤的比例。設某一備選函數h在D上的犯錯比例為E-in(h),在整個輸入集上的犯錯比例為E-out(h),則有:

通過上式,可以根據備選函數h在D上的表現來衡量它的正確性,並最終從備選函數集H中選出最優的那個h作為g,且g≈f。

2.真實的機器學習

先舉一個例子,150個人每人拋一個硬幣5次,至少有一個人5次皆為人頭向上的概率為1 - (31/32)^150 = 99.15%所以一個小概率事件如果重復多次,他發生的概率就會變得很大。                              

同理,如下情形是有可能的:學習算法A在備選函數集H中(含有很多h)孜孜不倦地挑選着h,突然找到一個hi,發現它在D上沒犯錯誤或只犯了很少錯誤,A高興大喊:我找到g了,就是這個hi!但實際上這個hi在{χ}上卻犯了很多錯誤(Ein(hi)與Eout(hi)差很遠)。對於這個hi來說,D是一個壞樣本(Bad Sample)。H中可能提取若干樣本Di,{ i= 1, 2,3 . . . },對於某一個h來說,其中一些樣本是Bad Sample。因為Eout big (far from f), but Ein small(correct on most examples)

對於對於任意樣本D和給定的h,有

BAD data for many h
⇐⇒ no ‘freedom of choice’ by A
⇐⇒ there exists some h such thatEout(h) and Ein(h) far away

在整個備選函數集H(有M個元素)上,以下4個命題等價:

---D是H的Bad Sample   ---D是某些h的Bad Sample  --學習算法A不能在H中做自由篩選   ---存在某些h使得E-in(h)與E-out(h)差很遠

 

根據上表,可以看出,D-1126這樣的訓練數據集是比較優質的。

 

給定任意D,它是某些H的Bad Sample的概率為:

即H中備選函數的數量M越少,樣本數據量N越大,則樣本成為壞樣本的概率越小。在一個可接受的概率水平上,學習算法A只需要挑選那個表現最好的h作為g就行了。即在上式中H的個數要求為有限個。

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM