為什么機器能夠學習——PAC Learnability


 機器學習中,我們根據訓練集訓練一個模型,來對測試數據進行預測。通常我們並不關心模型在訓練集上的好壞(即訓練誤差,in sample error),舉個簡單例子,我們想要根據前六個月股市行情訓練一個模型來對未來股市走向進行預測,即使我們的算法在過去的數據上做的再精准都沒有任何意義,我們希望模型在未來某一天能夠預測的准,這樣我們才能賺大錢。因此我們更着重於其在從未見過的數據(測試集)上的正確率(即泛化誤 差,generalization error、out sample error)。因為泛化誤差從整體上告訴我們 模型表現的好壞,這是我們事先不知道的一個參數, 正是由於不知道,所以我們才要估計它, 這也是機器學習的核心任務。初看起來,這個問題有點無從下手, 因為我們沒辦法知道輸入空間的分布,因此也沒辦法估計泛化誤差。不過,別忘了我們手頭上有一筆訓練數據,我們要根據這筆資料從假設集中挑一個假設出來,對 測試數據進行分類。一個很自然的想法是,我們可以挑訓練誤差最小的那個假設,這點很容易理解,訓練誤差小的假設泛化誤差也應該比較小,也就是說我們挑出來 的假設和真實的target function比較接近。那么這個想法是正確的嗎? 一定意義上來說,是對的。不然也不會有經驗風險最小化(ERM)算法了。ERM是說從假設集中挑一個使得訓練誤差最小的那個假設h。數學上定義如下:

\[ \min \frac{1}{m}\sum_{i=1}^m I[h(x^{(i)}\neq y^{(i)}]\]
其中,m為訓練樣例的個數。
下 面說明為什么這個方法可行。統計學里,大數定理家族有個著名的不等式——Hoeffding's equality。這個不等式的背景是,假設有一組獨立同分布的隨機變量$Z_1,\ldots,Z_m$,它們都服從Bernoulli分布, 即$P(Z_i=1)=\phi, P(Z_i=0)=1-\phi$。我們想通過這組變量的均值$\hat{\phi}\frac{1}{m}\sum_{i=1}^m Z_i$來估計參數$\phi$的值。Hoeffding不等式從概率意義上刻畫了估計值和參數值的接近程度:
\[ P(|\hat{\phi}-\phi|<\epsilon)\leq 2\exp{-2\epsilon^2 m} \]
其 中,$\epsilon>0$是一個誤差限,$m$是訓練集中的樣例個數。這個不等式告訴我們,我們的估計和真實值得差距相差很大的概率很小,也就 是說二者接近的概率很大。因此我們可以說,$\hat{\phi}=\phi$是PAC(probably approximate correct,可能近似正確)的。PAC這個術語很有意思,他不能打包票說二者一定是等的,他只能保證大多數情況下是這樣;而這個“等”只是越等,即相 差很近但不一定完全一樣,例如我投一百次硬幣,最后的頻率可能是0.51或者是0.49,接近0.5但不會相等。有了Hoeffding不等式的理論基 礎,我們想把這個刻畫參數估計和真實值接近程度的方法套用到學習問題上去。
為了能夠套用Hoeffding不等式到學習問題上,我們需要做出一些 假設: 給定一個假設h,我們認為h在一個樣例x上與類標號y是否一致是一個服從Bernoulli分布的隨機變量,也記為Z,即$Z=I[h(x)\neq y]=\mu$,這里$\mu$可以認為是泛化誤差。我們進一步假設訓練集的樣本是獨立同分布采樣的,那么$Z_1,Z_2,...,Z_m$是一組 iid且服從Bernoulli分布的隨機變量,它們的平均即訓練誤差(記為$\nu$)實際上就是對泛化誤差$\mu$的一個估計。
根據Hoeffding不等式有:
\[P(|\nu-\mu|<\epsilon)\leq 2\exp{-2\epsilon^2 m} \]
根 據PAC理論,$\nu$和$\mu$離得很近,而且隨着樣本數的增加,它們的距離會越來越靠近, 如果此時訓練誤差$\nu$很小,那么我們可以說泛化誤差$\mu$也很小是一個PAC的事件,泛化誤差很小說明什么?說明我們的假設h和目標函數f真的 長得很像($h= f$ is PAC)。
至此,我們就證明了ERM確實是可行的, 那么我們就能高枕無憂了嗎?今天我們選取一個假設,它的訓練誤差很低甚至接近於0,就能說它的泛化誤差一定很低嗎? 答案是否定的。 如果這個命題成立,也不會有所謂的overfitting了。
Hoeffding 不等式只告訴我們,我們抽一個樣本,有很大概率抽到一個好的樣本(這里好的樣本指的是 訓練誤差和泛化誤差很接近);而抽到一個壞的樣本(兩個誤差相差很遠,特指過擬合的情況,訓練誤差很小而泛化誤差很大)的概率有一個上限且很小, 但並不等於說抽到一個bad sample就是不可能的(實際上有可能,只是概率非常小),如果不幸抽到了bad sample, 那么恭喜你,你可以去買彩票了。那么如何避免這種overfitting的產生呢?
其中一個選擇是增加樣例數,隨着樣例數的增加,Hoeffding不等式右側的上限值會越來越小, 於是乎我們抽到bad sample的概率也就越來越小了,我們更有把握說我們的模型不容易過擬合了。
上 面說到的bad sample是相對於一個hypothesis而言的,對於每個不同的hypothesis,可能的bad sample都不同。 那么給定一個訓練集,我們在假設空間中的選擇是有限制的,因為我們不知道哪個假設在這個數據集上會overfit,因此在選擇假設的過程可能會踩到雷。有 的時候,踩到雷是不可避免的,因為我們沒有選擇數據集的權利。但我們可以做的事情是 估計踩到雷的概率上限是多少。這里我們只假設 假設空間有限,且大小為K。“踩到雷”這件事從集合論的角度來講就是 至少存在一個假設$h_i\in \mathcal{H}$,使得$|\nu_{h_i}-\mu|>\epsilon$發生。我們記事件$A_i=|\nu_{h_i}- \mu|>\epsilon$。利用聯合界定理,我們可以推導其概率上限為
\[ P(\exists h\in \mathcal{H},|\nu_h-\mu|>\epsilon) = P(\bigcup_{i=1}^{K} A_i) \leq \sum_{i=1}^K P(A_i)\leq 2K\exp(-2\epsilon^2 m) \]
在假設空間有限的情況下,通過增加樣本集大小m,就能減少我們在假設集上踩到雷的幾率,從而估計的失真度,減少過擬合現象。

總結一下:這篇文章中我們證明了在加上一些統計學假設(訓練集是獨立同分布抽樣) 且 假設空間是有限的情況下, PAC理論保證了學習是可行的。對於假設空間是無限的情況(比如線性分類器),需要用到VC-dimension來證明其可行性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM