提綱:
-
機器學習為什么可能?
- 引入計算橙球概率問題
- 通過用Hoeffding's inequality解決上面的問題,並得出PAC的概念,證明采樣數據學習到的h的錯誤率可以和全局一致是PAC的
- 將得到的理論應用到機器學習,證明實際機器是可以學習
機器學習的大多數情況下是讓機器通過現有的訓練集(D)的學習以獲得預測未知數據的能力,即選擇一個最佳的h做為學習結果,那么這種預測是可能的么?為什么在采樣數據上得到的h可以認為適用於全局,也就是說其泛化性的本質是什么?
課程首先引入一個情景:
如果有一個裝有很多(數量很大以至於無法通過數數解決)橙色球和綠色球的罐子,我們能不能推斷橙色球的比例?
很明顯的思路是利用統計中抽樣的方法,既然我們無法窮盡數遍所有罐子中的球,不如隨機取出幾個球,算出其中兩種顏色球的比例去近似得到我們要的答案,
這樣真的可以么?我們都知道小概率事件也會發生,假如罐子里面大部分都是橙色球,而我們恰巧取出的都是綠色,這樣我們就判斷錯了,那么到底通過抽樣得出的比例能夠說明什么呢?似乎兩者不能直接划等號。
由此,課程中引入了一個非常重要的概念,PAC,要理解這個,先得理解一個超級重要的不等式:Hoeffding's inequality
這個不等書說明了對於未知的那個概率,我們的抽樣概率可以根它足夠接近只要抽樣的樣本夠大或者容忍的限制變松,這個和我們的直覺是相符的。式子最后給出了PAC的概念,即概率上幾乎正確。所以,我們通過采用算出的橙球的概率和全局橙球的概率相等是PAC的。
這些和機器學習有什么關系?其實前文中提到的例子可以和機器學習問題一一對應:
映射中最關鍵的點是講抽樣中橙球的概率理解為樣本數據集D上h(x)錯誤的概率,以此推算出在所有數據上h(x)錯誤的概率,這也是機器學習能夠工作的本質,即我們為啥在采樣數據上得到了一個假設,就可以推到全局呢?因為兩者的錯誤率是PAC的,只要我們保證前者小,后者也就小了。
- M小,N足夠大,可以使得假設具有良好的泛化能力;
- 如果同時,Ein很小,那么這個假設就是有效地。機器是可以學習的,學習到的就是這個表現最好的假設。
整體證明機器可以學習分了兩個層面,首先對於單個假設,根據Hoeffding不等式,當N很大時,其泛化能力強是PAC的;而實際上機器學習是從眾多假設中挑Ein最小的(通過測試集找)假設,這個的理論基礎是當M不大,N大,選到泛化能力差的假設概率低(用到了單個假設的結論)。