Coursera台大機器學習課程筆記3 – 機器學習的可能性


提綱:

  1. 機器學習為什么可能?
    1. 引入計算橙球概率問題
    2. 通過用Hoeffding's inequality解決上面的問題,並得出PAC的概念,證明采樣數據學習到的h的錯誤率可以和全局一致是PAC
    3. 將得到的理論應用到機器學習,證明實際機器是可以學習

  機器學習的大多數情況下是讓機器通過現有的訓練集(D)的學習以獲得預測未知數據的能力,即選擇一個最佳的h做為學習結果,那么這種預測是可能的么?為什么在采樣數據上得到的h可以認為適用於全局,也就是說其泛化性的本質是什么?

  課程首先引入一個情景:

  如果有一個裝有很多(數量很大以至於無法通過數數解決)橙色球和綠色球的罐子,我們能不能推斷橙色球的比例?

  

  很明顯的思路是利用統計中抽樣的方法,既然我們無法窮盡數遍所有罐子中的球,不如隨機取出幾個球,算出其中兩種顏色球的比例去近似得到我們要的答案,

  這樣真的可以么?我們都知道小概率事件也會發生,假如罐子里面大部分都是橙色球,而我們恰巧取出的都是綠色,這樣我們就判斷錯了,那么到底通過抽樣得出的比例能夠說明什么呢?似乎兩者不能直接划等號

  由此,課程中引入了一個非常重要的概念,PAC,要理解這個,先得理解一個超級重要的不等式:Hoeffding's inequality

  這個不等書說明了對於未知的那個概率,我們的抽樣概率可以根它足夠接近只要抽樣的樣本夠大或者容忍的限制變松,這個和我們的直覺是相符的。式子最后給出了PAC的概念,即概率上幾乎正確。所以,我們通過采用算出的橙球的概率和全局橙球的概率相等是PAC的。

  這些和機器學習有什么關系?其實前文中提到的例子可以和機器學習問題一一對應:

  映射中最關鍵的點是講抽樣中橙球的概率理解為樣本數據集Dh(x)錯誤的概率,以此推算出在所有數據上h(x)錯誤的概率,這也是機器學習能夠工作的本質,即我們為啥在采樣數據上得到了一個假設,就可以推到全局呢?因為兩者的錯誤率是PAC的,只要我們保證前者小,后者也就小了。

  請注意,以上都是對某個特定的假設,其在全局的表現可以和其在DataSet的表現PAC,保證DataSet表現好,就能夠推斷其能泛化。可是我們往往有很多假設,我們實際上是從很多假設中挑一個表現最好(Ein最小)的作為最終的假設,那么這樣挑的過程中,最小的Ein其泛化能力一定是最好么?肯定不是

 

  上面的例子很形象,每一個罐子都是一個假設集合,我們默認是挑表現最好的,也就是全綠色(錯誤率為0)的那個假設。但是當從眾多假設選擇時,得到全對的概率也在增加,就像丟硬幣一樣,當有個150個童鞋同時丟硬幣5次,那么這些人中出現5面同時朝上的概率為99%,所以表現好的有可能是小概率事件發生(畢竟對於每個假設其泛化能力是PAC),其不一定就有好的泛化能力(Ein和Eout相同),我們稱這次數據是壞數據(可以理解為選到了泛化能力差的假設),在壞數據上,Ein和Eout的表現是差別很大的,這就是那個小概率事件,Hoeffding's inequality告訴我們,每個h在采樣數據上Ein和Eout差別很大的概率很低(壞數據):

由於有這個bound,那么我們每次選取Ein最小的h就是合理的,因為如果M小N大,出現表現好的壞數據的假設幾率降低了,我們選擇表現后就有信心認為其有良好的泛化能力。

 

 

總結一下:
  1.   M小,N足夠大,可以使得假設具有良好的泛化能力;
  2.   如果同時,Ein很小,那么這個假設就是有效地。機器是可以學習的,學習到的就是這個表現最好的假設。

整體證明機器可以學習分了兩個層面,首先對於單個假設,根據Hoeffding不等式,當N很大時,其泛化能力強是PAC的;而實際上機器學習是從眾多假設中挑Ein最小的(通過測試集找)假設,這個的理論基礎是當M不大,N大,選到泛化能力差的假設概率低(用到了單個假設的結論)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM