機器學習基石筆記4——在何時可以使用機器學習(4)

本文轉載自查看原文 2015-02-06 09:25 6230 機器學習/ 學習筆記/ 人工智能/ 機器學習基石/ VC Bound/ Machine Learning

轉載請注明出處：http://www.cnblogs.com/ymingjingr/p/4271742.html

四、Feasibility of Learning

機器學習的可能性。

4.1 Learning is Impossible

學習可能是做不到的。

在訓練樣本集（in-sample）中，可以求得一個最佳的假設g，該假設最大可能的接近目標函數f，但是在訓練樣本集之外的其他樣本（out-of-sample）中，假設g和目標函數f可能差別很遠。

4.2 Probability to the Rescue

可能的補救方式。

通過上一小節，我們得到一個結論,機器學習無法求得近似目標函數f的假設函數g。

回憶在以前學過的知識中，有無遇到過類似的問題：通過少量的已知樣本推論整個樣本集的情況。

是否想到一個曾經學過的知識，其實就是概率統計中的知識。

通過一個例子來復習下該知識。有一個罐子，這個罐子里盛放着橙色和綠色兩種顏色的小球，我們如何在不查遍所有小球的情況下，得知罐子中橙子小球所占的比例呢？抽取樣本，如圖4-1所示。

圖4-1 抽取樣本

假設罐子中橙色小球的概率為，不難得出綠色小球的概率為，其中為未知值；

而通過抽樣查出的橙色小球比例為，綠色小球的比例為，是從抽樣數據中計算出的，因此為已知值。

如何通過已知樣本，求得未知的樣本？

可以想象到，在很大的幾率上接近的結果。因為在罐子里的小球均勻攪拌過后，抽出小球中的橙色小球比例很有可能接近整個罐子中橙色小球的比例，不難想象在抽出的小球數量等於罐中小球數量時，兩者完全一致。

這其中不了解的是，到底有多大的可能性兩者接近？此處使用數學的方式給予答案，如公式4-1所示。

(公式4-1）

該公式稱之為霍夫丁不等式（Hoeffding's Inequality），其中P為概率符號，表示與的接近程度，為此程度的下界，N表示樣本數量，其中不等式左邊表示與之間相差大於某值時的概率。從該不等式不難得出，隨着樣本量的增大，與相差較大的概率就不斷變小。兩者相差越多，即越大，該概率越低，就意味着與相等的結論大概近似正確（probably approximately correct PAC）。

同時可以得出當N足夠大時，能夠從已知的推導出未知的。

4.3 Connection to Learning

聯系到機器學習上。

上一節得出的結論可以擴展到其他應用場景，其中包括機器學習。

為方便理解，做一個對比表，如表4-1所示。

表4-1 機器學習與統計中的對比

罐子小球	機器學習
未知的橙色小球比例	某一確定的假設在整個X輸入空間中，輸入向量x滿足條件的占整個輸入空間的比例
抽取的小球∈整個罐子中的小球	訓練輸入樣本集整個數據集X
橙色小球	假設h作用於此輸入向量x與給定的輸出不相等
綠色小球	假設h作用於此輸入向量x與給定的輸出相等
小球樣本是從罐子中獨立隨機抽取的	輸入樣本x是從整個數據集D中獨立隨機選擇的

更通俗一點的解釋上表表達的內容：訓練輸入樣本集類比隨機抽取的小球樣本；此樣本集中，先確定一個假設函數h，滿足條件的輸入向量x占整個樣本的比例類比於橙色小球在隨機抽取小球樣本的比例，寫成公式的形式可以入公式4-2所示；因此使用上一節中的PAC（（可能近似正確的理論），在整個輸入空間中這個固定的假設函數h同目標函數f不相等的輸入量占整個輸入空間數量的概率（的取值如公式4-3所示）與上述隨機樣本中兩個函數不相等的樣本數占抽樣數的比例相同，這一結論也是大概近似正確的。

（公式4-2）

（公式4-3）

其中N為隨機獨立抽樣的樣本數，X為整個輸入空間，滿足條件為1否則為0，E為取期望值。

對1.4節的機器學習流程圖進行擴展，得到如圖4-2所示。

圖4-2 引入統計學知識的機器學習流程圖

其中虛線表示未知概率P對隨機抽樣以及概率的影響，實線表示已經隨機抽出的訓練樣本及某一確定的假設對比例的影響。

得出的結論如下：對任意已確定的假設函數h，都可以通過已知的求出未知的。

以后我們將使用和這種專業的符號，分別表示在某一確定的假設函數h中，隨機抽樣得到的樣本錯誤率和整個輸入空間的錯誤率，同樣可以使用霍夫丁不等式對以上得到的結論做出相應的數學表達，如公式4-4所示。

（公式4-4）

但是，我們想得到的不是給定一個已確定的假設函數h，通過樣本的錯誤比例來推斷出在整個輸入空間上的錯誤概率，而是在整個輸入空間上同目標函數f最接近的假設函數h。

那如何實現最接近呢？說白了錯誤率最低。只需在上述結論上再加一個條件，即錯誤比例很小即可。總結下，在結論基礎之上，加上很小，可以推出也很小，即在整個輸入空間中h≈f。

上面說了那么多，可能很多人已經糊塗了，因為這並不是一個學習問題，而是一個固定假設函數h，判斷該假設函數是否滿足上述性質，這准確的講是一種確認（Verification），確實如此，這種形式不能稱為學習，如圖4-3所示。

圖4-3 確認流程圖

4.4 Connection to Real Learning

聯系到真正的學習上。

首先我們要再次確認下我們上一小節確定的概念，要尋找的是一個使得很小的假設函數h，這樣就可以使得h和目標函數f在整個輸入空間中也很接近。

繼續以丟硬幣為例，形象的觀察這種學習方法有無問題，如圖4-4所示。

圖4-4 丟硬幣的例子

假設有150個人同時丟五次硬幣，統計其中有一個人丟出五次全部正面向上的概率是多少，不難得出一個人丟出五次正面向上的概率為，則150人中有一人丟出全正面向上的概率為。

這其中拋出正面類比於綠色小球的概率也就是。當然從選擇的角度肯定要選擇犯錯最小的，即正面盡可能多的情況，此例中不難發現存在全部都為正面的概率是非常大的，此處應注意，選擇全為正面的或者說為0 並不正確（因為想得到的結果是，而不是99%）這一結論與真實的情況或者說差的太遠（我們不僅僅要滿足很小條件，同時還要使得與不能有太大差距）。因此這種不好的樣本的存在得到了很糟糕的結果。

上面介紹了壞的樣例（bad sample），把本來很高的，通過一個使得的壞抽樣樣本進行了錯誤的估計。

到底是什么造成了這種錯誤，要深入了解。我們還需要介紹壞的數據（bad data）的概念。（這里寫一下自己的理解，壞的樣本bad sample∈壞的數據bad data）

壞的數據就是使得與相差很大時，抽樣到的N個輸入樣本（我的理解不是這N個輸入樣本都不好，可能只是有幾個不好的樣本，導致該次抽樣的數據產生不好的結果，但此次抽樣的數據集被統一叫做壞的數據），根據霍夫丁不等式這種情況很少出現，但是並不代表沒有，特別是當進行假設函數的選擇時，它的影響會被放大，以下進行一個具體的說明，如表4-2所示。