轉載請注明出處:http://www.cnblogs.com/ymingjingr/p/4271742.html
目錄
機器學習基石筆記1——在何時可以使用機器學習(1)
機器學習基石筆記2——在何時可以使用機器學習(2)
機器學習基石筆記3——在何時可以使用機器學習(3)(修改版)
機器學習基石筆記4——在何時可以使用機器學習(4)
機器學習基石筆記5——為什么機器可以學習(1)
機器學習基石筆記6——為什么機器可以學習(2)
機器學習基石筆記7——為什么機器可以學習(3)
機器學習基石筆記8——為什么機器可以學習(4)
機器學習基石筆記9——機器可以怎樣學習(1)
機器學習基石筆記10——機器可以怎樣學習(2)
機器學習基石筆記11——機器可以怎樣學習(3)
機器學習基石筆記12——機器可以怎樣學習(4)
機器學習基石筆記13——機器可以怎樣學得更好(1)
機器學習基石筆記14——機器可以怎樣學得更好(2)
機器學習基石筆記15——機器可以怎樣學得更好(3)
機器學習基石筆記16——機器可以怎樣學得更好(4)
四、Feasibility of Learning
機器學習的可能性。
4.1 Learning is Impossible
學習可能是做不到的。
在訓練樣本集(in-sample)中,可以求得一個最佳的假設g,該假設最大可能的接近目標函數f,但是在訓練樣本集之外的其他樣本(out-of-sample)中,假設g和目標函數f可能差別很遠。
4.2 Probability to the Rescue
可能的補救方式。
通過上一小節,我們得到一個結論,機器學習無法求得近似目標函數f的假設函數g。
回憶在以前學過的知識中,有無遇到過類似的問題:通過少量的已知樣本推論整個樣本集的情況。
是否想到一個曾經學過的知識,其實就是概率統計中的知識。
通過一個例子來復習下該知識。有一個罐子,這個罐子里盛放着橙色和綠色兩種顏色的小球,我們如何在不查遍所有小球的情況下,得知罐子中橙子小球所占的比例呢?抽取樣本,如圖4-1所示。
圖4-1 抽取樣本
假設罐子中橙色小球的概率為,不難得出綠色小球的概率為
,其中
為未知值;
而通過抽樣查出的橙色小球比例為,綠色小球的比例為
,
是從抽樣數據中計算出的,因此為已知值。
如何通過已知樣本,求得未知的樣本
?
可以想象到,在很大的幾率上接近
的結果。因為在罐子里的小球均勻攪拌過后,抽出小球中的橙色小球比例很有可能接近整個罐子中橙色小球的比例,不難想象在抽出的小球數量等於罐中小球數量時,兩者完全一致。
這其中不了解的是,到底有多大的可能性兩者接近?此處使用數學的方式給予答案,如公式4-1所示。
(公式4-1)
該公式稱之為霍夫丁不等式(Hoeffding's Inequality),其中P為概率符號, 表示
與
的接近程度,
為此程度的下界,N表示樣本數量,其中不等式左邊表示
與
之間相差大於某值時的概率。從該不等式不難得出,隨着樣本量的增大,
與
相差較大的概率就不斷變小。兩者相差越多,即
越大,該概率越低,就意味着
與
相等的結論大概近似正確(probably approximately correct PAC)。
同時可以得出當N足夠大時,能夠從已知的 推導出未知的
。
4.3 Connection to Learning
聯系到機器學習上。
上一節得出的結論可以擴展到其他應用場景,其中包括機器學習。
為方便理解,做一個對比表,如表4-1所示。
表4-1 機器學習與統計中的對比
罐子小球 |
機器學習 |
未知的橙色小球比例 |
某一確定的假設在整個X輸入空間中,輸入向量x滿足條件 |
抽取的小球∈整個罐子中的小球 |
訓練輸入樣本集 |
橙色小球 |
假設h作用於此輸入向量x與給定的輸出不相等 |
綠色小球 |
假設h作用於此輸入向量x與給定的輸出相等 |
小球樣本是從罐子中獨立隨機抽取的 |
輸入樣本x是從整個數據集D中獨立隨機選擇的 |
更通俗一點的解釋上表表達的內容:訓練輸入樣本集類比隨機抽取的小球樣本;此樣本集中,先確定一個假設函數h,滿足條件的輸入向量x占整個樣本的比例類比於橙色小球在隨機抽取小球樣本的比例
,寫成公式的形式可以入公式4-2所示;因此使用上一節中的PAC((可能近似正確的理論),在整個輸入空間中這個固定的假設函數h同目標函數f不相等的輸入量占整個輸入空間數量的概率
(
的取值如公式4-3所示)與上述隨機樣本中兩個函數不相等的樣本數占抽樣數的比例
相同,這一結論也是大概近似正確的。
(公式4-2)
(公式4-3)
其中N為隨機獨立抽樣的樣本數,X為整個輸入空間, 滿足條件為1否則為0,E為取期望值。
對1.4節的機器學習流程圖進行擴展,得到如圖4-2所示。
圖4-2 引入統計學知識的機器學習流程圖
其中虛線表示未知概率P對隨機抽樣以及概率 的影響,實線表示已經隨機抽出的訓練樣本及某一確定的假設對比例
的影響。
得出的結論如下:對任意已確定的假設函數h,都可以通過已知的求出未知的
。
以后我們將使用和
這種專業的符號,分別表示在某一確定的假設函數h中,隨機抽樣得到的樣本錯誤率和整個輸入空間的錯誤率,同樣可以使用霍夫丁不等式對以上得到的結論做出相應的數學表達,如公式4-4所示。
(公式4-4)
但是,我們想得到的不是給定一個已確定的假設函數h,通過樣本的錯誤比例來推斷出在整個輸入空間上的錯誤概率,而是在整個輸入空間上同目標函數f最接近的假設函數h。
那如何實現最接近呢?說白了錯誤率最低。只需在上述結論上再加一個條件,即錯誤比例 很小即可。總結下,在
結論基礎之上,加上
很小,可以推出
也很小,即在整個輸入空間中h≈f。
上面說了那么多,可能很多人已經糊塗了,因為這並不是一個學習問題,而是一個固定假設函數h,判斷該假設函數是否滿足上述性質,這准確的講是一種確認(Verification),確實如此,這種形式不能稱為學習,如圖4-3所示。
圖4-3 確認流程圖
4.4 Connection to Real Learning
聯系到真正的學習上。
首先我們要再次確認下我們上一小節確定的概念,要尋找的是一個使得 很小的假設函數h,這樣就可以使得h和目標函數f在整個輸入空間中也很接近。
繼續以丟硬幣為例,形象的觀察這種學習方法有無問題,如圖4-4所示。
圖4-4 丟硬幣的例子
假設有150個人同時丟五次硬幣,統計其中有一個人丟出五次全部正面向上的概率是多少,不難得出一個人丟出五次正面向上的概率為 ,則150人中有一人丟出全正面向上的概率為
。
這其中拋出正面類比於綠色小球的概率也就是。當然從選擇的角度肯定要選擇犯錯最小的,即正面盡可能多的情況,此例中不難發現存在全部都為正面的概率是非常大的,此處應注意,選擇全為正面的或者說
為0 並不正確(因為想得到的結果是
,而不是99%)這一結論與真實的情況或者說
差的太遠(我們不僅僅要滿足
很小條件,同時還要使得
與
不能有太大差距)。因此這種不好的樣本的存在得到了很糟糕的結果。
上面介紹了壞的樣例(bad sample),把本來很高的,通過一個使得
的壞抽樣樣本進行了錯誤的估計。
到底是什么造成了這種錯誤,要深入了解。我們還需要介紹壞的數據(bad data)的概念。(這里寫一下自己的理解,壞的樣本bad sample∈壞的數據bad data)
壞的數據就是使得 與
相差很大時,抽樣到的N個輸入樣本(我的理解不是這N個輸入樣本都不好,可能只是有幾個不好的樣本,導致該次抽樣的數據產生不好的結果,但此次抽樣的數據集被統一叫做壞的數據),根據霍夫丁不等式這種情況很少出現,但是並不代表沒有,特別是當進行假設函數的選擇時,它的影響會被放大,以下進行一個具體的說明,如表4-2所示。
表4-2 單個假設函數時的霍夫丁不等式
D1 |
D2 |
… |
D1126 |
… |
D5678 |
… |
霍夫丁 |
|
h |
BAD |
BAD |
|
計算所有不好的D出現的概率如公式4-5所示。
(公式4-5)
單一假設函數中不好的D出現的概率其實不算高,但是當在做選擇時,面對的是從整個假設空間選出的無數種可能的假設,因此不好D的計算就有所改變,當然我們先討論假設函數是有限多種的情況,如表4-3所示。
表4-3 M個假設情況下的霍夫丁不等式
D1 |
D2 |
… |
D1126 |
… |
D5678 |
… |
霍夫丁 |
|
BAD |
BAD |
|
||||||
BAD |
|
|||||||
BAD |
BAD |
BAD |
|
|||||
|
||||||||
BAD |
BAD |
|
||||||
ALL |
BAD |
BAD |
BAD |
? |
這其中包含了M個假設,而不好的D不是由單一假設就確定的,而是只要有一個假設在此抽樣D上表現不好則該抽樣被標記為壞的,因此霍夫丁不等式如公式4-6所示。
(聯合上界)
(公式4-6)
因此如果|H|=M的這種有限情況下,抽樣樣本N足夠大時,可以確保假設空間中每個假設都滿足。
如果通過算法找出的g滿足 ,則通過PAC的規則可以保證
。