機器學習基石筆記16——機器可以怎樣學得更好(4)


轉載請注明出處:http://www.cnblogs.com/ymingjingr/p/4271742.html

目錄

機器學習基石筆記1——在何時可以使用機器學習(1)

機器學習基石筆記2——在何時可以使用機器學習(2)

機器學習基石筆記3——在何時可以使用機器學習(3)(修改版)

機器學習基石筆記4——在何時可以使用機器學習(4)

機器學習基石筆記5——為什么機器可以學習(1)

機器學習基石筆記6——為什么機器可以學習(2)

機器學習基石筆記7——為什么機器可以學習(3)

機器學習基石筆記8——為什么機器可以學習(4)

機器學習基石筆記9——機器可以怎樣學習(1)

機器學習基石筆記10——機器可以怎樣學習(2)

機器學習基石筆記11——機器可以怎樣學習(3)

機器學習基石筆記12——機器可以怎樣學習(4)

機器學習基石筆記13——機器可以怎樣學得更好(1)

機器學習基石筆記14——機器可以怎樣學得更好(2)

機器學習基石筆記15——機器可以怎樣學得更好(3)

機器學習基石筆記16——機器可以怎樣學得更好(4)

 

十六、Three Learning Principles

三學習原則。

16.1 Occam's Razor

奧卡姆剃刀定律。

entia non sunt multiplicanda praeter necessitatem(此處是拉丁文…),譯為英文是entities must not be multiplied beyond necessity,意思是如無必要,勿增實體,出自奧卡姆,為了紀念此人,將這句話叫做奧卡姆剃刀(Occam's Razor)。

將奧卡姆剃刀定律應用在機器學習上意思是使用的模型盡可能的簡單。如圖16-1所示,對於同一組數據集,兩種不同的分類模型,應該如何選擇?

 

圖16-1 不同模型的選擇

 

通過肉眼觀察,當然會選擇左邊的圖形,因為它簡單,於是產生了兩個問題,什么情況意味着模型是簡單的?如何得知簡單的模型會有好的表現?

先從第一個問題着手,簡單意味着什么。

對於一個假設h,參數越小意味着越簡單,如圖16-1中,左圖只需要極少的參數,如圓心和半徑。

對於一個假設空間H,有效的假設數量越少則意味着越簡單。

兩者之間有何聯系?兩者是密切相關的,如一個假設空間H的假設數量 ,則單一的假設可用 bits表示。因此如果假設空間H的模型是簡單的( 很小),則處在此假設空間中的假設h也是簡單的( 很小)。

接着使用一個直覺上的解釋闡述為什么越簡單的模型會有越好的效果。

假設一個數據集的規律性很差,如輸入樣本的輸出標記都是隨便標記的,此種情況,很少有甚至沒有假設函數能使得該樣本的 等於0。如果一個數據集能被某模型分開,則該數據集的規律性不會特別差。在使用簡單模型將某數據集大致區分開時,則可以確定該數據集是具有某種規律性的;如果是用復雜模型將某數據集分開,則無法確定是數據集具有規律性還是模型足夠復雜恰巧將混亂的數據集分離。

因此,在運用模型時,先使用簡單的模型,一般使用最簡單的線性模型。

 

16.2 Sampling Bias

抽樣偏差。

如果數據的抽樣出現偏差,則機器學習也會產生偏差,此種偏差稱為抽樣偏差(sampling bias)。

對上述結論用一個技術性的說明:在VC理論中,其中一個假設是訓練樣本和測試樣本以同樣的概率來自於同一個數據分布。因此在訓練數據來自於 ,而測試樣本的概率 時,VC理論無法適用,即 不成立。

這就好比,當你數學學得好時,測試你的英語,你不可能保證你英語測試也能通過。

因此訓練樣本和測試樣本要都獨立同分布的來自於概率分布P。

16.3 Data Snooping

數據窺探(的危害)。

在學習過程的任何一步中數據集都可能被影響。

假設有8年的交易數據,將前6年的作為訓練數據,后2年的作為測試數據,期望得到通過前二十天的數據預測出第21天交易,通過有偷窺和沒有偷窺兩種預測的收益情況作對比害,如圖16-2所示,紅色部分為使用8年的放縮統計數據建立模型預測后兩年的收益情況,藍色部分是使用前6年的數據建立模型預測后兩年的收益情況。從該圖表可知即使是間接的偷窺了統計信息的模型也比完全不偷窺的模型表現好處很多。

 

圖16-2 偷窺與否的收益對比圖

當然在做機器學習時很難做到不偷窺,只可能做到盡量避免,比保留驗證數據做驗證等。對所有的情況都存在質疑。

16.4 Power of Three

三的威力。

本節是對整個課程做一次總結,總結中發現此課程介紹的內容很巧的都與數字三有關,本節的題目因此得名。

首先本課程介紹了三種與機器學習有關的領域:數據挖掘、人工智能和統計。

三個理論保證:霍夫丁不等式(單一假設確認時使用)、多箱霍夫丁不等式(有限多個假設驗證時使用)和VC限制(無限多個假設訓練時使用)。

三個模型:二元分類模型(包含PLA和pocket)、線性回歸和logistic回歸。

三種重要工具:特征轉換、正則化和驗證。

三個原則:奧克姆剃刀、抽樣偏差和數據窺探。

未來學習的方向也分為三種:更多的轉換方式、更多的正則化和沒有標記的情況。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM