這段時間組里在有計划地學習書籍PRML (Pattern Recognition and Machine Learning),前兩天自己做了一個里面第三章linear regression的分享,這里把當時做的這個ppt分享給大家。
對於線性回歸這一章,首先列一下我認為比較重要的幾個問題(ppt slide 4有),建議大家在讀的過程總帶着這幾個問題:
- linear basis function model中過擬合問題處理方式;
- 如何分別從頻率角度(Frequentist Viewpoint)和貝葉斯角度理解模型復雜度(model complexity)問題?
- 貝葉斯線性回歸的sequential nature怎么直觀地理解(里面有一副圖非常直觀)?
- 在貝葉斯方法中,如何評估model evidence,以及回歸參數w的有效性(是否有效、有效個數)?特別地,對於擬合參數的不同維度,什么時候靠近訓練數據集的最大似然估計,什么時候更加傾向於最初的先驗假設(也就訓練數據集對該參數的作用有限)?
PRML這本書的示例圖做得特別好,信息量很豐富,非常有利於直觀地理解復雜的數學公式,建議在讀的過程中詳細地扣一下每幅圖。例如下面這幾幅:
ppt的備注里有一些簡單的說明和個人的一些理解,最后本來還想補充講一下目前求解邏輯回歸(當然跟這一章線性回歸關系不大)最有效的online算法FTRL(google的論文)的一些細節問題,可惜時間不夠暫時沒做出來。下一篇博文再整理一下sequential learning和FTRL方面的資料。
博客園不能搞附件,ppt放到網盤了:http://yun.baidu.com/share/link?shareid=1288754569&uk=789232109