提綱:
- 回顧多元線性回歸
- 廣義線性模型的基本形式
- 對數線性回歸
- 學習和參考資料
1.回顧多元線性回歸
在上一篇隨筆中,說到了線性模型中最基本的一種--多元線性回歸,其基本形式如圖一所示:
圖一
在多元線性回歸中,模型的預測值都分布在一條直線上,所以只有當樣本點的真實分布大致與所求到的直線的形狀相同時,模型才能工作得很好。情況大致如圖二所示:
圖二
在圖二中,我們認為樣本點的分布是線性變化的,所以我們模型的預測值直接逼近樣本點的真實值y本身,但在現實生活中,很多時候樣本點的分布並非像圖二所示,那么我們有沒有一種模型,可以讓線性模型推廣開來,適應更多現實中的情況呢?假設我們有一個像圖三一樣的樣本點集合;
圖三
在學習如何讓模型的預測值逼近如圖三的直線之前,我們先來看一下什么是廣義線性模型。
2.廣義線性模型的基本形式
廣義線性模型的基本形式如圖四:
圖四
其中,g(·)為聯系函數(link function),作用是將線性回歸模型的預測值與真實值y聯系起來,它是一個單調可微函數,形如圖四的模型叫“廣義線性模型”。
說白了,廣義線性模型就是給線性回歸模型的預測值穿上個小馬甲,例如,假設有個樣本點集合,樣本點的分布如圖三所呈現,即真實值y是在指數尺度上變化,我們希望線性回歸的預測值會逼近如圖三的分布,那么,我們就應該根據樣本點的真實值y是呈指數變化的這個特點,給線性回歸模型的預測值穿上指數變化小馬甲,而g(·)這個函數,就是起到一個馬甲的作用。
圖五
3.對數線性回歸
對數線性回歸是g(·)=ln(·)時的特例,可以適應樣本點集合的真實標記值y呈現如圖三中的變化時的情況。
當g(·)=ln(·)時,y=e^(wT*x+b),具體推導過程如圖六所示:
圖六
4.學習和參考資料
周志華老師的《機器學習》,清華大學出版社。