最近一直在回顧linear regression model和logistic regression model,但對其中的一些問題都很疑惑不解,知道我看到廣義線性模型即Generalized Linear Model后才恍然大悟原來這些模型是這樣推導的,在這里與諸位分享一下,具體更多細節可以參考Andrew Ng的課程。
一、指數分布
廣義線性模型都是由指數分布出發來推導的,所以在介紹GLM之前先講講什么是指數分布。指數分布的形式如下:
η是參數,T(y)是y的充分統計量,即T(y)可以完全表達y,通常T(y)=y。當參數T,b,a都固定的時候,就定義了一個以η為參數的參數簇。實際上,很多的概率分布都是屬於指數分布,比如:
(1)伯努利分布
(2)正態分布
(3)泊松分布
(4)伽馬分布
等等等。。。。
或許從原本的形式上看不出來他們是指數分布,但是經過一系列的變換之后,就會發現他們都是指數分布。舉兩個例子,順便我自己也推導一下。
伯努利分布:
那么b(y)=1,T(y)=y,η=log(φ/(1-φ)),a(η)=log((1-φ)),則φ=1/(1+e-y),這個就是sigmoid函數的由來。
同樣我們對正態分布做變換,不過在這里我們要假設方差為1,以為方差並不影響我們的回歸。
我們可以看到η=µ。
二、廣義線性模型
介紹完指數分布后我們可以來看看廣義線性模型是怎樣的。
首先廣義線性模型有三個假設,這三個假設即是前提條件也是幫助我們構造模型的關鍵。
(1)P(y|x;θ)~ExpFamliy(η);
(2)對於一個給定x,我們的目標函數為h(x)=E[T(y)|x];
(3)η=ΘTx
根據以上三個假設我們就能推導出logistic model 和 最小二乘模型。Logistic model 推導如下:
h(x)=E[T(y)|x]=E[y|x]=φ=1/(1+e-η)=1/(1+e-ΘTx)
對於最小二乘模型推導如下:
h(x)=E[T(y)|x]=E[y|x]=η=µ=ΘTx
從中我們將把η和原模型參數聯系起來的函數稱之為正則響應函數。所以對於廣義線性模型,我們需要y是怎樣的分布,就能推導出相應的模型。有興趣的可以從多項式分布試試推導出SoftMax回歸。