廣義線性模型(Generalized Linear Model)
1.指數分布族
我們在建模的時候,關心的目標變量Y可能服從很多種分布。像線性回歸,我們會假設目標變量Y服從正態分布,而邏輯回歸,則假設服從伯努利分布。在廣義線性模型的理論框架中,則假設目標變量Y則是服從指數分布族,正態分布和伯努利分布都屬於指數分布族,因此線性回歸和邏輯回歸可以看作是廣義線性模型的特例。那什么是指數分布族呢?若一個分布的概率密度或者概率分布可以寫成這個形式,那么它就屬於指數分布族。
其中,η成為分布的自然參數(nature parameter);T(y)是充分統計量(sufficient statistic),通常T(y)=y。當參數 a、b、T 都固定的時候,就定義了一個以η為參數的函數族。
2.廣義線性模型(GLM)
下面我們看 GLM 的形式化定義,GLM 有三個假設:
- (1)y| x; θ 滿足一個以η為參數的指數分布,那么可以求得η的表達式。
- (2) 給定x,我們的目標是要預測T(y)的期望值,大多數情況下T(y) = y,那么我們實際上要確定一個h(x),使得h(x)=E[y| x]。
- (3)η=θTx。(如果η是向量,那么ηi=θTix)
以邏輯回歸作簡單的例子說明,首先Y服從伯努利分布,並且寫成指數分布族形式,Φ是Y=1的概率。
接着我們可以發現,T(y)=y, Φ =1/(1 + e−η)
η以不同的映射函數與其它概率分布函數中的參數發生聯系,從而得到不同的模型,廣義線性模型正是將指數分布族中的所有成員(每個成員正好有一個這樣的聯系)都作為線性模型的擴展,通過各種非線性的連接函數將線性函數映射到其他空間,從而大大擴大了線性模型可解決的問題。
3. Softmax Regression
Softmax Regression是GLM的另外一個例子。假設預測值 y 有 k 種可能,即 y∈{1,2,…,k}。比如 k=3 時,可以看作是要將一封未知郵件分為垃圾郵件、個人郵件還是工作郵件這三類。
- 步驟一:
假設y服從推廣的伯努利分布(多項式分布中n=1的情況),總共有k個類別,用k-1個參數代表y屬於每一類的概率。
接着,我們要把y的分布寫成指數分布族的形式。首先,先考慮伯努利分布的表達式為:,這是y只有兩個分類的情況。現在,我們的y有k個情況,這是我們引入一個示性函數1{.}(1{True} = 1, 1{False} = 0)。
那么這時候y服從分布:,然后我們把它寫成指數分布族的形式。
其中,
- 步驟二:
這時候,T(y)是一組 k-1 維的向量,不再是 y,如下所示:
構建hθ(x)
再用自然參數η來表示Φ
- 步驟三:
最后,用特征的線性組合去表示自然參數。
那么就建立了假設函數,最后就獲得了最大似然估計
對該式子可以使用梯度下降算法或者牛頓方法求得參數θ后,使用假設函數h對新的樣例進行預測,即可完成多類分類任務。對於互斥的多分類問題,這種模型比較合適,而對於非互斥的多分類問題,構建k個one-vs-all邏輯回歸模型更為合適。