在線性回歸問題中,我們假設,而在分類問題中,我們假設
,它們都是廣義線性模型的例子,而廣義線性模型就是把自變量的線性預測函數當作因變量的估計值。很多模型都是基於廣義線性模型的,例如,傳統的線性回歸模型,最大熵模型,Logistic回歸,softmax回歸。
指數分布族
在了解廣義線性模型之前,先了解一下指數分布族(the exponential family)
指數分布族原型如下
如果一個分布可以用上面形式在表示,那么這個分布就屬於指數分布族,首先來定義一下上面形式的符號:
η:分布的自然參數(natural parameter)或者稱為標准參數(canonical parameter)
T (y):充分統計量,通常用T(y) = y
a(η):對數分割函數(log partition function)
:本質上是一個歸一化常數,確保
概率和為1。
當給定T時,a、b就定義了一個以η為參數的一個指數分布。我們變化η就得到指數分布族的不同分布。
論證伯努利分布和高斯分布為指數分布族
,伯努利分布均值φ,記為Bernoulli(φ),y ∈ {0, 1},所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 − φ
對比指數分布族的表達式可以得到:
η = log(φ/(1-φ)) 我們將φ用η表示,則:φ=1/(1+e-η),是不是發現和sigmoid函數一樣了。
這就表明,當我們給定T,a,b,伯努利分布可以寫成指數分布族的形式,也即伯努利分布式指數分布族。
對比指數分布族,我們得到:
因為高斯分布的方差與假設函數無關,因而為了計算簡便,我們設方差
=1,這樣就得到:
所以這也表明,高斯分布也是指數分布族的一種。
構造廣義線性模型(Constructing GLMs)
怎么通過指數分布族來構造廣義線性模型呢?要構建廣義線性模型,我們要基於以下三個假設:
- 給定特征屬性
和參數
后,
的條件概率
服從指數分布族,即
。
- 預測
的期望,即計算
。 #h(x) = E[y|x]
與
之間是線性的,即
。
構建最小二乘模型
回顧一下,在線性回歸中,代價函數y是通過最小二乘法得到的。下面通過廣義線性模型來構造最小二乘模型。
線性回歸中,假設y|x;θ服從高斯分布N(μ,σ2)N(μ,σ2),根據我們前面的推導,我們知道µ = η,所以根據三個假設有
說明:
第二個等號根據高斯分布的期望為μ得到
第三個等號根據我們前面推到可得,也即假設1
第四個等號根據假設3得到。
至此,最小二乘模型構建完成,也即為線性回歸中使用的線性模型的來源。接下來的工作就是利用梯度下降,牛頓方法求解Θ
構建邏輯回歸
邏輯回歸可以用來解決二分類問題,二分類問題的目標函數是離散值,通過統計學知識我們知道可以選擇伯努利分布來構建邏輯回歸的模型
在前面的論證中我們得到η = log(φ/(1-φ)) 我們將φ用η表示,則:φ=1/(1+e-η)。根據三個假設,我們有
構建完成,這就是邏輯回歸中使用的模型。
構建Softmax Regression
現在我們考慮一個多分類問題,也即響應變量y有k個值,即y ∈{1 2, . . . , k},首先我們來證明多項分布也同樣屬於指數分布族。
多分類模型的輸出結果為該樣本屬於k個類別的概率,我們可以用φ1, . . . , φk來表示這k個樣本輸出的概率。φ1, . . . , φk滿足,但是這樣參數就顯得有些冗余了,所以我們用φ1, . . . , φk−1來表示,則
定義T(y)∈Rk-1如下:
注意:
在這里T(y)就不等於y了,在這里它是一個k-1維的向量,而不是一個實數。規定(T (y))i表示向量T(y)中第i個元素
另外,引入一個新的符號,如果大括號內為true,則該式等於1,反之為0,例如1{2 = 3} = 0,1{3 =5 − 2} = 1,
所以有:
所以這樣,多項式分布我們也可以寫成指數分布族的樣式,也即,多項分布也是指數分布族。所以我們可以用廣義線性模型來擬合了
通過η的表達式可以得到:ηi=log(φi/φk) 這是ηi關於φi的表達式,將它轉化為φi關於ηi,為了方便,我們令,所以有
所以可以求得,代入上圖紅色方框的等式中,求得
,這個
關於
的的函數稱為Softmax函數(Softmax Function)
下面我們使用廣義線性構造模型
根據假設3,有ηi = θiT x (for i = 1, . . . , k − 1), where θ1, . . . , θk-1 ∈ Rn+1 同樣在這里我們定義θk = 0 所以可以得到:ηk = θkT x = 0
所以模型在給定x的條件下y的分布為:
應用在多分類模型上的這個模型稱之為softmax regression,它是邏輯回歸的一般化。
對於假設函數,我們有假設2可以得到
所以現在求解目標函數的最后一步就是參數的擬合問題。最大似然估計得到
最大似然函數來求解最優的參數θ,跟前面介紹的一樣,可以使用梯度上升或者牛頓方法。