整理一下之前所學過的關於回歸問題的思路:
- 問題引入:房屋估價,給定新的房屋信息,預測出相應的房屋價格;
- 學習過程:構建模型h(θ);
- 線性回歸:最小二乘法、梯度下降法、線性模型的概率解釋;
- 局部加權回歸:帶權重的線性回歸、權值的鍾形函數;
- 邏輯回歸:分類方法、梯度上升法、牛頓法、引出感知機學習算法;
- 廣義線性模型:指數分布族、給定概率分布推導出線性模型。
這一節所討論的重點就是最后的這一條內容,回顧討論過的線性回歸與邏輯回歸的假設可知:
- 在線性回歸模型的概率解釋中假設:
- 在邏輯回歸模型的推導中假設:
通過下面的推導,將會看出以上這些模型都是廣義線性模型的一個特例。
一、指數分布族(Exponential Family)
首先,要引出指數分布族的概念。它的標准表達式為:
其中,η是分布的自然參數(natural parameter)或典范參數(canonical parameter),T(y)叫做充分統計量(sufficient statistic),通常情況下T(y)=y;a(η)是對數分配函數(log partition function),而a、b與T一般都是給定的,隨着η的變化,會得到不同的分布。
下面來分別推導伯努利分布(Bernoulli distribution)與高斯分布(Gaussian distribution)的指數分布族標准表達式。
1. 伯努利分布
已知伯努利分布Bernoulli(Φ),Φ為分布的均值,隨着Φ的變化,可以得到不同的伯努利分布。
對應標准表達式可知:
這表明選擇合適的a、b、T,可以將伯努利分布寫成指數分布族的標准形式。
2. 高斯分布
已知高斯分布N(μ,1),μ為分布的均值,方差對最終θ和h(θ)的選擇沒有影響,設置為1。
對應標准表達式可知:
同理,高斯分布也可以寫成指數分布族的標准形式。
3. 其他指數族分布
還有許多其他分布屬於指數分布族,如:
- 多項式分布(multinomial),用來對多元分類問題進行建模;
- 泊松分布(Poisson),用來對計數過程進行建模,如網站的訪客數量、商店的顧客數量等;
- 伽馬分布(gamma)和指數分布(exponential),用來對時間間隔進行建模,如等車時間等;
- β分布(beta)和Dirichlet分布(Dirichlet),用於概率分布;
- Wishart分布(Wishart),用於協方差矩陣分布。
二、廣義線性模型(GLM)
1. 三個假設:
(1)
(2)給定x,最終的目標是要求出T(y)期望E[T(y)|x],因為通常T(y)=y,故h(x)也可以被求出來。
(3)自然參數η與輸入特征x呈線性相關,即
實數時,
向量時,
2. 最小二乘法:
設定目標變量(響應變量)y是連續的,且y|x;θ服從高斯分布,由上面的推導可知η=μ,故可知假設函數h(x)為:
3. 邏輯回歸:
由於考慮到二元分類問題,目標變量y取的值是0或1,很自然地就聯想到可以利用伯努利分布來建立模型,假設y|x;θ服從伯努利分布Bernoulli(Φ),所以可知它的期望為Φ:
同最小二乘法的推理過程,由伯努利分布的指數族的標准表達式可以反推出假設函數h(x)為:
這里還有個有趣的知識點,參數η的方程g(η)給定了分布的均值,它被叫做正則響應函數(canonical response function),而它的倒數叫做正則關聯函數(canonical link function),高斯家族的正則響應函數就是判別函數(identify function),伯努利的正則響應函數就是邏輯函數(logistic function)。
4. Softmax回歸:
該模型是邏輯回歸模型在多分類問題上的推廣,響應變量y={1,2,...,k}且仍然取離散的值。從推導邏輯回歸時所用到的伯努利分布可以聯想到多項式分布(multinomial distribution),它是二項分布的推廣。
(1)指數分布族證明
設置多項式分布有k個參數(Φ1,Φ2,...,Φk),根據多項式分布的性質可以將參數個數減少到k-1個(Φ1,Φ2,...,Φk-1)。
為了將多項式分布表示為指數分布族,假設T(y)是一個k-1維的向量,要給出y=i(i=1,...,k-1)的概率:
這里引入指示函數(indicator function)1{·}:
(T(y))i表示向量T(y)的第i個個元素,於是T(y)與y之間的關系可以寫成:
(T(y))i的期望為:
根據以上式子就可以開始推導多項式分布的指數分布族表達式。
其中,
(2)廣義線性模型推導
證明了多項式分布屬於指數分布族后,接下來求取由它推導出的線性模型h(θ)。
由連接函數反過來可以推導出Φi:
上面這個函數表示從η到Φ的映射,稱作softmax函數。
引用最開始的假設3,即η是x的線性函數,帶入softmax函數可以得到:
這個模型被應用到y={1,2,...,k}就稱作softmax回歸,是邏輯回歸的推廣。最終可以得到它的假設函數h(θ):
(3)參數估計
最后來討論參數θ的估計,同最小二乘法與邏輯回歸的極大似然估計求解方法,對於給定的訓練樣本{(xi,yi),i=1,2,...,m},可以得到參數θ的對數似然函數:
就可以利用梯度上升法或牛頓法來求解參數θ的極大似然估計值了。
參考文獻: