指數分布族與廣義線性模型


     整理一下之前所學過的關於回歸問題的思路:

  • 問題引入:房屋估價,給定新的房屋信息,預測出相應的房屋價格;
  • 學習過程:構建模型h(θ);
  • 線性回歸:最小二乘法、梯度下降法、線性模型的概率解釋;
  • 局部加權回歸:帶權重的線性回歸、權值的鍾形函數;
  • 邏輯回歸:分類方法、梯度上升法、牛頓法、引出感知機學習算法;
  • 廣義線性模型:指數分布族、給定概率分布推導出線性模型。

    這一節所討論的重點就是最后的這一條內容,回顧討論過的線性回歸與邏輯回歸的假設可知:

  • 在線性回歸模型的概率解釋中假設:

        

  • 在邏輯回歸模型的推導中假設:

       

     通過下面的推導,將會看出以上這些模型都是廣義線性模型的一個特例。

 

一、指數分布族(Exponential Family)

     首先,要引出指數分布族的概念。它的標准表達式為:

     

     其中,η是分布的自然參數(natural parameter)或典范參數(canonical parameter),T(y)叫做充分統計量(sufficient statistic),通常情況下T(y)=y;a(η)是對數分配函數(log partition function),而a、b與T一般都是給定的,隨着η的變化,會得到不同的分布。

     下面來分別推導伯努利分布(Bernoulli distribution)與高斯分布(Gaussian distribution)的指數分布族標准表達式。

    1. 伯努利分布

      已知伯努利分布Bernoulli(Φ),Φ為分布的均值,隨着Φ的變化,可以得到不同的伯努利分布。

     

     對應標准表達式可知:

     

   

     這表明選擇合適的a、b、T,可以將伯努利分布寫成指數分布族的標准形式。

   2. 高斯分布

    已知高斯分布N(μ,1),μ為分布的均值,方差對最終θ和h(θ)的選擇沒有影響,設置為1。

    

    對應標准表達式可知:

    

    同理,高斯分布也可以寫成指數分布族的標准形式。

   3. 其他指數族分布

    還有許多其他分布屬於指數分布族,如:

  • 多項式分布(multinomial),用來對多元分類問題進行建模;
  • 泊松分布(Poisson),用來對計數過程進行建模,如網站的訪客數量、商店的顧客數量等;
  • 伽馬分布(gamma)和指數分布(exponential),用來對時間間隔進行建模,如等車時間等;
  • β分布(beta)和Dirichlet分布(Dirichlet),用於概率分布;
  • Wishart分布(Wishart),用於協方差矩陣分布。

 二、廣義線性模型(GLM)

   1. 三個假設:

  (1)

  (2)給定x,最終的目標是要求出T(y)期望E[T(y)|x],因為通常T(y)=y,故h(x)也可以被求出來。

         

  (3)自然參數η與輸入特征x呈線性相關,即

        實數時,  

        向量時, 

   2. 最小二乘法:

   設定目標變量(響應變量)y是連續的,且y|x;θ服從高斯分布,由上面的推導可知η=μ,故可知假設函數h(x)為:

   

   3. 邏輯回歸:

   由於考慮到二元分類問題,目標變量y取的值是0或1,很自然地就聯想到可以利用伯努利分布來建立模型,假設y|x;θ服從伯努利分布Bernoulli(Φ),所以可知它的期望為Φ:

   

   同最小二乘法的推理過程,由伯努利分布的指數族的標准表達式可以反推出假設函數h(x)為:

   

    這里還有個有趣的知識點,參數η的方程g(η)給定了分布的均值,它被叫做正則響應函數(canonical response function),而它的倒數叫做正則關聯函數(canonical link function),高斯家族的正則響應函數就是判別函數(identify function),伯努利的正則響應函數就是邏輯函數(logistic function)。

    

    4. Softmax回歸:

    該模型是邏輯回歸模型在多分類問題上的推廣,響應變量y={1,2,...,k}且仍然取離散的值。從推導邏輯回歸時所用到的伯努利分布可以聯想到多項式分布(multinomial distribution),它是二項分布的推廣。

  (1)指數分布族證明

    設置多項式分布有k個參數(Φ1,Φ2,...,Φk),根據多項式分布的性質可以將參數個數減少到k-1個(Φ1,Φ2,...,Φk-1)。

    

    為了將多項式分布表示為指數分布族,假設T(y)是一個k-1維的向量,要給出y=i(i=1,...,k-1)的概率:

    

   這里引入指示函數(indicator function)1{·}:

   

   (T(y))i表示向量T(y)的第i個個元素,於是T(y)與y之間的關系可以寫成:

   

   (T(y))i的期望為:

   

   根據以上式子就可以開始推導多項式分布的指數分布族表達式。

   

    其中,

    

     (2)廣義線性模型推導

     證明了多項式分布屬於指數分布族后,接下來求取由它推導出的線性模型h(θ)。

     由連接函數反過來可以推導出Φi:

     

     

     

   

     上面這個函數表示從η到Φ的映射,稱作softmax函數

     引用最開始的假設3,即η是x的線性函數,帶入softmax函數可以得到:

     

     這個模型被應用到y={1,2,...,k}就稱作softmax回歸,是邏輯回歸的推廣。最終可以得到它的假設函數h(θ):

     

     (3)參數估計

     最后來討論參數θ的估計,同最小二乘法與邏輯回歸的極大似然估計求解方法,對於給定的訓練樣本{(xi,yi),i=1,2,...,m},可以得到參數θ的對數似然函數:

     

    就可以利用梯度上升法或牛頓法來求解參數θ的極大似然估計值了。

 

 參考文獻:

【斯坦福---機器學習】復習筆記之牛頓方法

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM