廣義線性模型(Generalized Linear Model)


廣義線性模型(Generalized Linear Model)

http://www.cnblogs.com/sumai

1.指數分布族

   我們在建模的時候,關心的目標變量Y可能服從很多種分布。像線性回歸,我們會假設目標變量Y服從正態分布,而邏輯回歸,則假設服從伯努利分布。在廣義線性模型的理論框架中,則假設目標變量Y則是服從指數分布族,正態分布和伯努利分布都屬於指數分布族,因此線性回歸和邏輯回歸可以看作是廣義線性模型的特例。那什么是指數分布族呢?若一個分布的概率密度或者概率分布可以寫成這個形式,那么它就屬於指數分布族。

   

  其中,η成為分布的自然參數(nature parameter);T(y)是充分統計量(sufficient statistic),通常T(y)=y。當參數 a、b、T 都固定的時候,就定義了一個以η為參數的函數族。

 

2.廣義線性模型(GLM)

   下面我們看 GLM 的形式化定義,GLM 有三個假設:

  • (1)y| x; θ 滿足一個以η為參數的指數分布,那么可以求得η的表達式。
  • (2) 給定x,我們的目標是要預測T(y)的期望值,大多數情況下T(y) = y,那么我們實際上要確定一個h(x),使得h(x)=E[y| x]。
  • (3)η=θTx。(如果η是向量,那么ηi=θTix)

   以邏輯回歸作簡單的例子說明,首先Y服從伯努利分布,並且寫成指數分布族形式,Φ是Y=1的概率。

    

   接着我們可以發現,T(y)=y, Φ =1/(1 + e−η)

   
 

   η以不同的映射函數與其它概率分布函數中的參數發生聯系,從而得到不同的模型,廣義線性模型正是將指數分布族中的所有成員(每個成員正好有一個這樣的聯系)都作為線性模型的擴展,通過各種非線性的連接函數將線性函數映射到其他空間,從而大大擴大了線性模型可解決的問題。

 

3. Softmax Regression

   Softmax Regression是GLM的另外一個例子。假設預測值 y 有 k 種可能,即 y∈{1,2,…,k}。比如 k=3 時,可以看作是要將一封未知郵件分為垃圾郵件、個人郵件還是工作郵件這三類。

   

  • 步驟一:

     假設y服從推廣的伯努利分布(多項式分布中n=1的情況),總共有k個類別,用k-1個參數代表y屬於每一類的概率。

  接着,我們要把y的分布寫成指數分布族的形式。首先,先考慮伯努利分布的表達式為:,這是y只有兩個分類的情況。現在,我們的y有k個情況,這是我們引入一個示性函數1{.}(1{True} = 1, 1{False} = 0)。

     那么這時候y服從分布:,然后我們把它寫成指數分布族的形式。  

     其中,

 

  • 步驟二:

   這時候,T(y)是一組 k-1 維的向量,不再是 y,如下所示:

   

   構建hθ(x)

   

   再用自然參數η來表示Φ

   

 

  • 步驟三:

   最后,用特征的線性組合去表示自然參數。

   

   

 

   那么就建立了假設函數,最后就獲得了最大似然估計

   

   對該式子可以使用梯度下降算法或者牛頓方法求得參數θ后,使用假設函數h對新的樣例進行預測,即可完成多類分類任務。對於互斥的多分類問題,這種模型比較合適,而對於非互斥的多分類問題,構建k個one-vs-all邏輯回歸模型更為合適。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM