淺談線性、非線性和廣義線性回歸模型


一、理論

  1.1 多重共線性

  所謂多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由於存在精確相關關系或高度相關關系而使模型估計失真或難以估計准確。一般來說,由於經濟數據的限制使得模型設計不當,導致設計矩陣中解釋變量間存在普遍的相關關系。
完全共線性的情況並不多見,一般出現的是在一定程度上的共線性,即近似共線性。

  1.2 T檢驗

  T檢驗,亦稱student t檢驗(Student's t test),主要用於樣本含量較小(例如n<30),總體標准差σ未知的正態分布資料。
t檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。
  舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。
兩樣本(如某班男生和女生)某變量(如身高)的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?
會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?

二、回歸模型

  2.1 線性回歸模型

  適用於自變量X和因變量Y為線性關系,具體來說,畫出散點圖可以用一條直線來近似擬合。隨機誤差服從多元高斯分布。模型有幾個基本假設:自變量之間無多重共線性;隨機誤差隨從0均值,同方差的正態分布;隨機誤差項之間無相關關系。參數使用最小二乘法進行估計。假設檢驗有兩個,一個是參數的檢驗,使用t檢驗;另一個是整個模型的檢驗,使用F檢驗,在構造F統計量時,需要把模型的平方和進行分解,會使用到方差分析。

  2.2 線性混合模型

  我的理解為在線性模型中加入隨機效應項。

  2.3 廣義線性模型

  廣義線性模型,是為了克服線性回歸模型的缺點出現的,是線性回歸模型的推廣。

  首先自變量可以是離散的,也可以是連續的。離散的可以是0-1變量,也可以是多種取值的變量。

  與線性回歸模型相比較,有以下推廣:

  (1)隨機誤差項不一定服從正態分布,可以服從二項、泊松、負二項、正態、伽馬、逆高斯等分布,這些分布被統稱為指數分布族。

  (2)引入聯接函數。因變量和自變量通過聯接函數產生影響,聯接函數滿足單調,可導。常用的聯接函數

1 Y= X*beta 2 Y=ln(X*beta) 3 Y= 根號(X*beta) 4 ln(Y/(1-Y))=X*beta

  根據不同的數據,可以自由選擇不同的模型。大家比較熟悉的Logit模型就是使用Logit聯接、隨機誤差項服從二項分布得到模型。

三、實例分析

  logistic回歸是假設鏈接函數為logi,參數為二項分布的廣義線性分布,所以他的求偏導形式和最小二乘的一樣。

廣義線性模型(GLM)。這種模型是把自變量的線性預測函數當作因變量的估計值。在機器學習中,有很多模型都是基於廣義線性模型的,比如傳統的線性回歸模型,最大熵模型,Logistic回歸,softmax回歸,等等。今天主要來學習如何來針對某類型的分布建立相應的廣義線性模型。

  3.1廣義線性模型的認識

   首先,廣義線性模型是基於指數分布族的,而指數分布族的原型如下

   

   其中為自然參數,它可能是一個向量,而叫做充分統計量,也可能是一個向量,通常來說

   實際上線性最小二乘回歸和Logistic回歸都是廣義線性模型的一個特例。當隨機變量服從高斯分布,那么

   得到的是線性最小二乘回歸,當隨機變量服從伯努利分布,則得到的是Logistic回歸。

   那么如何根據指數分布族來構建廣義線性模型呢? 首先以如下三個假設為基礎

   (1)給定特征屬性和參數后,的條件概率服從指數分布族,即

   (2)預測的期望,即計算

   (3)之間是線性的,即

   在講解利用廣義線性模型推導最小二乘和Logistic回歸之前,先來認識一些常見的分布,這是后面的基礎。

  3.2 常見概率分布的認識

   (1)高斯分布

      關於高斯分布的內容我就不再多講了,如果把它看成指數分布族,那么有

      

         對比一下指數分布族,可以發現

      

      所以高斯分布實際上也是屬於指數分布族,線性最小二乘就是基於高斯分布的。

  (2)伯努利分布

      伯努利分布又叫做兩點分布或者0-1分布,是一個離散型概率分布,若伯努利實驗成功,則伯努利隨機變

      量取值為1,如果失敗,則伯努利隨機變量取值為0。並記成功的概率為,那么失敗的概率就是

      所以得到其概率密度函數為

                          

         如果把伯努利分布寫成指數分布族,形式如下

       

      對比指數分布族,有

      

      Logistic回歸就是基於伯努利分布的,之前的Sigmoid函數,現在我們就可以知道它是如何來的了。如下

      

      如果

      

      那么叫做正則響應函數,而叫做正則關聯函數

  (3)泊松分布

      泊松分布是一種離散型概率分布,其隨機變量只能取非負整數值0,1,2,... 且其概率密度函數為

      

      其中參數是泊松分布的均值,也是泊松分布的方差,表示單位時間內隨機事件的平均發生率。在實際

      的實例中,近似服從泊松分布的事件有:某電話交換台收到的呼叫,某個網站的點擊量,來到某個公共

      汽車站的乘客,某放射性物質發射出的粒子,顯微鏡下某區域內的白血球等計數問題。

   關於概率論中的分布主要介紹這幾個,其中還有很多分布都屬於指數分布族,比如伽馬分布,指數分布,多

   元高斯分布,Beta分布,Dirichlet分布,Wishart分布等等。根據這些分布的概率密度函數可以建立相

   應的模型,這些都是廣義線性模型的一個實例。

  http://blog.csdn.net/acdreamers/article/details/44663091

  http://bbs.pinggu.org/thread-2996069-1-1.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM