一、理論
1.1 多重共線性
1.2 T檢驗
二、回歸模型
2.1 線性回歸模型
適用於自變量X和因變量Y為線性關系,具體來說,畫出散點圖可以用一條直線來近似擬合。隨機誤差服從多元高斯分布。模型有幾個基本假設:自變量之間無多重共線性;隨機誤差隨從0均值,同方差的正態分布;隨機誤差項之間無相關關系。參數使用最小二乘法進行估計。假設檢驗有兩個,一個是參數的檢驗,使用t檢驗;另一個是整個模型的檢驗,使用F檢驗,在構造F統計量時,需要把模型的平方和進行分解,會使用到方差分析。
2.2 線性混合模型
我的理解為在線性模型中加入隨機效應項。
2.3 廣義線性模型
廣義線性模型,是為了克服線性回歸模型的缺點出現的,是線性回歸模型的推廣。
首先自變量可以是離散的,也可以是連續的。離散的可以是0-1變量,也可以是多種取值的變量。
與線性回歸模型相比較,有以下推廣:
(1)隨機誤差項不一定服從正態分布,可以服從二項、泊松、負二項、正態、伽馬、逆高斯等分布,這些分布被統稱為指數分布族。
(2)引入聯接函數。因變量和自變量通過聯接函數產生影響,聯接函數滿足單調,可導。常用的聯接函數
1 Y= X*beta 2 Y=ln(X*beta) 3 Y= 根號(X*beta) 4 ln(Y/(1-Y))=X*beta
根據不同的數據,可以自由選擇不同的模型。大家比較熟悉的Logit模型就是使用Logit聯接、隨機誤差項服從二項分布得到模型。
三、實例分析
logistic回歸是假設鏈接函數為logi,參數為二項分布的廣義線性分布,所以他的求偏導形式和最小二乘的一樣。
廣義線性模型(GLM)。這種模型是把自變量的線性預測函數當作因變量的估計值。在機器學習中,有很多模型都是基於廣義線性模型的,比如傳統的線性回歸模型,最大熵模型,Logistic回歸,softmax回歸,等等。今天主要來學習如何來針對某類型的分布建立相應的廣義線性模型。
3.1廣義線性模型的認識
首先,廣義線性模型是基於指數分布族的,而指數分布族的原型如下

其中
為自然參數,它可能是一個向量,而
叫做充分統計量,也可能是一個向量,通常來說
。
實際上線性最小二乘回歸和Logistic回歸都是廣義線性模型的一個特例。當隨機變量
服從高斯分布,那么
得到的是線性最小二乘回歸,當隨機變量
服從伯努利分布,則得到的是Logistic回歸。
那么如何根據指數分布族來構建廣義線性模型呢? 首先以如下三個假設為基礎
(1)給定特征屬性
和參數
后,
的條件概率
服從指數分布族,即
。
(2)預測
的期望,即計算
。
(3)
與
之間是線性的,即
。
在講解利用廣義線性模型推導最小二乘和Logistic回歸之前,先來認識一些常見的分布,這是后面的基礎。
3.2 常見概率分布的認識
(1)高斯分布
關於高斯分布的內容我就不再多講了,如果把它看成指數分布族,那么有

對比一下指數分布族,可以發現

所以高斯分布實際上也是屬於指數分布族,線性最小二乘就是基於高斯分布的。
(2)伯努利分布
伯努利分布又叫做兩點分布或者0-1分布,是一個離散型概率分布,若伯努利實驗成功,則伯努利隨機變
量取值為1,如果失敗,則伯努利隨機變量取值為0。並記成功的概率為
,那么失敗的概率就是
,
所以得到其概率密度函數為

如果把伯努利分布寫成指數分布族,形式如下

對比指數分布族,有

Logistic回歸就是基於伯努利分布的,之前的Sigmoid函數,現在我們就可以知道它是如何來的了。如下

如果

那么
叫做正則響應函數,而
叫做正則關聯函數。
(3)泊松分布
泊松分布是一種離散型概率分布,其隨機變量
只能取非負整數值0,1,2,... 且其概率密度函數為

其中參數
是泊松分布的均值,也是泊松分布的方差,表示單位時間內隨機事件的平均發生率。在實際
的實例中,近似服從泊松分布的事件有:某電話交換台收到的呼叫,某個網站的點擊量,來到某個公共
汽車站的乘客,某放射性物質發射出的粒子,顯微鏡下某區域內的白血球等計數問題。
關於概率論中的分布主要介紹這幾個,其中還有很多分布都屬於指數分布族,比如伽馬分布,指數分布,多
元高斯分布,Beta分布,Dirichlet分布,Wishart分布等等。根據這些分布的概率密度函數可以建立相
應的模型,這些都是廣義線性模型的一個實例。
http://blog.csdn.net/acdreamers/article/details/44663091
http://bbs.pinggu.org/thread-2996069-1-1.html
