回歸分析


回歸分析本質上就是一個函數估計的問題(函數估計包括參數估計和非參數估計),就是找出因變量(DV,Dependent Variable)和自變量(IV,Independent Variable)之間的因果關系。本文講兩種回歸分析的方法:一般線性回歸(ordinary linear regression)和邏輯斯諦回歸(logistic regression)。更確切地講線性回歸和Logistic回歸都屬於參數估計,線性回歸假設X和Y滿足線性關系Y=θTX,Logistic回歸假設,g是單極性Sigmoid函數。

線性回歸

假設有一個房屋銷售的數據如下:

面積(m^2) 銷售價錢(萬元)
123    250
150 320
87 160
102 220
... ...

用X表示房屋面積,用Y表示售價,畫在坐標軸上發現它們近似滿足線性關系,於是用一個線性函數來模擬。Y=θTX。θ是模型參數,怎么求呢?在有導師數據的情況下求模型參數θ最常用的方法就是最大似然函數法(ML,maximum likelihood)。何謂likelihood?likelihood就是一個條件概率:P(Y|X)。

假設根據特征的預測結果與實際結果有誤差ε(i),那么預測結果θTx(i)和真實結果y(i)滿足下式:

一般來講誤差滿足均值為0的高斯分布。那么x和y的條件概率就是:

要實現Maximum Likelihood,目標函數自然是:

取自然對數,把連乘變為連加,你就會發現目標函數變成了:

即最小化誤差平方和。這是一個無約束的最優化問題,通常的解決思路是:梯度下降法和牛頓迭代法,具體方法可參考無約束最優化方法。另外對於“最小化誤差平方和”這種問題,還有一種直接的解法--最小二乘法,即

其中,是X的廣義逆(又叫偽逆)。

由此我們也看到最小二乘法可以用來求解線性回歸問題的理論依據來源於極大似然估計。似然估計和矩估計是參數估計中兩個最基本的方法。

在使用線性回歸時有幾個限制:

  1. 不應該使用這種方法來預測和建立模型時所使用的數據值相關差甚遠的值。
  2. 避免模型中自變量之間有較高的相關性。
  3. 對噪聲數據敏感。
  4. 一般假設誤差變量( error variances 或residuals)服從均值為0的正態分布。

邏輯斯諦回歸

 在二值分類中線性回歸遇到的問題

 線性回歸分析一般用於預測,而不用於分類。在二值分類問題中,因變量只有兩種取值:0和1。用p(x)來表示y=1的概率,那么p(x)為線性函數的假設會遇到以下3個挑戰:

  1. 線性函數的值可能跑到[0,1]之外。
  2. 從樣本數據上看p(x)明顯就不是線性函數。
  3. 線性回歸假設誤差變量是服從正態分布的,但是當y只可能取0和1時,很難滿足這一點。

邏輯斯諦回歸的來由

現有一組身高和性別的數據,我們接下來要根據身高來判定為男性的概率。

縱軸為P(判定為男性的概率),橫軸為X(身高),顯然這一個S型的曲線,可設:

 

………………(1)

 

現在我們定義一個變量,叫做odds ration(成敗優勝比)。

當P=0.9時,odds=9;當P=0.1時,odds=0.11。這個不具有對稱性,很討厭。我們來變換一下,搞一個具有對稱性的函數出來。

………………(2)

由(1)式和(2)式得:

線性回歸和邏輯斯諦回歸的關系

邏輯斯諦回歸又叫對數回歸,其本質上是線性回歸,只是在特征到結果的映射中加入了一層函數映射。即一般線性回歸中認為:,而在邏輯斯諦回歸中我們認為

g(z)是個S型函數,它把連續值映射到[0,1]上。

 

關於計算

自變量有l個特征,每個特征的權值為w,記z為各特征的線性組合:

y的取值記為+1和-1。則條件概率:

,則

有n組觀測值,似然函數為:

其中

梯度下降法求似然函數的極值點,先來算一上梯度的方向是什么。

注意到,可得

令學習率為ε,則w的迭代公式為:

當w前后兩次變化量很小時,停止迭代。

上面是采用梯度下降法,你同樣也可以采用牛頓迭代法來解,我就不詳細介紹了。

 調整后的似然函數

注意:上式中k是從1開始的,不是從0開始的。 另外使用(5)式時必須對輸入進行標准化,因為如果輸入X同比縮放的話w的解也會跟着變化。

這個式子的目的是使各個wk盡可能地平均,這樣在預測未來的數據時概括性一般會更好一些。此時

做過一次Logistic Regrssion的組內分享,可以看下當時的PPT

結束語

在回歸分析中,通常還會涉及其他一些問題:變量的獨立性檢驗和相合性檢驗,預測結果的置信區間和置信度等等,有時間可以多了解一下。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM