機器學習---最小二乘線性回歸模型的5個基本假設(Machine Learning Least Squares Linear Regression Assumptions)


在之前的文章《機器學習---線性回歸(Machine Learning Linear Regression)》中說到,使用最小二乘回歸模型需要滿足一些假設條件。但是這些假設條件卻往往是人們容易忽略的地方。如果不考慮模型的適用情況,就只會得到錯誤的模型。下面來看一下,使用最小二乘回歸模型需要滿足哪些假設,以及如果不滿足這些假設條件會產生怎樣的后果。

 

最小二乘回歸模型的5個基本假設:

  • 自變量(X)和因變量(y)線性相關
  • 自變量(X)之間相互獨立
  • 誤差項(ε)之間相互獨立
  • 誤差項(ε)呈正態分布,期望為0,方差為定值
  • 自變量(X)和誤差項(ε)之間相互獨立

 

第一個假設:自變量(X)和因變量(y)線性相關

線性相關(linearly dependent)是最基本的假設。如果自變量和因變量之間沒有關系或者是非線性關系,那么就無法使用線性回歸模型進行預測,或者無法預測出准確的結果。

 

第二個假設:自變量(X)之間相互獨立

如果我們發現本應相互獨立的自變量出現了一定程度(甚至高度)的相關性,那么我們就無法知道自變量和因變量之間的真正關系,這稱之為共線性(collinearity)當共線性出現的時候,變量之間的聯動關系會導致我們估計的參數的標准差變大,置信區間變寬,由此來看,參數的估計值會變得不穩定,對參數的假設檢驗也會變得不准確。

(注:兩個特征之間相互關聯被稱之為共線性,但是也有可能三個或更多的特征之間相互關聯,即使這些特征兩兩之間並沒有很高的關聯,這被稱之為多重共線性(multicollinearity)

 

第三個假設:誤差項(ε)之間相互獨立

隨機誤差項的各期望值之間存在着相關關系,稱隨機誤差項之間存在自相關性(autocorrelation)。自相關性通常出現在時間序列里,后一項依賴於前一項;也可能出現在有偏差的樣本里,比如樣本搜集自同一個家庭的成員。當自相關性出現的時候,預測值的標准差往往比真實的小,進而會導致置信區間變窄,同時,較低的標准差會導致p值較小,這會讓我們得到錯誤的假設檢驗結果。

 

第四個假設:誤差項(ε)呈正態分布,期望為0,方差為定值

這里其實分為兩個假設。第一個假設:誤差項服從均值為0的正態分布。第二個假設:誤差項的方差為定值(不變)。這兩個假設是為了保證回歸模型在小樣本下能夠順利進行假設檢驗。正態分布假設僅在小樣本的情況下需要,大樣本的情況下則不需要,因為有中心極限定理做正態性的支撐。而方差齊性則保證最小二乘法估計出來的統計量具有最小的方差。如果違反了這個假設,置信區間會變寬,這稱之為異方差性(heteroscedasticity)。當異方差性出現的時候,如果仍采用最小二乘法估計參數,會導致參數的t檢驗值被高估,可能造成本來不顯著的某些參數變為顯著,使假設檢驗失去意義。

 

第五個假設:自變量(X)和誤差項(ε)之間相互獨立

模型中一個或多個自變量與隨機誤差項存在相關關系,這稱之為內生性(endogeneity)。內生性通常由於遺漏變量而導致的,因此是一個普遍存在的問題。內生性會導致模型參數估計不准確。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM