原文鏈接:http://tecdat.cn/?p=6274
在這篇文章中,我們將看看如何在實踐中使用R 。為了說明,我們首先從線性回歸模型中模擬一些簡單數據,其中殘差方差隨着協變量的增加而急劇增加:
該代碼從給定X的線性回歸模型生成Y,具有真正的截距0和真實斜率2.然而,殘差標准差已經生成為exp(x),使得殘差方差隨着X的增加而增加。可以直觀地看到這個效果:
這使
模擬Y對X數據的圖,其中殘差方差隨着X的增加而增加
在這個簡單的情況下,視覺上清楚的是,對於較大的X值,殘差方差要大得多,因此違反了“基於模型”的標准誤差所需的關鍵假設之一。無論如何,如果我們像往常一樣擬合線性回歸模型,讓我們看看結果是什么:
這表明我們有強有力的證據反對Y和X獨立的零假設。為了便於比較,我們注意到X效果的標准誤差是0.311。
接下來,我 然后將先前安裝的lm對象傳遞給包中的函數,該函數計算 方差估計值:
得到的矩陣是兩個模型參數的估計方差協方差矩陣。因此,對角線元素是估計的方差(平方標准誤差)。因此,我們可以通過采用這些對角元素和平方根來計算夾心標准誤差:
因此,X系數的 標准誤差為0.584。這與先前基於模型的標准誤差0.311形成對比。因為此處殘差方差不是恆定的,所以基於模型的標准誤差低估了估計的可變性,並且夾心標准誤差對此進行了校正。讓我們看看它對置信區間和p值有何影響。為此,我們使用估計量漸近(在大樣本中)正態分布的結果。首先,要獲得置信區間限制,我們可以使用:
因此,X系數的95%置信區間限制為(0.035,2.326)。為了找到p值,我們可以首先計算z-統計量(系數除以它們相應的標准誤差),並將平方z-統計量與一個自由度上的卡方分布進行比較:
我們現在有一個p值表示Y對X的依賴性為0.043,而早期從lm為0.00025得到的p值。