(本文轉自http://blog.sina.com.cn/s/blog_13eaccf160102xg8g.html)
今天我們就來繼續討論一下,如果殘差不滿足方差齊性時,應該如何解決?
一、殘差方差齊性判斷
1. 殘差方差齊性
回顧一下前面介紹過的殘差方差齊性,即殘差ei的大小不隨預測值水平的變化而變化。我們在進行殘差分析時,可以通過繪制標准化殘差和標准化預測值的散點圖來進行判斷。若殘差滿足方差齊性,則標准化殘差的散點會在一定區域內,圍繞標准化殘差ei=0這條直線的上下兩側均勻分布,不隨標准化預測值的變化而變化,如圖1所示。
圖1. 標准化殘差散點圖(方差齊性)
2. 殘差方差不齊
但有時殘差不滿足方差齊性的假設,其標准化殘差散點圖顯示,殘差的變異程度隨着變量取值水平的變化而發生變化,如圖2(a)顯示標准化殘差的分布隨變量取值的增大而呈現擴散趨勢,圖2(b)顯示標准化殘差的分布隨變量取值的增大而呈現收斂趨勢,說明殘差不滿足方差齊性的條件。
圖2. 標准化殘差散點圖(方差不齊)
二、加權最小二乘法
在多重線性回歸模型中,我們采用的是普通最小二乘法(Ordinary Least Square,OLS)來對參數進行估計,即要求每個觀測點的實際值與預測值之間的殘差平方和最小,對於模型中的每個觀測點是同等看待的,殘差滿足方差齊性的假設。
但是在有些研究問題中,例如調查某種疾病的發病率,以地區為觀測單位,很顯然地區人數越多,所得到的率就越穩定,變異程度越小,而地區人數越少,所得到的率的變異就越大。在這種情況下,因變量的變異程度會隨着自身數值或其他變量的變化而變化,殘差不滿足方差齊性的條件。此時如果繼續采用OLS方法進行模型估計,則擬合結果就會受到變異程度較大的數據的影響,在這種情況下構建的回歸模型就會發生偏差,預測精度降低,甚至預測功能失效。
為了解決這一問題,我們可以采用加權最小二乘法(Weighted Least Squares,WLS)的方法來進行模型估計,即在模型擬合時,根據數據變異程度的大小賦予不同的權重,對於變異程度較小、測量更精確的數據賦予較大的權重,對於變異程度較大、測量不穩定的數據賦予較小的權重,從而使得加權后回歸直線的殘差平方和最小,保證擬合的模型具有更好的預測價值。
三、SPSS操作
1. 研究問題
某研究人員擬研究PM2.5濃度與癌症發病率之間的關聯性,以地區為觀測單位,收集了40個地區的癌症發病率(/10萬),PM2.5年平均濃度(μg/m3),人口數量(萬),地區來源(0=農村,1=城市)等信息。(注:數據為模擬數據,不代表真實情況)
2. 判斷殘差是否滿足方差齊性
參考多重線性回歸的SPSS操作步驟,結果顯示采用普通最小二乘法方法擬合的線性回歸模型具有統計學意義(P<0.001),決定系數R Square為0.798,PM2.5平均濃度、不同地區來源(District)和不同人口數量對癌症發病率的影響有統計學顯著性(P<0.05)。
殘差散點圖顯示,標准化殘差的變異程度會隨着標准化預測值的增大而增大,呈現擴散趨勢,表明殘差不滿足方差齊性的假設。
3. 權重估計
根據專業知識和經驗判斷,人口數量(Population)可能為導致殘差不滿足方差齊性的一個重要因素,下面對人口數量進行權重估計。
(1)選擇Analyze → Regression → Weight Estimation,在Weight Estimation對話框中,將Cancer選入Dependent,將District和PM2.5選入Independent(s)中。
(2)將擬加權的變量Population選入Weight Variable中,系統將按照1/(權重變量)的power次冪對每條記錄進行加權。
(3)Power range用於定義權重變量的指數,默認為-2~2,步長為0.5,即將擬合指數分為-2、-1.5、-1、-0.5、0、0.5、1、1.5和2一共構建9個方程中,並從中選取效果最佳的一個擬合指數。本例中標准化殘差隨着標准化預測值的增大而增大,因此Power range為正值,此處設定Power range的范圍為0~5,步長為0.5。
(4)點擊Option,選擇Save best weight as new variable,生成一個新的變量用以保存效果最佳的權重。最后點擊Continue回到Weight Estimation主對話框,點擊OK完成操作。
(5)結果匯總
Log-Likelihood Values表中輸出了在給定步長下每個指數值對應的對數似然值,選取對數似然值最大的一項為最優指數,因此本例中最終確定的最優指數值為3,即權重按照1/population3的函數關系來計算權重。同時系統會在確定最優指數的情況下,自動生成一個名為WGT_1的變量用於保存權重系數。
4. 最小二乘法操作
(1)選擇Analyze → Regression → Linear,在Linear Regression對話框中,將Cancer選入Dependent,將District、PM2.5、Population選入Independent(s)中,將新生成的變量Weight for Cancer from WLS(WGT_1)選入WLS Weight中。
(2)點擊Save選項,在Predicted Values和Residuals框下均選擇Unstandardized。最后點擊Continue回到Linear Regression主對話框,點擊OK完成操作。
(3)繪制殘差散點圖
由於在SPSS中使用WLS模型無法直接繪制加權殘差散點圖,SPSS會給出相應的警示(如下圖所示),因此我們需要按照SPSS提示中提供的計算公式,對加權預測值和加權殘差值進行一定的轉換,然后再繪制轉換后的加權殘差散點圖。
選擇Transform → Compute Variable,利用前幾步操作生成的權重值(WGT_1)、加權預測值(PRE_1)和加權殘差值(RES_1)來計算生成兩個新變量,即轉換的加權預測值wgtpred = PRE_1 * sqrt(WGT_1)和轉換的加權殘差值wgtresid = RES_1 * sqrt(WGT_1)。
然后選擇Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter,將wtgpred選入X Axis,將wtgresid選入Y Axis,點擊OK繪制散點圖。
5. 結果匯總
(1)結果顯示,采用加權最小二乘法擬合的線性回歸模型仍具有統計學意義(P<0.001),決定系數R Square為0.779。由於決定系數計算方法本身的問題,在加權線性回歸里會出現一定的偏差,導致加權方法計算得到的R2往往要小於普通最小二乘法的R2,但這並不代表加權的模型比普通模型的擬合效果差,兩者不能簡單相比。
(2)模型結果顯示,PM2.5平均濃度、不同地區來源(District)和不同人口數對癌症發病率的影響有統計學顯著性(P<0.05),且偏回歸系數較普通最小二乘法更為穩健。
(3)轉換后的加權殘差散點圖顯示,殘差的散點圍繞ei=0這條直線的上下兩側均勻分布,不隨預測值的變化而變化,說明經過加權校正后,殘差已滿足方差齊性的條件,達到了加權校正的目的。
本文介紹了殘差不滿足方差齊性的處理方法,如果是其他條件不滿足時,該如何處理呢?我們后續還會再做介紹,敬請期待!