在實際的醫學研究中,一個生理指標或疾病指標往往受到多種因素的共同作用和影響,當研究的因變量為連續變量時,我們通常在統計分析過程中引入多重線性回歸模型,來分析一個因變量與多個自變量之間的關聯性。
一、多重線性回歸的作用
多重線性回歸模型在醫學研究領域得到了廣泛的應用,其作用主要體現在以下幾個方面:
1、探索對於因變量具有影響作用的因素;
2、控制混雜因素,評價多個自變量對因變量的獨立效應;
3、用已知的自變量來估計和預測因變量的值及其變化。
二、多重線性回歸的形式
多重線性回歸的一般表達形式為:
由表達式可以看出,每個因變量的實際測量值yi由兩部分組成,即 和ei
之間的差值,表示不能由自變量決定的部分,而對於殘差的分析是多重線性回歸建模過程中需要重點關注的地方。
此外在多線性回歸的表達式中,b0為常數項,表示當所有自變量取值為0時因變量 的估計值;bi為偏回歸系數,表示當其他自變量不變時,xi每改變一個單位時所引起的的
變化量。
三、多重線性回歸的適用條件
多重線性回歸模型作為一種統計模型,它有嚴格的適用條件,在建模時也需要對這些適用條件進行判斷。但是許多使用者往往忽視了這一點,在使用過程中只是單一的構建模型,最終很有可能得出錯誤的結論。因此在應用多重線性回歸之前,我們應該了解它需要滿足哪些前提條件呢?
總結起來可用4個詞來概況:線性(Linear),獨立(Independence),正態(Normality),齊性(Equal variance),縮寫為LINE原則。
(1) 線性:各自變量xi與因變量yi之間存在線性關系,可以通過繪制散點圖來進行判斷;
(2) 獨立:因變量yi的取值之間相互獨立,反映到回歸模型中,實際上就是要求殘差ei之間相互獨立;
(3) 正態性:構建多重線性回歸模型后,殘差ei服從正態分布;
(4) 方差齊性:殘差ei的大小不隨xi取值水平的變化而變化,即殘差ei具有方差齊性。
只有准確把握了LINE核心原則,才能夠保證構建符合統計學要求的多重線性回歸模型。但是,由於多重線性回歸模型具有一定的“抗偏倚性”,如果只是想通過構建方程來探討自變量和因變量之間的關聯性,而非對因變量進行預測,那么后面兩個條件可以適當放寬。
此外,還應該注意以下幾點:
(5) 因變量yi為連續性變量,而非分類變量;
(6) 自變量xi可以為連續變量,也可以為分類變量,當自變量為多分類無序變量時,則需要設置啞變量,當為有序變量時,則需要根據等級順序進行賦值。
(7) 對於自變量xi的分布特征沒有具體的限定,只要求自變量xi間相互獨立,不存在多重共線性;
(8) 對於樣本量的要求,根據經驗一般要求樣本量應當為納入模型的自變量的20倍以上為宜,比如模型納入5個自變量,則樣本量應當在100以上為宜。
四、SPSS實例操作
1. 研究設計
某研究人員收集了100名研究者的最大攝氧量(VO2max),並記錄了他們的年齡,體重,心率和性別,擬探討年齡,體重,心率和性別對VO2
2. 錄入數據
SPSS數據文件如圖所示,分析數據結構:
因變量VO2max為連續變量,滿足上述條件(5);
自變量中年齡(age),體重(weight),心率(heart_rate)為連續變量,性別(gender)(女=0,男=1)為二分類變量,滿足條件(6);
樣本量為100,納入的自變量為4個,滿足條件(8)中大於20倍的要求。在滿足上述幾個基本條件后,根據研究目的研究人員擬采用多重線性回歸的方法來進行統計分析,而對於其他幾點適用條件我們將在后面的介紹中進行一一驗證。
3. 多重線性回歸操作
(1)選擇Analyze → Regression → Linear
在Linear Regression對話框中,將VO2max選入Dependent,將age,weight,heart_rate,gender選入Independent(s)中。
點擊Method下拉列表,會出現Enter,Stepwise,Remove,Backward,Forward共5種方法可供選擇,這里選擇默認的Enter法,表示將所有的變量都納入到回歸模型中。(自變量篩選共有5種方法,每種方法的區別我們將會在以后的內容中進行詳細介紹。)
(2)點擊Statistic選項
在Regression Coefficients復選框中,勾選Estimates和Confidence Intervals Level(%)並設定為95,可輸出自變量的回歸系數及其95%可信區間。
選擇Model fit,輸出模型擬合優度的檢驗結果;選擇Descriptive,輸出對所有變量的基本統計描述;選擇Part and partial correlations,輸出自變量之間的相關系數;選擇Collinearity diagnostics,輸出對自變量進行共線性診斷的統計量。
在Residus復選框中,選擇Durbin-Watson,輸出值用於判斷殘差之間是否相互獨立。選擇Casewise Diagnositics,默認在3倍標准差內來判定離群點。一般來說,95%的值在 ± 2倍標准差內,99%的值在 ± 2.5倍標准差內,可根據具體情況來進行設定。
(3)點擊Save選項
在Predicted Values復選框中選擇Unstandardized,保存模型對因變量的原始預測值,在Residuals是復選框中選擇Standardized,保存均數為0標准差為1的標准化殘差值,在Prediction Intervals復選框中選擇Individuals,設定Confidence Intervals為95%,保存個體預測值的95%可信區間。
(數據標准化:用觀察值減去該變量的均數,然后除以標准差所得,標准化后數據的均數為0,標准差為1,經標准化的數據都是沒有單位的純數量。)
(4)點擊Plot選項
在Plots對話框中將*ZRESID(標准化殘差)放入Y軸,將*ZPRED(標准化預測值)放入X軸,繪制殘差散點圖;同時選擇Histogram和Normal probability plot來繪制標准化殘差圖,考察殘差是否符合正態分布;選擇Produce all partial plots繪制每一個自變量與因變量殘差的散點圖。
(5)點擊Continue回到Linear Regression主對話框,點擊OK完成操作。