SPSS之相關分析與線性回歸模型(圖文+數據集)
在講解線性回歸模型之前,先來學習相關分析的知識點,因為相關分析與回歸有着密切的聯系
相關分析
-
任意多個變量都可以考慮相關問題,不單單局限於兩個變量,一次可以分析多個變量的相關性
-
任意測量尺度的變量都可以測量相關強度,不單單僅可以測連續與連續變量的相關性,連續變量和有序分類變量,連續變量和無序分類變量都可以測量相關性,不過衡量指標我們不常接觸而已
連續與連續變量的相關性常用術語
直線相關
兩變量呈線性共同增大
呈線性一增一減
曲線相關
兩變量存在相關趨勢
並非線性,而是呈各種可能的曲線趨勢
正相關與負相關
完全相關
相關分析對應SPSS位置(分析--相關)

雙變量過程(例子:考察信心指數值和年齡的相關性)
§進行兩個/多個變量間的參數/非參數相關分析
§如果是多個變量,則給出兩兩相關的分析結果
偏相關過程(例子:在控制家庭收入QS9對總信心指數影響的前提下,考察總信心指數值和年齡的相關性。)
§對其他變量進行控制
§輸出控制其他變量影響后的相關系數
距離過程
§對同一變量內部各觀察單位間的數值或各個不同變量間進行相似性或不相似性(距離)分析
§前者可用於檢測觀測值的接近程度
§后者則常用於考察各變量的內在聯系和結構
§一般不單獨使用,而是作為多維標度分析(multidimensional scaling ,MDS)的預分析過程
相關分析和回歸分析的關系
研究兩個變量間的緊密程度:相關分析
研究因變量隨自變量的變化:回歸分析
回歸分析概述
因變量:連續變量
自變量:通常為連續變量,也可以是其他類型
- 研究一個連續性變量(因變量)的取值隨着其它變量(自變量)的數值變化而變化的趨勢
- 通過回歸方程解釋兩變量之間的關系顯的更為精確,可以計算出自變量改變一個單位時因變量平均改變的單位數量,這是相關分析無法做到的
- 除了描述兩變量的關系以外,通過回歸方程還可以進行預測和控制,這在實際工作中尤為重要
§回歸分析假定自變量對因變量的影響強度是始終保持不變的,如公式所示:
![]()
§對於因變量的預測值可以被分解成兩部分:
§常量(constant):x取值為零時y的平均估計量,可以被看成是一個基線水平
§回歸部分:它刻畫因變量Y的取值中,由因變量Y與自變量X的線性關系所決定的部分,即可以由X直接估計的部分
§Ŷ:y的估計值(所估計的平均水平),表示給定自變量的取值時,根據公式算得的y的估計值
§a:常數項,表示自變量取值均為0時因變量的平均水平,即回歸直線在y軸上的截距(多數情況下沒有實際意義,研究者也不用關心)
§b:回歸系數,在多變量回歸(多個自變量的回歸)中也稱偏回歸系數。自變量x 改變一個單位,y估計值的改變量。即回歸直線的斜率
§估計值和每一個實測值之間的差被稱為殘差。它刻畫了因變量y除了自變量x以外的其它所有未進入該模型,或未知但可能與y有關的隨機和非隨機因素共同引起的變異,即不能由x直接估計的部分。
§為了方程可以得到估計,我們往往假定ei服從正態分布N(0,σ2),就是說相同
![]()
(大家可以發現和方差分析模型表達式幾乎一模一樣,a對應u,只不過bx是連續的,ai和bi是分類的)
![]()
線性回歸模型適用范圍
§線性趨勢
§獨立性
§樣本量
§根據經驗,記錄數應當在希望分析的自變量數的20倍以上為宜
§實質上樣本量和模型的決定系數有關,可通過迭代的方法進行計算
§正態性
§方差齊性
§如果只是探討自變量與因變量間的關系,則后兩個條件可以適當放寬
備注:由於是連續變量,不可能事先分組描述,分組檢驗,我們一般做事后殘差分析來看檢驗模型的正態性及方差齊性
線性回歸模型分析步驟
1.考察數據的分布,進行必要的預處理。即分析變量的正態性、方差齊等問題
2.進行直線回歸分析
3.殘差分析
殘差間是否獨立(Durbin-Watson檢驗)
殘差分布是否為正態(圖形或統計量)
如何進行殘差分析

圖一是正常的殘差圖
圖二殘差隨着自變量的變大而增大,證明方差不齊,我們可以使用變量轉換的方法或者加權最小二乘法(同理隨着自變量的變大而減小也是)
圖三可能是沒有把高次項或者交互項放進模型建模分析
案例
§某專門面向年輕人制作肖像的公司計划在國內再開設幾家分店,收集了目前已開設的分店的銷售數據(Y,萬元)及分店所在城市的16歲以下人數(X1,萬人)、人均可支配收入(X2,元),試進行統計分析。
§實際上擬合的模型如下:(回歸里面一般不考慮交互項,想加的話可以作為一個新變量x1*x2加進來)


數據集如下

-
17.44 6.85 1670
-
16.44 4.52 1680
-
24.42 9.13 1820
-
15.46 4.78 1630
-
18.16 4.69 1730
-
20.75 6.61 1820
-
15.28 4.95 1590
-
16.32 5.20 1720
-
14.54 4.89 1660
-
13.72 3.84 1600
-
24.19 8.79 1830
-
19.11 7.28 1710
-
23.20 8.84 1740
-
14.53 4.29 1580
-
16.11 5.25 1780
-
20.97 8.57 1840
-
14.64 4.13 1650
-
14.40 5.17 1630
-
23.26 8.96 1810
-
22.41 8.27 1910
-
16.65 5.23 1600
首先作所有自變量---因變量散點圖
作散點圖作用有三個:
1.觀察有無趨勢
2.是否是線性趨勢
3.有無強離群點
圖形----圖表構建程序

選擇散點圖

發現銷售收入--年輕人數有線性趨勢,無強離群點

同理銷售收入--人均可支配收入有線性趨勢,可能有離群點,我們最后結合殘差分析


建模(分析----回歸---線性)


結果解讀

決定系數R2(無限接近於1越好,簡單來說衡量模型可用性與模型信息量的表達)
相應的相關系數的平方,用R2表示,它反映因變量y的全部變異中能夠通過回歸關系被自變量解釋的比例

看sig.,加入sig.<0.05證明用這些因變量來預測是有價值的,但是具體哪一個變量有價值,要結合下面這張表格來看

年輕人人數、人均可支配收入sig.<0.05,證明都有意義,B就是回歸模型的偏回歸系數,標准系數就是偏回歸系數消除量綱影響進行標准化
所以我們回歸的方程為
y=-6.886+1.455*x1+0.009*x2
殘差分析
- 檢驗殘差之間的獨立性(Durbin-Watson檢驗)
分析--回歸--線性--統計量

在結果的
一般Durbin-Watson取值在[0,4]
當Durbin-Watson為2時殘差完全獨立
當1<=Durbin-Watson<=3時,沒有什么大問題
當Durbin-Watson<1 或者Durbin-Watson>3就有問題了
- 殘差分布是否為正態(圖形或統計量)
作標准化殘差圖

正態性,由於樣本量少,就不強求其正態分布了
P-P圖也是檢驗其正態性的,數據要靠近那條線越好

最重要是這張圖形 ,標准化殘差圖,我們可以從這圖看數據有無極端值,一般在[-3,3]以沒什么大問題

還有查看變量之間的相關性以及多重共線性

多重共線性(VIF>10或者條件索引>100就可能存在多重共線性)


所以分析到這里,這個案列就完成了
逐步回歸
由於剛才那個案例兩個自變量是我們定死的,一定要扔進去建模的,但是正常會有很多自變量,需要我們做變量的挑選
逐步回歸的基本思想是將變量逐個引入模型,每引入一個解釋變量后都要進行F檢驗,並對已經選入的解釋變量逐個進行t檢驗,當原來引入的解釋變量由於后面解釋變量的引入變得不再顯著時,則將其刪除。以確保每次引入新的變量之前回歸方程中只包含顯著性變量。這是一個反復的過程,直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中剔除為止。以保證最后所得到的解釋變量集是最優的。
多變量的篩選策略較穩妥的方式
- 單自變量回歸模型,篩掉那些顯然無關聯的候選變量
- 嘗試建立多自變量模型,可手動、也可利用自動篩選方法,但使用后者時要謹慎
- 多自變量和單自變量模型結果相矛盾時,以前者為准
- 結果不符合專業知識時,盡量尋找原因
案例:固體垃圾排放量與土地種類的關系
本例來自Golueke and McGauhey 1970年對美國40個城市的固體垃圾排放量(噸)的調查資料,所關心的問題是不同種類土地使用面積(單位,英畝)與固體垃圾排放量之間的關系。可能的影響因素有:indust(工業區土地面積的大小)、metals(金屬制造企業用地面積)、trucks(運輸及批發商業用地面積)、retail(零售業用地面積)、restrnts(餐館與賓館用地面積)。試作逐步回歸分析。
數據集如下
102.0 69.0 133.0 125.0 36.0 0.3574 1220.0 723.0 2616.0 953.0 132.0 1.9673 139.0 138.0 46.0 35.0 6.0 0.1862 221.0 637.0 153.0 115.0 16.0 0.3816 12.0 0.0 1.0 9.0 1.0 0.1512 1.0 50.0 3.0 25.0 2.0 0.1449 1046.0 127.0 313.0 392.0 56.0 0.4711 2032.0 44.0 409.0 540.0 98.0 0.6512 895.0 54.0 168.0 117.0 32.0 0.6624 0.0 0.0 2.0 0.0 1.0 0.3457 25.0 2.0 24.0 78.0 15.0 0.3355 97.0 12.0 91.0 135.0 24.0 0.3982 1.0 0.0 15.0 46.0 11.0 0.2044 4.0 1.0 18.0 23.0 8.0 0.2969 42.0 4.0 78.0 41.0 61.0 1.1515 87.0 162.0 599.0 11.0 3.0 0.5609 2.0 0.0 26.0 24.0 6.0 0.1104 2.0 9.0 29.0 11.0 2.0 0.0863 48.0 18.0 101.0 25.0 4.0 0.1952 131.0 126.0 387.0 6.0 0.0 0.1688 4.0 0.0 103.0 49.0 9.0 0.0786 1.0 4.0 46.0 16.0 2.0 0.0955 0.0 0.0 468.0 56.0 2.0 0.0486 7.0 0.0 52.0 37.0 5.0 0.0867 5.0 1.0 6.0 95.0 11.0 0.1403 174.0 113.0 285.0 69.0 18.0 0.3786 0.0 0.0 6.0 35.0 4.0 0.0761 233.0 153.0 682.0 404.0 85.0 0.8927 155.0 56.0 94.0 75.0 17.0 0.3621 120.0 74.0 55.0 120.0 8.0 0.1758 8983.0 37.0 236.0 77.0 38.0 0.2699 59.0 54.0 138.0 55.0 11.0 0.2762 72.0 112.0 169.0 228.0 39.0 0.324 571.0 78.0 25.0 162.0 43.0 0.3737 853.0 1002.0 1017.0 418.0 57.0 0.9114 5.0 0.0 17.0 14.0 13.0 0.2594 11.0 34.0 3.0 20.0 4.0 0.4284 258.0 1.0 33.0 48.0 13.0 0.1905 69.0 14.0 126.0 108.0 20.0 0.2341 4790.0 2046.0 3719.0 31.0 7.0 0.7759
逐步回歸建模兩種方法
- 手動自己一個一個去嘗試,一般結果非常重要,建議手動,SPSS自動化錯誤率達到30%(這里就不演示了)
- SPSS自動方法(向前法、向后法、逐步法),一般來說逐步法結合了向前法向后法是最好的(只演示逐步法)

可以看到每一個步驟

每一個步驟決定系數變化是我們最關注的,R2越大越好 ,也是我們篩選變量的標准

已排除變量這張表要講一下,說的是加入這個因變量模型會變得更加好嗎?sig.<0.05表示會
SPSS自動方法逐步法扔進變量和剔除變量的閾值是?

