實驗目的
學會使用SPSS的簡單操作,掌握主成分與因子分析。
實驗要求
使用SPSS。
實驗內容
實驗步驟
(1)主成分分析,分析示例——對30個省市自治區經濟基本情況的八項指標進行分析,詳情見factorl.sav文件。SPSS操作,點擊【分析】→【降維】→【因子】,在打開的【因子分析】對話框中,把x1~x8都選入【變量】中,點擊【描述】,勾選【系數】,點擊【繼續】,單擊【確定】。
SPSS在調用因子分析的過程中,首先會對原始變量進行標准化,因此以后的輸出結果中通常情況下都是指標准化后的變量。在結果輸出中會涉及一些因子分析的內容,因此這里只給出與主成分分析有關的部分如下:
相關性矩陣 |
|||||||||
|
GDP |
居民消費水平 |
固定資產投資 |
職工平均工資 |
貨物周轉量 |
居民消費價格指數 |
商品價格指數 |
工業總產值 |
|
相關性 |
GDP |
1.000 |
.267 |
.951 |
.187 |
.617 |
-.273 |
-.264 |
.874 |
居民消費水平 |
.267 |
1.000 |
.426 |
.716 |
-.151 |
-.235 |
-.593 |
.363 |
|
固定資產投資 |
.951 |
.426 |
1.000 |
.396 |
.431 |
-.280 |
-.359 |
.792 |
|
職工平均工資 |
.187 |
.716 |
.396 |
1.000 |
-.357 |
-.145 |
-.543 |
.099 |
|
貨物周轉量 |
.617 |
-.151 |
.431 |
-.357 |
1.000 |
-.253 |
.022 |
.659 |
|
居民消費價格指數 |
-.273 |
-.235 |
-.280 |
-.145 |
-.253 |
1.000 |
.763 |
-.125 |
|
商品價格指數 |
-.264 |
-.593 |
-.359 |
-.543 |
.022 |
.763 |
1.000 |
-.192 |
|
工業總產值 |
.874 |
.363 |
.792 |
.099 |
.659 |
-.125 |
-.192 |
1.000 |
上表為8個原始變量之間的相關系數矩陣,可見許多變量之間直接的相關性比較強,的確存在信息上的重疊。
總方差解釋 |
||||||
成分 |
初始特征值 |
提取載荷平方和 |
||||
總計 |
方差百分比 |
累積 % |
總計 |
方差百分比 |
累積 % |
|
1 |
3.754 |
46.924 |
46.924 |
3.754 |
46.924 |
46.924 |
2 |
2.203 |
27.532 |
74.456 |
2.203 |
27.532 |
74.456 |
3 |
1.208 |
15.096 |
89.551 |
1.208 |
15.096 |
89.551 |
4 |
.403 |
5.042 |
94.593 |
|
|
|
5 |
.214 |
2.673 |
97.266 |
|
|
|
6 |
.138 |
1.722 |
98.988 |
|
|
|
7 |
.066 |
.829 |
99.817 |
|
|
|
8 |
.015 |
.183 |
100.000 |
|
|
|
提取方法:主成分分析法。 |
上表給出的是各成分的方差貢獻率,由此可知,只有前3個特征根大於1,因此SPSS只提取了前3個主成分。前3個主成分的方差貢獻率達到89.515%,因此選前3個主成分已足夠描述經濟發展的水平。
成分矩陣a |
|||
|
成分 |
||
1 |
2 |
3 |
|
GDP |
.884 |
.385 |
.120 |
居民消費水平 |
.606 |
-.596 |
.277 |
固定資產投資 |
.911 |
.163 |
.213 |
職工平均工資 |
.465 |
-.725 |
.362 |
貨物周轉量 |
.486 |
.737 |
-.279 |
居民消費價格指數 |
-.510 |
.257 |
.794 |
商品價格指數 |
-.621 |
.596 |
.433 |
工業總產值 |
.822 |
.429 |
.210 |
提取方法:主成分分析法。 |
|||
a. 提取了 3 個成分。 |
上表為主成分系數矩陣,可以說明各主成分在各變量上的載荷,從而得出各主成分的表達式,注意表達式中各變量已經不是原始變量,而是標准化變量。
由於各自變量已經標准化了,因此以上3個主成分的均數均為0。在第1主成分的表達式中,X1,X2,X3,X8的系數較大,可以看成是反映GDP、固定資產投資、居民消費水平和工業總產值的綜合指標。在第2主成分中,X4和X5的系數較大,可以看成反映的是職工平均工資和貨物周轉量的綜合指標。在第3主成分中,X6的系數較大,可以看成反映居民消費價格指數方面的綜合指標。
代碼:

1 FACTOR 2 /VARIABLES x1 x2 x3 x4 x5 x6 x7 x8 3 /MISSING LISTWISE 4 /ANALYSIS x1 x2 x3 x4 x5 x6 x7 x8 5 /PRINT INITIAL SIG EXTRACTION ROTATION 6 /CRITERIA MINEIGEN(1) ITERATE(25) 7 /EXTRACTION PC 8 /CRITERIA ITERATE(25) 9 /ROTATION VARIMAX 10 /METHOD=CORRELATION.
(2)因子分析,在前面已經對全國30個省市自治區的經濟發展狀況進行了主成分分析,最終結果並不是十分明確,現在采用因子分析法進行分析。SPSS操作如下,【分析】→【降維】→【因子】,在打開的【因子分析】的對話框中,把x1~x8選入變量。打開【描述】子對話框,勾選【KMO和巴特利特球形度檢驗】→【繼續】。打開【提取】,勾選【碎石圖】→【繼續】。打開【得分】,勾選【顯示因子得分矩陣】→【繼續】。單擊【確定】。
KOM和球形Bartlett檢驗用於因子分析到適用性檢驗,KOM檢驗變量間的偏相關是否較小,Bartlett球形檢驗是判斷相關陣是否是單位陣。
KMO 和巴特利特檢驗 |
||
KMO 取樣適切性量數。 |
.620 |
|
巴特利特球形度檢驗 |
近似卡方 |
231.285 |
自由度 |
28 |
|
顯著性 |
.000 |
由Bartlett檢驗可以看出,應拒絕各變量獨立的假設,即變量間具有較強的相關性。但是KOM統計量為0.620小於0.7,說明各變量間信息的重疊程度不是很高,有可能做出的因子分析模型不是很完善,但還是值得嘗試。
公因子方差 |
||
|
初始 |
提取 |
GDP |
1.000 |
.945 |
居民消費水平 |
1.000 |
.799 |
固定資產投資 |
1.000 |
.902 |
職工平均工資 |
1.000 |
.873 |
貨物周轉量 |
1.000 |
.857 |
居民消費價格指數 |
1.000 |
.957 |
商品價格指數 |
1.000 |
.928 |
工業總產值 |
1.000 |
.904 |
提取方法:主成分分析法。 |
幾乎所有變量共同度都在80%以上,因此提取出的這幾個公因子對各變量到解釋能力是較強的。
碎石圖用於顯示各因子的重要程度,它將因子按特征根從大到小排列。前3個因子的散點位於陡坡上,而后5個因子散點形成了平台,且特征根均小於1,因此最多考慮前3個公因子即可。
成分矩陣a |
|||
|
成分 |
||
1 |
2 |
3 |
|
GDP |
.884 |
.385 |
.120 |
居民消費水平 |
.606 |
-.596 |
.277 |
固定資產投資 |
.911 |
.163 |
.213 |
職工平均工資 |
.465 |
-.725 |
.362 |
貨物周轉量 |
.486 |
.737 |
-.279 |
居民消費價格指數 |
-.510 |
.257 |
.794 |
商品價格指數 |
-.621 |
.596 |
.433 |
工業總產值 |
.822 |
.429 |
.210 |
提取方法:主成分分析法。 |
|||
a. 提取了 3 個成分。 |
在(1)用作各主成分系數。
總方差解釋 |
|||||||||
成分 |
初始特征值 |
提取載荷平方和 |
旋轉載荷平方和 |
||||||
總計 |
方差百分比 |
累積 % |
總計 |
方差百分比 |
累積 % |
總計 |
方差百分比 |
累積 % |
|
1 |
3.754 |
46.924 |
46.924 |
3.754 |
46.924 |
46.924 |
3.207 |
40.092 |
40.092 |
2 |
2.203 |
27.532 |
74.456 |
2.203 |
27.532 |
74.456 |
2.217 |
27.708 |
67.800 |
3 |
1.208 |
15.096 |
89.551 |
1.208 |
15.096 |
89.551 |
1.740 |
21.752 |
89.551 |
4 |
.403 |
5.042 |
94.593 |
|
|
|
|
|
|
5 |
.214 |
2.673 |
97.266 |
|
|
|
|
|
|
6 |
.138 |
1.722 |
98.988 |
|
|
|
|
|
|
7 |
.066 |
.829 |
99.817 |
|
|
|
|
|
|
8 |
.015 |
.183 |
100.000 |
|
|
|
|
|
|
提取方法:主成分分析法。 |
前3個因子的方差貢獻率仍為89.55%,和旋轉前完全相同,因此選前3個因子足夠描述經濟發展的水平。
成分得分系數矩陣 |
|||
|
成分 |
||
1 |
2 |
3 |
|
GDP |
.306 |
.011 |
.047 |
居民消費水平 |
.025 |
.387 |
.040 |
固定資產投資 |
.270 |
.129 |
.075 |
職工平均工資 |
-.025 |
.451 |
.096 |
貨物周轉量 |
.248 |
-.319 |
-.139 |
居民消費價格指數 |
.070 |
.180 |
.653 |
商品價格指數 |
.077 |
-.098 |
.462 |
工業總產值 |
.317 |
.026 |
.123 |
提取方法:主成分分析法。 旋轉方法:凱撒正態化最大方差法。 |
寫出各公因子的表達式,

1 FACTOR 2 /VARIABLES x1 x2 x3 x4 x5 x6 x7 x8 3 /MISSING LISTWISE 4 /ANALYSIS x1 x2 x3 x4 x5 x6 x7 x8 5 /PRINT INITIAL KMO EXTRACTION ROTATION FSCORE 6 /PLOT EIGEN 7 /CRITERIA MINEIGEN(1) ITERATE(25) 8 /EXTRACTION PC 9 /CRITERIA ITERATE(25) 10 /ROTATION VARIMAX 11 /METHOD=CORRELATION.
小結
當特殊因子變差貢獻率為0時,主成分分析和因子分析完全等價。因此當因子模型成立,而且當因子模型成立,而且特殊因子變差貢獻很小時,可以期待二者得到相同結果,而當特殊因子貢獻較大時,因子分析把公因子和特殊因子嚴格區分開,而主成分分析則把這些因子不加區別地混在一起作為主成分保留或舍棄,此時二者在結果上存在明顯不同。
如果不需要仔細研究變量的內部結構,只需要進行綜合評價,使用主成分顯然更加簡單,同時不需要考慮數據陣的結構形式問題。如果要考察變量的內部結構,則因子分析法顯然更合適,通過因子旋轉可以得到的公因子更容易解釋。同時,因子分析在進行綜合評價時,可以通過適用性檢驗檢驗變量組的設置是否合理。