一、主成分分析概述:
- 是否可以用較少的幾個相互獨立的指標代替原來的多個指標,使其既能減少指標個數,又能綜合反映其原指標的信息?主成分分析結解決這個問題。
- 有些變量不能或不易直接觀察,他們只能通過其他多個可觀察指標來間接反映。
- 主成分分析:基本思想降維,將多個相互關聯的數值指標轉化為少數幾個互不相關的綜合指標,綜合后的指標就是原來多指標的主要成分。
- 舉例:兩個指標x1(年齡)和x2(身高),x1和x2呈線性正相關,將該直線作為新坐標系的橫軸z1,取一條與z1垂直的縱軸z2。在新坐標系中,n個點不再呈線性相關,即z1和z2兩個新變量互相獨立,且變異主要集中在z1方向,說明z1的方差較大,z2的方差較小。如果此時要研究n個兒童年齡與身高,只需要考慮z1這個變量即可。
- 我們稱z1為第一主成分,z2為第二主成分。
- 主成分個數的選取:
- 前k個主成分的累積貢獻率達到某一特定值(一般采用70%)
- 特征根>=1
結果分析:
- 各指標間的相關矩陣
- 公因子方差:初始值為1,提取里有0說明是特殊因素
- 解釋的總方差:選取主成分個數
- 成分矩陣:根據0.5原則,大於0.5的作為主成分包含的內容
- 成分得分系數矩陣:將所有的主成分標示為各個變量的線性組合。
- 主成分得分計算公式:z=Σscorei*stdxi ;stdxi=(xi-μ)/σ ;scorei-成分得分系數,stdxi-標准指標變量,μ-均值,σ-標准差
二、因子分析概述:
- 有些變量不能或不易直接觀察,他們只能通過其他多個可觀察指標來間接反映。例如:醫院醫療工作質量不易直接觀察,但可以通過門診人次、出院人數、診斷符合率、治愈率、病死率等一些可觀測指標來反映醫院醫療工作質量這個潛在變量。
- 通常,多變量之間具有相關性,其產生的原因可能是潛在的因素對觀察的變量起支配作用,如何找出這些潛在的因素?這些潛在因素是如何對原始指標起支配作用?因子分析解決這個問題。
- 因子分析:一種尋找潛在支配因子的模型分析方法,作用是分析可觀察到的原始多個變量,找出數目相對較少的,對原始變量有潛在支配作用的因子。找出共性因子變量,估計因子模型,計算共性因子變量的取值和對共性因子變量做出合理的解釋。
- 因子分析分為兩類:探索性因子分析,確定性因子分析。
- 探索性因子分析(簡稱因子分析):應用在數據分析初期階段,目的是探究原可測變量的特征、性質及其內部的關聯性,揭示哪些主要的潛在因子可能影響這些可測變量。分析的結果一般不需要進行統計檢驗,可建立理論變量。
- 確定性因子分析:在探索性因子分析的基礎上進行的,進一步明確每個潛在因子對可測變量的影響程度和關聯程度,該分析不要求找出潛在因子之間相互獨立,目的是明確潛在因子之間關聯性。分析結果需要統計校驗。
結果分析:
- 主成分信息,取特征值大於1的,如果大於1的累計貢獻率過低,也可以選取特征值小於1的。這里可看出,約82.488%的總方差可以由2個潛在因子解釋。
- 累計貢獻率達到85%
| 解釋的總方差 |
|||||||||
| 成份 |
初始特征值 |
提取平方和載入 |
旋轉平方和載入 |
||||||
| 合計 |
方差的 % |
累積 % |
合計 |
方差的 % |
累積 % |
合計 |
方差的 % |
累積 % |
|
| 1 |
2.731 |
45.520 |
45.520 |
2.731 |
45.520 |
45.520 |
2.688 |
44.802 |
44.802 |
| 2 |
2.218 |
36.969 |
82.488 |
2.218 |
36.969 |
82.488 |
2.261 |
37.687 |
82.488 |
| 3 |
.442 |
7.360 |
89.848 |
|
|
|
|
|
|
| 4 |
.341 |
5.688 |
95.536 |
|
|
|
|
|
|
| 5 |
.183 |
3.044 |
98.580 |
|
|
|
|
|
|
| 6 |
.085 |
1.420 |
100.000 |
|
|
|
|
|
|
| 提取方法:主成份分析。 |
|||||||||
- 公因子方差比
- 旋轉后的因子矩陣:比旋轉前的因子起到了明顯的分離作用,使各因子具有較明確的專業意義。
三、主成分分析和因子分析異同:
- 兩者都是在多個原始變量中通過它們之間的內部相關性獲得新的變量(主成分變量或公因子變量),達到既能減少分析指標個數,又能概況原始指標主要信息的目的。
- 主成分數學模型為z=Bx,因子分析數學模型為z=Bx+e,既原始變量z為公因子x與特殊因子e的線性組合;
- 主成分分析主要是綜合原始變量的信息,實質上是線性變換,無假設檢驗;因子分析重在解釋原始變量之間的關系,是統計模型。
- 兩者SPSS操作一樣,因子分析需要選擇“旋轉”。
