14--因子分析

本文轉載自查看原文 2021-08-13 16:30 311 R語言/ 14--因子分析

因子分析

探索性因子分析（EFA）是一系列用來發現一組變量的潛在結構的方法。它通過尋找一組更小的、潛在的或隱藏的結構來解釋已觀測到的、顯式的變量間的關系。例如，Harman74.cor包含了24個心理測驗間的相互關系，受試對象為145個七年級或八年級的學生。假使應用EFA來探索該數據，結果表明276個測驗間的相互關系可用四個學生能力的潛在因子（語言能力、反應速度、推理能力和記憶能力）來進行解釋。

1 探索性因子分析

EFA的目標是通過發掘隱藏在數據下的一組較少的、更為基本的無法觀測的變量，來解釋一

組可觀測變量的相關性。這些虛擬的、無法觀測的變量稱作因子。（每個因子被認為可解釋多個觀測變量間共有的方差，因此准確來說，它們應該稱作公共因子。）

雖然PCA和EFA存在差異，但是它們的許多分析步驟都是相似的。為闡述EFA的分析過程，

我們用它來對六個心理學測驗間的相關性進行分析。112個人參與了六個測驗，包括非語言的普通智力測驗（general）、畫圖測驗（picture）、積木圖案測驗（blocks）、迷宮測驗（maze）、閱讀測驗（reading）和詞匯測驗（vocab）。我們如何用一組較少的、潛在的心理學因素來解釋參與者的測驗得分呢？

數據集ability.cov提供了變量的協方差矩陣，你可用cov2cor()函數將其轉化為相關系數矩陣。

options(digits=2) #設置小數點后保留兩位小數

covariances <- ability.cov$cov #獲取協方差矩陣

correlations <- cov2cor(covariances) #將協方差矩陣轉化為相關系數矩陣

correlations

與使用PCA相同，下一步工作為判斷需要提取幾個因子。

1.1 判斷需提取的公共因子數

用fa.parallel()函數可判斷需提取的因子數：

library(psych)

covariances <- ability.cov$cov

correlations <- cov2cor(covariances)

fa.parallel(correlations, n.obs=112, fa="both", n.iter=100,

main="Scree plots with parallel analysis")

#n.obs=0意味着是一個數據矩陣/數據框。否則，用多少個案例來尋找相關性。fa="both"，因子圖形將會同時展示主成分和公共因子分析的結果。n.iter是要進行的模擬分析的數量

結果分析：圖中同時展示了PCA和EFA的結果。PCA結果建議提取一個或者兩個成分，EFA建議提取兩個因子。如果使用PCA方法，你可能會選擇一個成分（碎石檢驗和平行分析）或者兩個成分（特征值大於1）。當搖擺不定時，高估因子數通常比低估因子數的結果好，因為高估因子數一般較少曲解“真實”情況。觀察EFA的結果，顯然需提取兩個因子。碎石檢驗的前兩個特征值（三角形）都在拐角處之上，並且大於基於100次模擬數據矩陣的特征值均值。

1.2 提取公共因子

現在你決定提取兩個因子，可以使用fa()函數獲得相應的結果。fa()函數的格式如下：

fa(r, nfactors=, n.obs=, rotate=, scores=, fm=)

其中：

q r是相關系數矩陣或者原始數據矩陣；

q nfactors設定提取的因子數（默認為1）；

q n.obs是觀測數（輸入相關系數矩陣時需要填寫）；

q rotate設定旋轉的方法（默認互變異數最小法）；

q scores設定是否計算因子得分（默認不計算）；

q fm設定因子化方法（默認極小殘差法）。

與PCA不同，提取公共因子的方法很多，包括最大似然法（ml）、主軸迭代法（pa）、加權最小二乘法（wls）、廣義加權最小二乘法（gls）和最小殘差法（minres）。統計學家青睞使用最大似然法，因為它有良好的統計性質。不過有時候最大似然法不會收斂，此時使用主軸迭代法效果會很好。

本例使用主軸迭代法（fm="pa"）提取未旋轉的因子。代碼如下：

fa <- fa(correlations, nfactors=2, rotate="none", fm="pa")

結果分析：可以看到，兩個因子解釋了六個心理學測驗60%的方差。不過因子載荷陣的意義並不太好解釋，此時使用因子旋轉將有助於因子的解釋。

1.3 因子旋轉

你可以使用正交旋轉或者斜交旋轉來旋轉上節中兩個因子的結果：

（1）用正交旋轉提取因子

fa.varimax <- fa(correlations, nfactors=2, rotate="varimax", fm="pa")

fa.varimax

結果分析：結果顯示因子變得更好解釋了。閱讀reading和詞匯vocab在第一因子上載荷較大，畫圖picture、積木圖案blocks和迷宮maze在第二因子上載荷較大，非語言的普通智力測量在兩個因子上載荷較為平均，這表明存在一個語言智力因子和一個非語言智力因子。h2欄指成分公因子方差，即主成分對每個變量的方差解釋度。u2欄指成分唯一性，即方差無法被主成分解釋的比例（1–h2）

（2）用斜交旋轉提取因子

使用正交旋轉將人為地強制兩個因子不相關。如果想允許兩個因子相關該怎么辦呢？此時可以使用斜交轉軸法，比如promax。

fa.promax <- fa(correlations, nfactors=2, rotate="promax", fm="pa")

錯誤：Loading required namespace: GPArotationFailed with error: ‘there is no package called ‘GPArotation’’Error in kaiser(loadings, rotate = "Promax", ...) :