http://hi.baidu.com/datasoldier/item/6689c4a50ec250dc5af1914c
http://hi.baidu.com/datasoldier/item/702c381942513f10e2f9864c
因子分析在各行各業的應用非常廣泛,尤其是科研論文中因子分析更是頻頻出現。小兵也湊個熱鬧,參考《SPSS統計分析》書中的案例,運用SPSS進行因子分析,作為我博客 SPSS案例分析系列 的第三篇文章。
【一、概念】
探討具有相關關系的變量之間,是否存在不能直接觀察到的,但對可觀測變量的變化其支配作用的潛在因素的分析方法就是因子分析,也叫因素分析。通俗點:因子分析是尋找潛在的、起支配作用因子的方法。
【二、簡單實例】
現在有 12 個地區的 5 個經濟指標調查數據(總人口、學校校齡、總雇員、專業服務、中等房價),為對這 12 個地區進行綜合評價,請確定出這 12 個地區的綜合評價指標。點擊下載
【三、解決方案】
1、spss因子分析
同一指標在不同地區是不同的,用單一某一個指標難以對12個地區進行准確的評價,單一指標智能反映地區的某一方面。所以,有必要確定綜合評價指標,便於對比。因子分析是一個不錯的選擇,5 個指標即為我們分析的對象,我們希望從這5個可觀測指標中尋找出潛在的因素,用這些具有綜合信息的因素對各地區進行評價。下圖是spss因子分析的操作界面,主要包括5方面的選項,變量區只能選擇數值型變量,分類型變量不能進入該模型。另外,spss軟件為了消除不同變量間量綱和數量級對結果的影響,在該過程中默認自動進行標准化處理,因此不需要對這些變量提前進行標准化處理。
2、描述統計選項卡
我們希望看到各變量的描述統計信息,要對比因子提取前后的方差變化,所以選定“單變量描述性”和“原始分析結果”;現在是基於相關矩陣提取因子,所以,選定相關矩陣的“系數和顯著性水平“,比較重要的還有 KMO 和球形檢驗,通過KMO值,我們可以初步判斷該數據集是否適合采用因子分析方法。比較糟糕的是,kmo結果有時並不會出現,這主要與變量個數和樣本量大小有關。
3、抽取選項卡
在該選項卡中設置如何提取因子,提取因子的方法有很多,最常用的就是主成分法。因為參與分析的變量測度單位不同,所以選擇“相關矩陣”,如果參與分析的變量測度單位相同,則考慮選用協方差矩陣。經常用到碎石圖對於判斷因子的個數很有幫助,一般都會選擇該項。關於特征值,不想解釋太多,這和顯著性水平一樣,都是統計學的一個基本概念。一般spss默認只提取特征值大於1的因子,但,我還可以通過自定義設置需要提取的因子個數。另外,收斂次數比較重要,可以從首次結果反饋的信息進行調整。
4、因子旋轉選項卡
因子分析要求對因子給予命名和解釋,對因子旋轉與否取決於因子的解釋。如果不經旋轉因子已經很好解釋,那么沒有必要旋轉,否則,應該旋轉。這里直接旋轉,便於解釋。至於旋轉就是坐標變換,使得因子系數向1 和 0 靠近,對公因子的命名和解釋更加容易。旋轉方法一般采用”最大方差法“即可,輸出旋轉后的因子矩陣和載荷圖,對於結果的解釋非常有幫助。
5、保存因子得分
要計算因子得分,就必須先寫出因子的表達式。而因子是不能直接觀察到的,是潛在的。但是可以通過可觀測到的變量獲得。前面說到,因子分析模型是原始變量為因子的線性組合,現在我們可以根據回歸的方法將模型倒過來,用原始變量也就是參與分析的變量來表示因子。從而得到因子得分。因子得分作為變量保存,對於以后深入分析很有用處。
【四、結果解釋】
1、驗證數據是否適合做因子分析
主要參考kmo結果,一般認為大於0.5,即可接受。同時還可以參考相關系數,一般認為分析變量的相關系數多數大於 0.3,則適合做因子分析;從 KMO=0.575 檢驗來看,不是特別適合因子分析,基本可以通過。這里主要是為了簡單介紹因子分析,所以,不看重這一結果。
2、因子方差表
提取因子后因子方差的值均很高,表明提取的因子能很好的描述這 5 個指標。方差分解表也表明,默認提取的前兩個因子能夠解釋 5 個指標的 93.4%。碎石圖表明,從第三個因子開始,特征值差異很小。綜合以上,提取前兩個因子。
3、因子矩陣
由旋轉因子矩陣可以看出,經旋轉后,因子便於命名和解釋。因子 1主要解釋的是中等房價、專業服務項目、中等校平均校齡,可以命名為社會福利因子;而因子 2 主要解釋的是其余兩個指標,總人口和總雇員。可以命名為人口因子。因子分析要求,最后得到的因子之間相互獨立,沒有相關性,而因子轉換矩陣顯示,兩個因子相關性較低。可見,對因子進行旋轉是完全有必要的。
4、因子系數
因子得分就是根據這個系數和標准化后的分析變量得到的。其次,在數據視圖中可以看到因子得分變量。
5、結論
經過因子分析,我們的目的實現了,找到了兩個綜合評價指標,即人口因子和福利因子。從原來的 5 個指標挖掘出 2 個潛在的綜合因子。可以對12 個地區給出客觀評價。
我們可以根據因子1或者因子2得分,對這12個地區進行從大到小排序,得分高者被認為在這個維度上有較好表現。一般上因子分析到此就已經結束了,如果想再進一步展開分析,一般可以采取兩種方式,第一是進行因子綜合得分的計算,用一個總得分對樣本進行大小排序,得分高者為佳;第二,將得到的若干因子作為新的變量,進行聚類分析,這兩種方式,均單獨有文字介紹。見以下鏈接:1綜合得分;2用於聚類分析
在上一篇文章里面提到,因子得分不是因子分析的最終結果,因子得分可以作為變量進行回歸分析、聚類分析、計算因子的綜合得分等等。因子綜合得分在因子得分的后續運用中很是重要,所以,在這里提一提。涉及的知識也是從其他地方截圖過來的,湊合着寫。
一、實例
還用上一篇文章的例子。上篇中將因子分析進行到計算出“因子得分”變量。為了進一步綜合評價12個地區,我們需要從兩個因子的總體上去把握,綜合得分可以實現,用綜合得分對12個地區進行排序、排名。
二、回顧
三、計算變量,在spss中完成公式的計算
當然,我們沒有必要把因子得分變量轉移到excel 中進行計算得出綜合得分。在SPSS 中就完全就可以實現這一步驟。用“計算變量”過程,新建一個新的變量,可以命名為“綜合得分”並輸入其計算公式。關於因子貢獻率不用說太多了。自己一看就明白的事情多說無益。
四、結果。
我們另外在新建一個變量“排名”,一次輸入1到12 。很清楚地可以對12 個地區進行評價。
五、因子分析的特殊問題(特別注意,特別提醒)