主成分和因子分析原理及比較


一、主成分分析原理

      主成分分析試圖在力保數據信息丟失最少的原則下,對多個變量進行最佳綜合簡化,即對高維變量空間進行降維處理。

      假設原來有p個變量(或稱指標),通常的做法是將原來p個變量(指標)作線性組合,以此新的綜合變量(指標)代替原來p個指標進行統計分析。如果將選取的第一個線性組合,即第一個綜合變量(指標),記為F1,則自然希望F1盡可能多地反映原有變量(指標)的信息。

    如何衡量信息的含量,經典的做法就是采用“方差”來表示。F1的方差越大,F1所包含的信息就越多。這樣,F1的選取方法是,在所有的原來p個變量(指標)的線性組合中,選取方差最大的線性組合作為F1,稱為第一主成分。如第一主成分不足於代表原來p個變量(指標)的信息,則考慮選取第二主成分F2。為有效反映原信息,F1已有的信息不需要再現在F2中,即要求F1與F2的協方差為零,即Cov(F1, F2)=0。依此下去,我們可以構造出第三、第四、…、第p個主成分。在主成分之間,不僅不相關,而且方差依次遞減。在實際經濟工作中,我們往往選取前面幾個較大的主成分。雖然損失一部分信息,但我們抓住了原來p個變量的大部分信息(一般要求超過85%),分析的結果應該是可靠的、可信的。

主成分的基本思想:

 

 

 

     對所選主成分作經濟解釋:

     主成分分析的關鍵在於能否給主成分賦予新的意義,給出合理的解釋,這個解釋應根據主成分的計算結果結合定性分析來進行。

     主成分是原來變量的線性組合,在這個線性組合中,各變量的系數有大有小,有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量的屬性的作用。

     線性組合中個變量的系數的絕對值大者表明該主成分主要綜合了絕對值大的變量,有幾個變量系數大小相當時,應認為這一主成分是這幾個變量的總和,這幾個變量綜合在一起應賦予怎樣的經濟意義,要結合經濟專業知識,給出恰如其分的解釋,才能達到深刻分析經濟成因的目的。

二、因子分析原理

     因子分析是將多個實測變量轉換為少數幾個不相關的綜合指標的多元統計方法。它通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,並用少數幾個假想變量來表示其基本的數據結構。假想變量是不可觀測的潛在變量,稱為因子。

     假定這p個有相關關系的隨機變量含有m個彼此獨立的因子,可表示為

 

 或用矩陣表示為 X=AF+ε

     F1, F2, …, Fm 稱為公共因子,是不可觀測的變量,它們的系數稱為因子載荷,A稱為因子載荷矩陣。ε是特殊因子,是不能包含在公共因子的部分。

    需要滿足:

     m≤ p,即公共因子數不超過原變量個數

     公共因子之間互不相關,且每個Fi方差為1,即F的協方差矩陣為I

     公共因子和特殊因子之間彼此互不相關,即Cov(F,ε)=0

     特殊因子之間彼此互不相關,但方差不一定相同,記εI的方差為。理想的情況是,對於每個原始變量而言,其在因子載荷矩陣中,在一個公共因子上的載荷較大,在其他的因子上載荷較小。可以通過因子旋轉方法調整因子載荷矩陣。

三、成分分析和因子分析的區別

1,因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成各個變量的線性組合。主成分分析僅僅是變量變換:用原始變量的線性組合表示新的綜合變量,即主成分。因子分析需要構造因子模型:用潛在的假想變量和隨機影響變量的線性組合表示原始變量。因子模型估計出來后,需要對所得的公共因子進行解釋。

2,主成分分析的重點在於解釋個變量的總方差,而因子分析則把重點放在解釋各變量之 間的協方差。

3主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。

4主成分分析中,當給定的協方差矩陣或者相關矩陣的特征值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不到的因子。

5,在因子分析中,因子個數需要分析者指定(spss)根據一定的條件自動設定,只要是特征值大於1的因子進入分析),而指 定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分。

 

     和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且借助旋轉技術幫助更好解釋。而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這種區分不是絕對的。

      總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前 ,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用(我覺得不一定,可以單獨用):a,了解數據。(screening the data),b,和cluster analysis一 起使用,c,和判別分析一起使用,比如當變量很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變量簡化。(reduce dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。

在算法上,主成分分析和因子分析很類似,不過,在因子分析中所采用的協方差矩陣的對角元素不再是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM