一、主成分分析的幾何意義(降維):
假定數據點是六維的;也就是說,每個觀測值是 6 維空間中的一個點。我們希望把 6 維空間用低維空間表示。
先假定只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應於這兩個坐標軸的兩個坐標值;如果這些數據形成一個橢圓形狀的點陣(這在變量的二維正態的假定下是可能的),那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數據變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。
當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數據的主要變化,而代表短軸的變量就描述了數據的次要變化。但是,坐標軸通常並不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,並進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數據包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。
對於多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。
首先把高維橢球的主軸找出來,再用代表大多數數據信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。
注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分 (principal component) 。
正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。
選擇越少的主成分,降維就越好。什么是標准呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約 85% 即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。
二、因子分析的數學模型
- 模型(R型)
設為觀察到的隨機向量,
是不可觀測的向量。
有
即
其中稱作誤差或特殊因子。
滿足假設:
1)
2),
3),
。
稱為第
個公共因子,
為因子載荷。
- 公共因子:因子載荷和變量共同度的統計意義。
假定因子模型中,所有變量和因子都已標准化。
(1)因子載荷的統計意義
設
則 由於
,
不相關,且
即
因子載荷
是第i個變量與第j個公共因子的相關系數。
(2)公共因子的方差貢獻的統計意義
因子載荷矩陣中列的平方和。
稱為公共因子對的貢獻,是衡量公共因子相對重要性的指標。
三、計算因子載荷
最小二乘法
四、因子旋轉
建立因子分析數學模型的目的不僅是為了找出公共因子,更重要的是要知道每個公共因子的意義,以便對實際問題進行分析。如果每個公共因子的涵義不清,不便於對實際背景進行解釋,這時根據因子載荷陣的不唯一性,可對因子載荷陣實行旋轉,即用一個正交陣右乘使旋轉后的因子載荷陣結構簡化,便於對公共因子進行解釋。所謂結構簡化就是使每個變量僅在一個公共因子上有較大的載荷,而在其余公共因子上的載荷比較小。這種變換因子載荷的方法稱為因子旋轉。
因子旋轉有方差最大正交旋轉和斜交旋轉,此處只介紹方差最大正交旋轉。
先考慮兩個因子的平面正交旋轉,設因子載荷矩陣為:
,
,
為正交矩陣。
記
(*)
這樣做目的是希望所得結果能使載荷矩陣的每一列元素按其平方值說或者盡可能大或者盡可能小,即向1和0兩極分化,或者說因子的貢獻越分散越好。這實際上是希望將變量分成兩部分,一部分主要與第一因子有關,另一部分主要與第二因子有關,這也就是要求
這兩組數據的方差要盡可能地大,考慮各列的相對方差
這里取是為了消除符號不同的影響,除以
是為了消除各個變量對公共因子依賴程度不同的影響。現在要求總的方差達到最大,即要求使
達到最大值,於是考慮
對
的導數,求出最大值。
如果公共因子多於2個,我們可以逐次對每2個進行上述的旋轉,當公共因子數時,可以每次取2個,全部配對旋轉,旋轉時總是對
陣中第
列、
列兩列進行,此時公式(*)中只需將
,
就行了。因此共需進行次旋轉,但是旋轉完畢后,並不能認為就已經達到目的,還可以重新開始,進行第二輪
次配對旋轉。依次進行,可以是總的方差越來越大,直到收斂到某一極限。
五、主成分分析和因子分析區別
1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變量的線性組合。
2、主成分分析的重點在於解釋各變量的總方差,而因子分析則把重點放在解釋各變量之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特征值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特征值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且借助旋轉技術幫助更好解釋。而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區分不是絕對的。
在算法上,主成分分析和因子分析很類似,不過,在因子分析中所采用的協方差矩陣的對角元素不在是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)。