因子分析和PCA
- 定義
因子分析就是數據降維工具。從一組相關變量中刪除冗余或重復,把相關的變量放在一個因子中,實在不相關的因子有可能被刪掉。用一組較小的“派生”變量表示相關變量,這個派生就是新的因子。形成彼此相對獨立的因素,就是說新的因子彼此之間正交。
- 應用
篩選變量。
- 步驟
3.1計算所有變量的相關矩陣
3.2要素提取,僅在此處需要使用PCA
3.3要素輪換
3.4就基本因素的數量作出最后決定
3.1計算所有變量的相關矩陣
構建數據矩陣,該數據矩陣是相關矩陣(矩陣里面全是相關系數),PCA之后變為因子矩陣。
絕對值大於0.3的相關系數表示可接受的相關性,即相關系數大於0.3則把它們放在一堆。
3.2要素提取,僅在此處需要使用PCA(當然也有其他方法,要素提取使用不同方法有不同結果)按照對方差的解釋程度排序。
連續分量解釋總樣本方差的逐漸變小的部分,並且所有的分量彼此不相關。
確定因子數:特征值大於1
3.3要素輪換
因素軸轉為了讓因子之間差距盡量大。
非旋轉因素通常不是很容易解釋的(比如因素1與所有變量都相關,因素二與前四個變量相關)
對因素進行旋轉,使它們更有意義,更易於解釋(每個變量都與最小數量的因素相關聯)。
不同旋轉方法會識別不同因素,這與要素提取使用不同方法有不同結果是一樣的。
3.4就基本因素的數量作出最后決定
3.4.1因子選擇的原則:
因子數>1
碎石圖判斷,斷崖前一個比后一個表示的強太多。
解釋方差比例,選擇解釋方差最多的前幾個,貢獻率大於0.5。
以學科理論為基礎,選擇找好解釋的因子
前提:
各因子和線性相關。???
對於每一對變量,數據應該有一個二元正態分布。???
觀察是獨立的。
因子分析模型假定變量由共同因素和獨特因素決定。所有獨特因素都被假定為互不相關。
- 樣本量
- 各變量之間必須有相關性(被歸納在一個因子里強相關,因子間弱相關)
=====================================
因子分析(FA)與PCA比較
在實際操作過程中,因子分析和PCA沒有區別(小方面有區別,比如因子分析有輪轉過程),但是從結果解釋的解讀來說,因子分析側重分析協方差的一面,而PCA分析側重方差的一面。
區別:
(1)因子分析需要構造因子模型,着重要求新變量具有實際的意義,能解釋原始變量間的內在結構。
(2)主成分分析僅僅是變量變換,是原始變量的線性組合表示新的綜合變量,強調新變量貢獻了多大比例的方差,不關心新變量是否有明確的實際意義。
聯系:
兩者都是降維和信息濃縮的方法。
PCA分析方差,FA分析協方差。
PCA是用最少的因素提取出盡可能多的方差。
FA是為了解釋盡可能多的關聯與最小數量的因素。
PCA給出了一個獨特的解決方案。如果保留所有主成分,則解釋所有差異。就是結果可能是:
FA1:變量A,變量B,變量C,變量D和變量E
FA2:變量A,變量B,變量C和變量D
FA3:變量A,變量B,變量C和變量E
FA可以根據方法和公共估計給出多個解。
就是說有兩機會改變最后的結果,第一次是抽取變量,第二次是輪轉。
最好的理想結果是一種變量僅歸因於一種因子。即結果是:
PCA1:變量A,變量D和變量C
PCA2:變量B和變量E
PCA與FA的區別在於FA還要旋轉以及最開始時,PCA的矩陣是特征矩陣,而FA是相關矩陣。
====================================
NMDS與MDS
PCoA是基於距離矩陣,它的排序的目的是將N個樣品排列在一定的空間,使得樣品間的空間差異與原始距離矩陣保持一致,這類排序方法也稱作多維標定排序(Multi—dimensional scaling)。如果排序依賴於相異系數的數值,就叫有度量多維標定法(metric multi—dimensional scaling)所以說PCoA分析也叫有度量多維標定法;如果排序僅僅決定於相異系數的大小順序(秩次排序),則稱為無度量多維標定法(Non—Metric Multi—Dimensional Scaling;NMDS)。
==================================================
PCA是PCoA中的一種類型,而PCoA=MDS,而NMDS是將數值大小比較變成序數1,2,3
RDA是PCA帶有環境約束的版本。PCA是一個X矩陣解釋y值,RDA是一個X矩陣解釋Y矩陣。
FA是PCA的同樣操作的不同解釋的結果。
CCA是CA的帶有環境約束的版本,DCA是CA稍作修飾的版本。
CA是一個X矩陣解釋y值,同時一個Y矩陣解釋x值;而CCA是一個X矩陣解釋Y矩陣,同時一個Y矩陣解釋x矩陣,即X矩陣與Y矩陣相互解釋。
====================================
非約束排序和約束排序排序區別
非約束排序也叫間接梯度分析,沒有環境變量的,自己創造隱含的變量。
約束排序也叫直接梯度分析,有環境變量的。
非約束排序也叫間接梯度分析(unconstrained ordination or indirect gradient analysis)的目標就是發現這樣的坐標軸,讓群落中的樣方或是物種的最大變化量能夠在坐標軸上體現出來。換句話說,讓盡可能多的變化量能夠在盡可能少的軸上展示出來,並且讓樣方或物種在排序圖能夠可視化展示出來。當然,我們會經常期望這些軸能夠代表一些潛在的環境變量。而約束排序(constrained ordination)的目的就是發現物種在環境梯度上的變化情況。說白了非約束排序不需要輸入環境變量信息(如 PH,濕度,溫度等),而約束排序需要環境信息,對排序圖進行約束。典型的非約束排序有PCA,PCoA,NMDS,CA分析等,約束排序典型例子有RDA CCA等分析;其中RDA就是PCA的約束排序版本,CCA是CA分析對應的約束排序分析方法。
=========================================================
線性模型和單峰模型
所有排序方法都是基於一定的模型之上,這種模型反映物種和環境之間的關系以及在某一環境梯度上的種間關系。最常用的關系模型有兩種:一種是線形模型(linear model),另一種是單峰模型(unimodal model)。線形模型的含義表示某個植物種隨着某一環境因子的變化而呈線性變化或叫線性響應(linear response)。單峰模型的含義是某個植物種的個體數隨某個環境因子值的增加而增加。當環境因子增加到某一值時,植物種的個體數達到最大值,此時的環境因子值稱為該種的最適值(optimum);隨后當環境因子值繼續增加時,種的個體數逐漸下降。為了簡化單峰模型,我們經常假設單峰曲線以峰值為中心,兩邊是對稱的。
其中,紅色線代表選擇的梯度長度,黃色線表示如果此時選擇線性模型時的情況。可知,在跨越比較短的環境梯度情況下,選擇線性模型,比較長就不要使用線性模型了,使用單峰模型比較好。CA與CCA適用於單峰模型,因為以CA中X與Y的關系平等,所以可還原為正態分布解釋正態分布,而PCA中只能由X解釋y,所以只是正態分布解釋單值,是線性關系。(推測)
自己判斷環境變化還是太主觀,我們可以通過DCA分析來判斷,如果DCA排序前4個軸中最大值超過4,選擇單峰模型排序更合適。如果是小於3,則選擇線性模型更好(Lepx & Smilauer 2003)。如果介於3-4之間,單峰模型和線性模型都可行。
============================================