探索性因子分析法 | exploratory factor analysis | EFA | Genomic Structural Equation Modelling | SEM


先別問那么多為什么,學就對了,到最后你自然能融會貫通,讀書百遍其義自見。

TOC

什么是EFA,這個統計方法是用來解決哪一大類問題的?

EFA的大致原理?

EFA與CFA和PCA的區別?

如何理解以下的遺傳學中的EFA的使用?


 

 

什么是EFA,這個統計方法是用來解決哪一大類問題的?

屬於因子分析(factor analysis)大類,FA又分為EFA(探索性因子分析)和CFA(驗證性因子分析)。

用途類似PCA,找出主成分,將諸多抽象繁雜的指標濃縮為少數具有代表性的評價因子。

因子分析有被稱為潛在變量模型(latent variable model)

 

EFA的大致原理?

假設所有的變量均由兩部分構成,一為公共因子(common factor),一為獨特因子(unique factor)。

common factor數量比n少,意味着一次濃縮降維,而unique factor的數量則等於n。

假設:

  • 所有的獨特因子間互不相關
  • 所有的獨特因子與所有的公共因子間也不相關

假如有三個變量X1、X2、X3,它們間的相關性分別為p1、p2、p3,我們假設這三個變量存在一個公共因子F,假設這三個變量的因子載荷量factor loading分別為λ1、λ2、λ3。那么我們可以將相關性用factor loading來表示,即 p1 = λ1 * λ2. 這里的factor loading就是變量對common factor的方差貢獻。

最后,每一個原始變量都可以表示為common factor和unique factor的線性組合(factor loading)。類似於PCA里的PC變成了common factor和unique factor。

這里再次強調,一定要深刻理解“方差貢獻”,這是許多統計學方法的基本工具!!!heritability、ANOVA、R2、協方差分析等。

基本知識回顧:

以1、2、3的vector為例,

期望計算:即所有變量和的均數,這里為2. 代表了樣本的集中度。

方差計算:即與平均數差的平方的均數,這里為1. 代表了樣本的離散程度,除以n就是為了消除樣本的數量的影響。

 

 

EFA與CFA和PCA的區別?

CFA是指已經有一些濃縮因子了,需要驗證和確定這些因子能否與樣本匹配,則需要用驗證性因子分析,進行理論推導分析。

 

 

如何理解以下的遺傳學中的EFA的使用?

Genomic Relationships, Novel Loci, and Pleiotropic Mechanisms across Eight Psychiatric Disorders

We modeled the genome-wide joint architecture of the eight neuropsychiatric disorders using an exploratory factor analysis (EFA) (Gorsuch, 1988), followed by genomic structural equation modeling (SEM) (Grotzinger et al., 2019) (STAR Methods; Figure 1C). EFA identified three correlated factors, which together explained 51% of the genetic variation in the eight neuropsychiatric disorders (Table S2.2). The first factor consisted primarily of disorders characterized by compulsive/perfectionistic behaviors, specifically AN, OCD, and, more weakly, TS. The second factor was characterized by mood and psychotic disorders (MD, BIP, and SCZ), and the third factor by three early-onset neurodevelopmental disorders (ASD, ADHD, TS) as well as MD. Similar to our EFA results, hierarchical clustering analyses also identified three sub-groups among the eight disorders (Data S1.1). Based on extensive follow-up analyses, this genetic correlational structure does not appear to be biased by sample overlap or sample size differences among the eight disorders (Data S1.2-1.4).

又多出一個必須了解的概念:Genomic Structural Equation Modelling (Genomic SEM)

 

待續~

 

 

參考:

探索性因子分析法 - MBA智庫

小白須知之探索性因子分析

第7講 探索性因子分析 - 良心課件

How To Calculate and Understand Analysis of Variance (ANOVA) F Test. - 【強烈推薦這個頻道】方差分析步驟拆解,最好自己推導一遍,了解為什么總差方=組內差方+組間差方。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM