先別問那么多為什么,學就對了,到最后你自然能融會貫通,讀書百遍其義自見。
TOC
什么是EFA,這個統計方法是用來解決哪一大類問題的?
EFA的大致原理?
EFA與CFA和PCA的區別?
如何理解以下的遺傳學中的EFA的使用?
什么是EFA,這個統計方法是用來解決哪一大類問題的?
屬於因子分析(factor analysis)大類,FA又分為EFA(探索性因子分析)和CFA(驗證性因子分析)。
用途類似PCA,找出主成分,將諸多抽象繁雜的指標濃縮為少數具有代表性的評價因子。
因子分析有被稱為潛在變量模型(latent variable model)
EFA的大致原理?
假設所有的變量均由兩部分構成,一為公共因子(common factor),一為獨特因子(unique factor)。
common factor數量比n少,意味着一次濃縮降維,而unique factor的數量則等於n。
假設:
- 所有的獨特因子間互不相關
- 所有的獨特因子與所有的公共因子間也不相關
假如有三個變量X1、X2、X3,它們間的相關性分別為p1、p2、p3,我們假設這三個變量存在一個公共因子F,假設這三個變量的因子載荷量factor loading分別為λ1、λ2、λ3。那么我們可以將相關性用factor loading來表示,即 p1 = λ1 * λ2. 這里的factor loading就是變量對common factor的方差貢獻。
最后,每一個原始變量都可以表示為common factor和unique factor的線性組合(factor loading)。類似於PCA里的PC變成了common factor和unique factor。
這里再次強調,一定要深刻理解“方差貢獻”,這是許多統計學方法的基本工具!!!heritability、ANOVA、R2、協方差分析等。
基本知識回顧:
以1、2、3的vector為例,
期望計算:即所有變量和的均數,這里為2. 代表了樣本的集中度。
方差計算:即與平均數差的平方的均數,這里為1. 代表了樣本的離散程度,除以n就是為了消除樣本的數量的影響。
EFA與CFA和PCA的區別?
CFA是指已經有一些濃縮因子了,需要驗證和確定這些因子能否與樣本匹配,則需要用驗證性因子分析,進行理論推導分析。
如何理解以下的遺傳學中的EFA的使用?
Genomic Relationships, Novel Loci, and Pleiotropic Mechanisms across Eight Psychiatric Disorders
We modeled the genome-wide joint architecture of the eight neuropsychiatric disorders using an exploratory factor analysis (EFA) (Gorsuch, 1988), followed by genomic structural equation modeling (SEM) (Grotzinger et al., 2019) (STAR Methods; Figure 1C). EFA identified three correlated factors, which together explained 51% of the genetic variation in the eight neuropsychiatric disorders (Table S2.2). The first factor consisted primarily of disorders characterized by compulsive/perfectionistic behaviors, specifically AN, OCD, and, more weakly, TS. The second factor was characterized by mood and psychotic disorders (MD, BIP, and SCZ), and the third factor by three early-onset neurodevelopmental disorders (ASD, ADHD, TS) as well as MD. Similar to our EFA results, hierarchical clustering analyses also identified three sub-groups among the eight disorders (Data S1.1). Based on extensive follow-up analyses, this genetic correlational structure does not appear to be biased by sample overlap or sample size differences among the eight disorders (Data S1.2-1.4).
又多出一個必須了解的概念:Genomic Structural Equation Modelling (Genomic SEM)
待續~
參考:
第7講 探索性因子分析 - 良心課件
How To Calculate and Understand Analysis of Variance (ANOVA) F Test. - 【強烈推薦這個頻道】方差分析步驟拆解,最好自己推導一遍,了解為什么總差方=組內差方+組間差方。