搞GWAS和WGS必須要懂Association Test,就像搞genomics必須要懂比對alignment一樣。
先從常識理解,Association關聯,是一個比correlation還要寬泛的詞,我們通常會說某個基因和某個疾病關聯,即存在某種關系。
深入本質,在GWAS里的關聯其實是human個體的某兩個屬性之間的關系。
最簡單的,計算基因表達矩陣的某兩個基因之間的相關性,這種相關性也是某種關聯Association。
特別地,對genetics中的GWAS和WGS,我們探尋的是某個variant與疾病的Association。
variant也可以升級為gene等復雜體,但本質是不變得,理解了最基本的variant與疾病的Association的原理,后面基本就都理解了,只是fancy model的讀懂需要一定的時間。
Association Tests - 女士品茶部分問題表述不清,不可盲信。
有三種檢驗可以用:
- Fisher’s exact test - 小樣本
- Chi-square Test - 類別型數據
- generalized linear models - 求CI
前兩個檢驗的核心:假設數據是隨機分布的,我們觀測值出現的概率
最后線性模型的核心:回歸的方法
更fancy的model,待續~
經典模型遇到哪些問題?有哪些新的處理辦法?
參考:
A Fast Association Test for Identifying Pathogenic Variants Involved in Rare Diseases
Adaptive Combination of P-values (ADA) Algorithm for Case-Control Sequence Data - ADA
http://www.columbia.edu/~ii2135/ - BE_HM
BeviMed: Bayesian Evaluation of Variant Involvement in Mendelian Disease - BeviMed
SKAT: SNP-Set (Sequence) Kernel Association Test - SKAT
