一、為什么要做祖先成分的PCA?
GWAS研究時經常碰到群體分層的現象,即該群體的祖先來源多樣性,我們知道的,不同群體SNP頻率不一樣,導致后面做關聯分析的時候可能出現假陽性位點(不一定是顯著信號位點與該表型有關,可能是與群體SNP頻率差異有關),因此我們需要在關聯分析前對該群體做PCA分析,隨后將PCA結果作為協變量加入關聯分析中。
二、怎么做PCA?
首先prune一下
plink --bfile file --indep-pairwise 50 5 0.2 --out file
生成file.prune.in文件之后,再簡單加一個“--pca”參數即可
plink --bfile file --extract file.prune.in --pca 10 --out myfile_pca #這里只取前10個PCA結果,如果想取其他數值,請自行設置
跑完以后,會生成三個文件,分別是myfile_pca.eigenval,myfile_pca.eigenvec,myfile_pca.log。
其中,myfile_pca.eigenvec即為我們所需的PCA文件,大概長得如下:
FID_1 IID_1 0.00126761 0.00331304 -0.0105174 0.000679466 -0.0179362 0.00672081 0.000979499 -0.00752795 0.00626333 -0.00849531
FID_1 IID_2 -0.000272769 -0.00328075 -0.00380584 -0.00787082 0.00896386 -0.00325664 0.00241414 0.00612508 -0.000788917 -0.00188887
三、生成的PCA結果怎么用?
這個相當簡單,直接把這堆數值加入covar文件中,只有控制了這些祖先成分的變量,才能最大限度的找到真實的信號。
感謝杜思源師弟提醒pca之前prune一下。