GWAS群體分層 (Population stratification):利用plink對基因型進行PCA


一、為什么要做祖先成分的PCA?

GWAS研究時經常碰到群體分層的現象,即該群體的祖先來源多樣性,我們知道的,不同群體SNP頻率不一樣,導致后面做關聯分析的時候可能出現假陽性位點(不一定是顯著信號位點與該表型有關,可能是與群體SNP頻率差異有關),因此我們需要在關聯分析前對該群體做PCA分析,隨后將PCA結果作為協變量加入關聯分析中。

 

二、怎么做PCA?

首先prune一下

plink --bfile file --indep-pairwise 50 5 0.2 --out file

  

生成file.prune.in文件之后,再簡單加一個“--pca”參數即可

plink --bfile file --extract file.prune.in --pca 10 --out myfile_pca #這里只取前10個PCA結果,如果想取其他數值,請自行設置

  

跑完以后,會生成三個文件,分別是myfile_pca.eigenval,myfile_pca.eigenvec,myfile_pca.log。

其中,myfile_pca.eigenvec即為我們所需的PCA文件,大概長得如下:

FID_1 IID_1 0.00126761 0.00331304 -0.0105174 0.000679466 -0.0179362 0.00672081 0.000979499 -0.00752795 0.00626333 -0.00849531

FID_1 IID_2 -0.000272769 -0.00328075 -0.00380584 -0.00787082 0.00896386 -0.00325664 0.00241414 0.00612508 -0.000788917 -0.00188887

 

三、生成的PCA結果怎么用?

這個相當簡單,直接把這堆數值加入covar文件中,只有控制了這些祖先成分的變量,才能最大限度的找到真實的信號。

 

感謝杜思源師弟提醒pca之前prune一下。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM