plink 進行PCA分析

本文轉載自查看原文 2020-04-26 14:00 3506 群體分析

當我們進行群體遺傳分析時，得到vcf后，可利用plink進行主成分（PCA）分析；

一、軟件安裝

1 conda install plink

二、使用流程

第一步：將vcf轉換為plink格式

1 plink --vcf F_M_trans.recode.vcf.gz --recode --out testacc --const-fid --allow-extra-chr
2 
3 
4 # --vcf vcf 或者vcf.gz
5 # --recode 輸出格式
6 # --out 輸入前綴
7 # --const-fid  添加群體信息
8 # --allow-extra-chr 允許非標准染色體編號

上述會得到.map, .nosex和.ped結尾的三個文件。

第二步：基於.ped生成一個bed文件（二進制文件）

1 plink --allow-extra-chr --file testacc --noweb --make-bed --out testacc
2 
3 # --file .ped + .map 文件前綴
4 # --make-bed 建立一個新的二進制文件

上述得到.bim, .bed 結尾的兩個文件

第三步：PCA分析

1 plink --allow-extra-chr --threads 20 -bfile testacc --pca 20 --out testacc
2 
3 
4 # --threads 線程數
5 # --pca 主成分

上述得到.eigenval 和.eigenvec 結尾的兩個文件，其中.eigenval 代表每個pca所占的比重；另外一個記錄特征向量，用於坐標軸

** 若想分析部分樣本，則可以使用--remove參數，后接一個文件，其格式為：第一列：群體編號，第二列：樣本名稱，在這個例子中

1 echo '0\tSP23' > remove.txt
2 plink --remove remove.txt --allow-extra-chr -bfile testacc --pca 20 --out testacc_dele

第四步：可視化

用ggplot即可，代碼簡單，自行繪制

歡迎交流，可關注一下公眾號

---END---

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PCA 主成分分析實踐 plink軟件 GWAS群體分層 (Population stratification)：利用plink對基因型進行PCA 運用sklearn進行主成分分析(PCA)代碼實現 plink 閾性狀（質量性狀）GWAS分析 R語言PCA分析 PCA分析和因子分析在Python中使用K-Means聚類和PCA主成分分析進行圖像壓縮運用PCA進行降維的好處 PCA——主成分分析 PCA（主成分分析）