plink 進行PCA分析


當我們進行群體遺傳分析時,得到vcf后,可利用plink進行主成分(PCA)分析;

 

一、軟件安裝

1 conda install plink

 

二、使用流程

 

第一步:將vcf轉換為plink格式

1 plink --vcf F_M_trans.recode.vcf.gz --recode --out testacc --const-fid --allow-extra-chr
2 
3 
4 # --vcf vcf 或者vcf.gz
5 # --recode 輸出格式
6 # --out 輸入前綴
7 # --const-fid  添加群體信息
8 # --allow-extra-chr 允許非標准染色體編號

 

上述會得到.map, .nosex和.ped結尾的三個文件。

 

第二步:基於.ped生成一個bed文件(二進制文件)

1 plink --allow-extra-chr --file testacc --noweb --make-bed --out testacc
2 
3 # --file .ped + .map 文件前綴
4 # --make-bed 建立一個新的二進制文件

 

上述得到.bim, .bed 結尾的兩個文件

 

第三步:PCA分析

1 plink --allow-extra-chr --threads 20 -bfile testacc --pca 20 --out testacc
2 
3 
4 # --threads 線程數
5 # --pca 主成分

 

上述得到.eigenval 和.eigenvec 結尾的兩個文件,其中.eigenval 代表每個pca所占的比重; 另外一個記錄特征向量,用於坐標軸

 

** 若想分析部分樣本,則可以使用--remove參數,后接一個文件,其格式為: 第一列:群體編號, 第二列:樣本名稱,在這個例子中

1 echo '0\tSP23' > remove.txt
2 plink --remove remove.txt --allow-extra-chr -bfile testacc --pca 20 --out testacc_dele 

 

第四步:可視化

用ggplot即可,代碼簡單,自行繪制

 

 

 

歡迎交流,可關注一下公眾號

 

---END---


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM