當我們進行群體遺傳分析時,得到vcf后,可利用plink進行主成分(PCA)分析;
一、軟件安裝
1 conda install plink
二、使用流程
第一步:將vcf轉換為plink格式
1 plink --vcf F_M_trans.recode.vcf.gz --recode --out testacc --const-fid --allow-extra-chr 2 3 4 # --vcf vcf 或者vcf.gz 5 # --recode 輸出格式 6 # --out 輸入前綴 7 # --const-fid 添加群體信息 8 # --allow-extra-chr 允許非標准染色體編號
上述會得到.map, .nosex和.ped結尾的三個文件。
第二步:基於.ped生成一個bed文件(二進制文件)
1 plink --allow-extra-chr --file testacc --noweb --make-bed --out testacc 2 3 # --file .ped + .map 文件前綴 4 # --make-bed 建立一個新的二進制文件
上述得到.bim, .bed 結尾的兩個文件
第三步:PCA分析
1 plink --allow-extra-chr --threads 20 -bfile testacc --pca 20 --out testacc 2 3 4 # --threads 線程數 5 # --pca 主成分
上述得到.eigenval 和.eigenvec 結尾的兩個文件,其中.eigenval 代表每個pca所占的比重; 另外一個記錄特征向量,用於坐標軸
** 若想分析部分樣本,則可以使用--remove參數,后接一個文件,其格式為: 第一列:群體編號, 第二列:樣本名稱,在這個例子中
1 echo '0\tSP23' > remove.txt 2 plink --remove remove.txt --allow-extra-chr -bfile testacc --pca 20 --out testacc_dele
第四步:可視化
用ggplot即可,代碼簡單,自行繪制
歡迎交流,可關注一下公眾號
---END---