plink 进行PCA分析

本文转载自查看原文 2020-04-26 14:00 3506 群体分析

当我们进行群体遗传分析时，得到vcf后，可利用plink进行主成分（PCA）分析；

一、软件安装

1 conda install plink

二、使用流程

第一步：将vcf转换为plink格式

1 plink --vcf F_M_trans.recode.vcf.gz --recode --out testacc --const-fid --allow-extra-chr
2 
3 
4 # --vcf vcf 或者vcf.gz
5 # --recode 输出格式
6 # --out 输入前缀
7 # --const-fid  添加群体信息
8 # --allow-extra-chr 允许非标准染色体编号

上述会得到.map, .nosex和.ped结尾的三个文件。

第二步：基于.ped生成一个bed文件（二进制文件）

1 plink --allow-extra-chr --file testacc --noweb --make-bed --out testacc
2 
3 # --file .ped + .map 文件前缀
4 # --make-bed 建立一个新的二进制文件

上述得到.bim, .bed 结尾的两个文件

第三步：PCA分析

1 plink --allow-extra-chr --threads 20 -bfile testacc --pca 20 --out testacc
2 
3 
4 # --threads 线程数
5 # --pca 主成分

上述得到.eigenval 和.eigenvec 结尾的两个文件，其中.eigenval 代表每个pca所占的比重；另外一个记录特征向量，用于坐标轴

** 若想分析部分样本，则可以使用--remove参数，后接一个文件，其格式为：第一列：群体编号，第二列：样本名称，在这个例子中

1 echo '0\tSP23' > remove.txt
2 plink --remove remove.txt --allow-extra-chr -bfile testacc --pca 20 --out testacc_dele

第四步：可视化

用ggplot即可，代码简单，自行绘制

欢迎交流，可关注一下公众号

---END---

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 PCA 主成分分析实践 plink软件 GWAS群体分层 (Population stratification)：利用plink对基因型进行PCA 运用sklearn进行主成分分析(PCA)代码实现 plink 阈性状（质量性状）GWAS分析 R语言PCA分析 PCA分析和因子分析在Python中使用K-Means聚类和PCA主成分分析进行图像压缩运用PCA进行降维的好处 PCA——主成分分析 PCA（主成分分析）