当我们进行群体遗传分析时,得到vcf后,可利用plink进行主成分(PCA)分析;
一、软件安装
1 conda install plink
二、使用流程
第一步:将vcf转换为plink格式
1 plink --vcf F_M_trans.recode.vcf.gz --recode --out testacc --const-fid --allow-extra-chr 2 3 4 # --vcf vcf 或者vcf.gz 5 # --recode 输出格式 6 # --out 输入前缀 7 # --const-fid 添加群体信息 8 # --allow-extra-chr 允许非标准染色体编号
上述会得到.map, .nosex和.ped结尾的三个文件。
第二步:基于.ped生成一个bed文件(二进制文件)
1 plink --allow-extra-chr --file testacc --noweb --make-bed --out testacc 2 3 # --file .ped + .map 文件前缀 4 # --make-bed 建立一个新的二进制文件
上述得到.bim, .bed 结尾的两个文件
第三步:PCA分析
1 plink --allow-extra-chr --threads 20 -bfile testacc --pca 20 --out testacc 2 3 4 # --threads 线程数 5 # --pca 主成分
上述得到.eigenval 和.eigenvec 结尾的两个文件,其中.eigenval 代表每个pca所占的比重; 另外一个记录特征向量,用于坐标轴
** 若想分析部分样本,则可以使用--remove参数,后接一个文件,其格式为: 第一列:群体编号, 第二列:样本名称,在这个例子中
1 echo '0\tSP23' > remove.txt 2 plink --remove remove.txt --allow-extra-chr -bfile testacc --pca 20 --out testacc_dele
第四步:可视化
用ggplot即可,代码简单,自行绘制
欢迎交流,可关注一下公众号
---END---