通用过滤
Vcftools(http://vcftools.sourceforge.net) 对vcf文件进行过滤
第一步:过滤最低质量低于30,次等位基因深度(minor allele count)不少于3
1 vcftools --gzvcf raw.vcf.gz --max-missing 0.5 --mac 3 --minQ 30 --recode --recode-INFO-all --out raw.g5mac3 2 3 ## 4 --gzvcf 压缩的vcf文件; 5 --max-missing 过滤掉缺失率大于50%的位点; 6 --minQ 过滤掉低于30的质量粉猪; 7 --Mac 次要等位基因深度为3,过滤小于3的位点; 8 --recode 输出过滤后的VCF文件 9 --recode-INFO-all 包含原来文件中所有的INFO信息 10 --out 输出文件
第二步:上述结果文件raw.g5mac3.recode.vcf, 基于最低深度进行过滤
vcftools --vcf raw.g5mac3.recode.vcf --minDP 3 --recode --recode-INFO-all --out raw.g5mac3dp3 ## --minDP 最低的深度
第三步:删除缺失率过高的样本
1 ## 查看各个样本的缺失率 2 vcftools --vcf raw.g5mac3dp3.recode.vcf --missing-indv 3 --missing-indv 查看每个样本的variant缺失情况。输出文件"out.imiss",最后一列即表示样本中的variants缺失率; 4 5 6 ## 利用awk 输出缺失率》0.5的样本 7 awk '($5 >0.5){print $0}' out.imiss |cut -f1 >lowDP.indv 8 9 ## 去除高缺失率的样本 10 vcftools --vcf raw.g5mac3dp3.recode.vcf --remove lowDP.indv --recode --recode-INFO-all --out raw.g5mac3dplm 11 12 --remove 根据lowDP.indv列表去除vcf文件中的高缺失率样本
第四步:基于最大缺失比例,平均深度和次等位基因频率(MAF)过滤
1 vcftools --vcf raw.g5mac3dplm.recode.vcf --max-missing 0.95 --maf 0.05 --recode --recode-INFO-all --out DP3g95maf05 --min-meanDP 20 2 3 ## 4 --max-missing 最大缺失率 5 --maf 次等位基因频率,排在第二位的基因频率
若你的群体来此多个区域,你想对不同的群体的样本进行分布过滤,可进行如下操作
1 ## 提供一个样本信息popmap 2 BR_002 BR 3 BR_004 BR 4 BR_006 BR 5 BR_009 BR 6 BR_013 BR 7 BR_015 BR 8 BR_016 BR 9 BR_021 WL 10 BR_023 WL 11 BR_024 WL 12 13 ## 根据第二列信息进行拆分 14 awk '($2=='BR'){print $0}' popman >1.keep 15 awk '($2=='WL'){print $0}' popman >2.keep 16 17 ## 用VCFtools分别估计不同群体的缺失比例 18 vcftools --vcf DP3g95maf05.recode.vcf --keep 1.keep --missing-site --out 1 19 vcftools --vcf DP3g95maf05.recode.vcf --keep 2.keep --missing-site --out 2 20 21 ## 合并两个文本,根据最后一列提出缺失率大于0.1的样本 22 cat 1.lmiss 2.lmiss | mawk '!/CHR/' | mawk '$6 > 0.1' | cut -f1,2 >> badloci 23 24 ## 利用VCFtools进行过滤 25 vcftools --vcf DP3g95maf05.recode.vcf --exclude-positions badloci --recode --recode-INFO-all --out DP3g95p5maf05
SNP过滤教程(一)