1、bcftools提取指定區段的vcf文件
下載安裝bcftools
見如下命令:
bcftools filter 1000Genomes.vcf.gz --regions 9:4700000-4800000 > 4700000-4800000.vcf
注意:輸入的vcf以gz格式存在,不然會報錯:Failed to open 1000Genomes.vcf: not compressed with bgzip
如何將vcf生成gz格式,見這篇文章bcftools將vcf生成bgzip和index格式
2、vcftools提取多個指定位置(不是一段區域)的vcf文件
如果只想提取指定多個獨立位置(specific position)的基因型(genotypes),則可以用到vcftools工具
(此段感謝健明兄特意提出來,語言描述的不是很清楚。)
命令行如下:
vcftools --gzvcf file.vcf.gz --positions specific_position.txt --recode --out specific_position.vcf
specific_position.txt的輸入格式如下:
1 842013 1 891021 1 903426 1 949654 1 1018704
參考鏈接:https://www.biostars.org/p/162872/