在對vcf的操作有這樣三個軟件:
Vcftools:主要用於群體分析,文本處理的功能不是很強大,雖然這個軟件也可以拆分樣本,但是這種拆分不涉及文件的處理,只是保留在分析流程里。 GATK 3.x:這個軟件最大的問題就是需要參考基因組,而且序列長度各個方面都要與待處理的文件一致這樣就給我們的數據處理帶來一定的麻煩。 Bcftools:涉及文本的處理,功能很強大,后續隨着我的分析還要繼續介紹。
利用Bcftools按樣本拆分文件主要利用了“--view”這個軟件包,主要代碼如下:
bcftools view -S 3k_china_indA 3k_SNP_all.vcf -O v -o 3k_china_indA.vcf
這里面三個參數:
-s, --samples [^]<list> comma separated list of samples to include (or exclude with "^" prefix) -S, --samples-file [^]<file> file of samples to include (or exclude with "^" prefix) -o, --output-file <file> output file name [stdout] -O, --output-type <b|u|z|v> b: compressed BCF, u: uncompressed BCF, z: compressed VCF, v: uncompressed VCF [v]
就可以完成了。