tabix 可以對NGS分析中常見格式的文件建立索引,從而加快訪問速度,不僅支持VCF文件,還支持BED, GFF,SAM等格式。
下載地址:
1 https://sourceforge.net/projects/samtools/files/tabix/ 2 3 ##安裝 4 wget https://sourceforge.net/projects/samtools/files/tabix/tabix-0.2.6.tar.bz2 5 tar xjvf tabix-0.2.6.tar.bz2 6 cd tabix-0.2.6/ 7 make
由於snp數量多,所以vcf文件也非常大,常見做法用bgzip進行壓縮
1 bgzip -f view.vcf
壓縮之后,原本的view.vcf
文件就變成了view.vcf.gz
文件。壓縮后綴為.gz
, 如果想要解壓縮,有以下兩種用法
1 bgzip -d view.vcf.gz 2 gunzip view.vcf.gz
需要注意的是,兩種算法雖然有相似之處,但是還是有本質區別的,在對VCF文件壓縮時,不可以使用gzip來代替bgzip。
對於大型的VCF文件而言,如何快速訪問其中的記錄也是個難點。tabix
可以對VCF文件構建索引,索引構建好之后,訪問速度會快很多。tabix
對VCF文件建立索引的用法如下
1 tabix -p vcf view.vcf.gz
注意輸入的VCF文件必須是使用bgzip
壓縮之后的VCF文件,生成的索引文件為view.vcf.gz.tbi
, 后綴為.tbi
。
構建好索引之后,可以快速的獲取指定區域的記錄,示例如下:
1 ## 獲取位於11號染色體的SNP位點 2 tabix view.vcf.gz 11 3 4 ## 獲取位於11號染色體上突變位置大於或者等於2343545的SNP位點 5 tabix view.vcf.gz 11:2343545 6 7 ## 獲取位於11號染色體上突變位置介於2343540到2343596的SNP位點 8 tabix view.vcf.gz 11:2343540-2343596
from
tabix操作VCF文件
-----END-----
關注下方公眾號可獲得更多精彩