tabix 操作VCF文件


tabix 可以對NGS分析中常見格式的文件建立索引,從而加快訪問速度,不僅支持VCF文件,還支持BED, GFF,SAM等格式。

下載地址:

1 https://sourceforge.net/projects/samtools/files/tabix/
2 
3 ##安裝
4 wget https://sourceforge.net/projects/samtools/files/tabix/tabix-0.2.6.tar.bz2
5 tar xjvf tabix-0.2.6.tar.bz2
6 cd tabix-0.2.6/
7 make

 

由於snp數量多,所以vcf文件也非常大,常見做法用bgzip進行壓縮

1 bgzip  -f view.vcf

壓縮之后,原本的view.vcf文件就變成了view.vcf.gz文件。壓縮后綴為.gz, 如果想要解壓縮,有以下兩種用法

1 bgzip -d view.vcf.gz
2 gunzip view.vcf.gz

需要注意的是,兩種算法雖然有相似之處,但是還是有本質區別的,在對VCF文件壓縮時,不可以使用gzip來代替bgzip。

 

對於大型的VCF文件而言,如何快速訪問其中的記錄也是個難點。tabix可以對VCF文件構建索引,索引構建好之后,訪問速度會快很多。tabix對VCF文件建立索引的用法如下

1 tabix -p vcf view.vcf.gz

 

 

注意輸入的VCF文件必須是使用bgzip壓縮之后的VCF文件,生成的索引文件為view.vcf.gz.tbi, 后綴為.tbi

構建好索引之后,可以快速的獲取指定區域的記錄,示例如下:

1 ## 獲取位於11號染色體的SNP位點
2 tabix view.vcf.gz 11
3 
4 ## 獲取位於11號染色體上突變位置大於或者等於2343545的SNP位點
5 tabix view.vcf.gz 11:2343545
6 
7 ## 獲取位於11號染色體上突變位置介於2343540到2343596的SNP位點
8 tabix view.vcf.gz 11:2343540-2343596

 

 

 

 

 

 

 from

tabix操作VCF文件

 

 

-----END-----

 

關注下方公眾號可獲得更多精彩

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM