近期在測試多樣品的WES的過程中發現用HC得到gvcf之后,合並多個樣品的gvcf文件的過程中,使用CombineGVCFs的過程中很慢,發現官網推薦使用GenomicsDBImport
用法如下:
gatk GenomicsDBImport \
-V data/gvcfs/mother.g.vcf \
-V data/gvcfs/father.g.vcf \
-V data/gvcfs/son.g.vcf \
--genomicsdb-workspace-path my_database \
--intervals chr20,chr21
-
--intervals 參數是指定的一個區間或者整條染色體
The syntax for using-L
is as follows; it applies equally to-XL
: -
-L chr20
for contig chr20. -L chr20:1-100
for contig chr20, positions 1-100.-L intervals.list
(orintervals.interval_list
, orintervals.bed
) when specifying a text file containing intervals (see supported formats below).-L variants.vcf
when specifying a VCF file containing variant records; their genomic coordinates will be used as intervals.
如果是list文件,是從1開始計數
chr1:1-248956422
chr2:1-242193529
chr3:1-198295559
chr4:1-190214555
chr5:1-181538259
chr6:1-170805979
如果是bed文件,是從0開始計數,因此需要將1開始的list減去1
chr1 0 248956421
chr2 0 242193528
chr3 0 198295558
chr4 0 190214554
使用過程中發現,最好是少於100條染色體,不然可能會變得很慢
gatk GenotypeGVCFs \
-R data/ref/ref.fasta \
-V gendb://my_database \
-newQual \
-O test_output.vcf
gatk SelectVariants \
-R data/ref/ref.fasta \
-V gendb://my_database \
-O combined.g.vcf
- 需要注意的是gatk3的CombineGVCFs是很快的,但是在輸入gatk4得到的gvcf結果文件,然后用gatk3進行合並時,會有很多warning的信息
- gatk4的GenotypeGVCFs只支持輸入一個gvcf文件了
<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">