GATK4注意事項

本文轉載自查看原文 2019-08-01 14:20 1176 GATK/ 基因組

近期在測試多樣品的WES的過程中發現用HC得到gvcf之后，合並多個樣品的gvcf文件的過程中，使用CombineGVCFs的過程中很慢，發現官網推薦使用GenomicsDBImport

用法如下：

gatk GenomicsDBImport \
    -V data/gvcfs/mother.g.vcf \
    -V data/gvcfs/father.g.vcf \
    -V data/gvcfs/son.g.vcf \
    --genomicsdb-workspace-path my_database \
    --intervals chr20,chr21

--intervals 參數是指定的一個區間或者整條染色體
The syntax for using -L is as follows; it applies equally to -XL:
-L chr20 for contig chr20.
-L chr20:1-100 for contig chr20, positions 1-100.
-L intervals.list (or intervals.interval_list, or intervals.bed) when specifying a text file containing intervals (see supported formats below).
-L variants.vcf when specifying a VCF file containing variant records; their genomic coordinates will be used as intervals.

如果是list文件，是從1開始計數

chr1:1-248956422
chr2:1-242193529
chr3:1-198295559
chr4:1-190214555
chr5:1-181538259
chr6:1-170805979

如果是bed文件，是從0開始計數,因此需要將1開始的list減去1

chr1    0    248956421
chr2    0    242193528
chr3    0    198295558
chr4    0    190214554

使用過程中發現，最好是少於100條染色體，不然可能會變得很慢

gatk GenotypeGVCFs \
    -R data/ref/ref.fasta \
    -V gendb://my_database \
    -newQual \
    -O test_output.vcf

gatk SelectVariants \
    -R data/ref/ref.fasta \
    -V gendb://my_database \
    -O combined.g.vcf

需要注意的是gatk3的CombineGVCFs是很快的，但是在輸入gatk4得到的gvcf結果文件，然后用gatk3進行合並時，會有很多warning的信息
gatk4的GenotypeGVCFs只支持輸入一個gvcf文件了

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 minio 注意事項 currentRowChanged 的注意事項 FiddlerCore注意事項 onReachBottom 注意事項 mysqldump 使用及其注意事項 bootstrap注意事項（五）表單 uniapp開發注意事項 vundle安裝注意事項 SqlBulkCopy使用注意事項 typescript 類型注意事項