manta生成的包含structural variants（SV）結構變異的注釋vcf文件，通過染色體位置獲得基因symbol名稱

本文轉載自查看原文 2020-04-16 14:12 1161 Bioinformatics_Linux_Software


# 首先確定流程：
# *.vcf(包含起始位點，染色體)----> *.annotated.vcf(包含基因名稱)

# 通過流程可知：
# 我們需要bed文件。因為bed文件包含：
# 染色體序號，起，止位點，基因的symbol

# 確定好流程之后，我們開始搜尋需要的資料。
# 一個忠告：一定去Google上面搜索資料，百度經常搜不出來，也有不少錯誤

# 創建虛擬環境
conda create -n bcftools
conda activate bcftools

# 安裝軟件tabix和bcftools：
conda install -c bioconda bcftools
conda install -c bioconda tabix
# 這時候直接敲bcftools，出現報錯，說明還不能正常使用bcftools：
# error while loading shared libraries: libbz2.so.1.0: cannot open shared object file: No such file or directory
# .so文件是動態庫文件，庫包含的是程序運行需要的函數庫，libbz2.so是bzip2的庫文件，那么下載一個bzip不就有了嘛
conda install -c conda-forge bzip2
# 安裝完成之后再敲bcftools，出現了該軟件的說明文檔
# 解決！

# 數據准備：
bgzip /biodata/pipeline/TUMOR/yln-test/hg19.refGene.edited.bed    # tabix前的必須步驟
tabix -pbed hg19.refGene.edited.bed.gz    # tabix為bed文件建立索引，搜尋更快
bed=/biodata/pipeline/TUMOR/yln-test/hg19.refGene.edited.bed.gz        # 賦值
bgzip /biodata/pipeline/TUMOR/yln-test/manta/results/variants/candidateSV.vcf    # bcftools要求是.vcf.gz文件
vcf=/biodata/pipeline/TUMOR/yln-test/manta/results/variants/candidateSV.vcf.gz        # 賦值

# 注釋：
bcftools annotate \
  -a ${bed} \
  -c CHROM,FROM,TO,GENE \        # bed文件沒有列名，要手動輸入定義
  -h <(echo '##INFO=<ID=GENE,Number=1,Type=String,Description="Gene name">') \        # 設置注釋信息
  ${vcf}

# 此時看看vcf文件info那一列是不是有基因的symbol啦：）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 細胞，染色體，DNA與基因的關系如何根據fasta快速統計基因組大小及其各染色體長度？ python學習——通過命令行參數根據fasta文件中染色體id提取染色體序列依據SNP染色體和位置信息批量轉換rs編號使用bedtools提取vcf多個位置的變異（extract multi-region of genotypes by bedtools）對性染色體進行關聯分析 snpEFF注釋的vcf文件轉化成maf文件 plink格式數據依據染色體拆分數據、依據染色體合並數據基因注釋 WindowsForm窗體位置