SNPEFF snp注釋 (添加自己基因組)


之間介紹過annovar進行對snp注釋,今天介紹snpEFF

 

SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of variants on genes

詳細的說明請閱讀:

http://snpeff.sourceforge.net/SnpEff_manual.html

 

一、安裝

1 wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
2 unzip snpEff_latest_core.zip
3 
4 #會產生一個snpEff目錄 所有的程序都在這里面

 

 

二、配置自己的基因組和注釋文件

以菠菜(spinach)參考基因組為例子:

打開snpEFF文件夾下的snpEff.contig, 增加新的物種信息,可以在任意一行添加,個人建議在 # Databases & Genomes 添加

1 # spinach_v1
2 spinach_v1.genome : spinach

  

建立data文件夾並且建立名為spinach_v1的文件夾 (和上述對應)

1 mkdir -p data/spinach_v1

 

在該文件夾下存放兩個文件:

  • sequences.fa
  • genes.gff            # (我用的是gff3格式,也可使gff2)

一定按上述名字

 

用build命令進行構建

1 # 在snpEff文件夾下運行命令
2 java -jar snpEff.jar build -gff3 -v spinach_v1
3 
4 ## 參數
5 -v: 版本
6 -gff3:gff文件類型

 

三、開始注釋

1 java -jar snpEff.jar ann spinach_v1 input.vcf.gz > snpeff.vcf

 

同樣我們可以選擇以下參數簡化輸出

  • -no-downstream
  • -no-upstream
  • -no-utr
  • -no-intergenic
  • -no-intron

比如說我們只關注CDS中的注釋信息,不考慮上游、下游、UTR、基因間區等信息

1 java -jar snpEff.jar ann -no-utr -no-downstream -no-upstream -no-intergenic spinach_v1 input.vcf.gz > snpeff.vcf

 

四、結果的說明

  • snpEff_genes.txt
  • snpEff_summary.html

兩個文件記錄總結性信息比較簡單

 

*.ann.vcf 是一個注釋結果文件,其就在vcf的info信息新添加了anno一列信息,其具體每個值含義如下:

  • Allele

  突變之后的鹼基,第一個突變位點由T鹼基突變成了C鹼基,對應Allel的值為C

  • Annotation

  由sequence ontology定義的突變類型

  • Annotation_Impact

  對變異位點有害程度的簡單評估,取值有HIGHMODERATELOWMODIFIER 4種,含義如下

 

  • Gene_Name

  基因名字

  • Gene_ID

  基因ID

  • Feature_Type

  想要分析的特征類型,transcript, motif, miRNA 等

  • Feature_ID

  根據Feature Type指定的特征,給出對應的ID

  • Transcript_BioType

  轉錄本類型, 通常采用Ensembl數據庫的轉錄本類型

  • Rank

  只有當變異位點位於基因區域時才有值,會給出變異位點所處的exon/intron的編號和該基因的exon/intron的總數,比如一個突變位點位於基因的第3個exon上,該基因一共有12個exon, 對應的Rank的值為3/12
當變異位點位於基因區域以外時,該字段的值為空

  • HGVS.c

  采用HGVS標准命名的基因水平的變異情況

  • HGVS.p

  采用HGVS標准命名的蛋白質水平的變異情況,只有當突變位點位於編碼區是才會有值

  • cDNA.pos/cDNA.length

  突變位點在cDNA上的位置/cDNA的總長度

  • CDS.pos/CDS.length

  突變位點在CDS上的位置/CDS的總長度

  • AA.pos/AA.length

  突變位點在氨基酸序列上的位置/氨基酸序列的總長度

  • Distance

變異位點與最近的特征的距離,當變異位點位於基因間區時,會給出與最近的基因之間的距離;當變異位點位於exon區域時,會給出與最近的內含子邊界的距離,不同的情況,距離的定義不同。

  • ERRORS/WARNINGS/INFO

  對注釋結果的可靠程度進行評估,各種取值代表的含義如下圖

 

 

 

參考

 

 

關注下方公眾號可獲得更多精彩

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM