annovar一般只包含人類基因組注釋數據庫,其他的物種如小鼠需要自己進行建立注釋信息。
第一步:下載annovar軟件
上Annovar官網下載(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),現在要郵件注冊后才能下載。郵件注冊后會給你最新版軟件下載地址,下載后文件為annovar.latest.tar.gz。
第二步:安裝Annovar
linux系統下用該命令解壓
tar zxvf annovar.latest.tar.gz
解壓后生成annovar文件夾,里面有6個perl腳本程序和兩個文件夾,其中一個是example文件夾,另一個是已經建立好的hg19或者GRCh37的humandb的數據庫文件夾,可用於人的注釋。
第三步:使用Annovar
人的注釋方法,官網介紹的很詳細,但僅僅有人的數據庫肯定是滿足不了大家的需求。
一般如果你想看是否有某種物種,如小鼠mm9的注釋庫時,命令行運行
perl annotate_variation.pl -builder mm9 -downdb avdblist -webfrom annovar ./
會生成一個mm9開頭的文件,里面包含小鼠mm9有多少注釋數據庫,然后自己可以構建一個mousedb數據庫
先在annovar文件夾里面創建mousedb文件夾(名字可自取),命令mkdir mousedb
然后使用annovar文件夾下的perl程序annotate_variation.pl
perl annotate_variation.pl -downdb -buildver mm9 -webfrom annovar refGene mousedb/
這個命令能實現的是幫忙下載mm9的refGene的文件,保存在mousedb文件下,自動解壓后文件名為mm9_refGene.txt。
然后程序會提示使用以下兩個命令繼續建庫
annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa
同樣在annovar文件下運行這兩個perl程序
perl annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq
通過這個命令,會在mousedb下創建文件夾mm9_seq,並且在里面下載mm9的基因組文件chromFa.tar.gz,perl程序幫忙解壓后是按染色體分開的fasta格式文件。
然后繼續運行perl程序
perl retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa
該程序會會在mousedb下創建mm9_refGeneMrna.fa文件,是根據mm9_refGene.txt的信息,重新構建成的老鼠轉錄表達基因fasta格式文件
這樣老鼠mm9 annovar gene based注釋庫就弄好了
以文本文件test.input為案例進行測試
生成test.input的txt格式文件,根據annovar官網介紹,只要這最基本的五列信息就可以進行注釋,五列分別染色體名稱,染色體上的位置,染色體上的位置,參考基因組鹼基,變異鹼基。
1 19215217 19215217 T C 1 33803084 33803084 A G 1 33803198 33803198 A G 1 37499237 37499237 T C 1 37499238 37499238 T C 1 37500003 37500003 T C 1 43826936 43826936 T C 1 58853960 58853960 A G 1 58854487 58854487 A G 1 60436865 60436865 T C
然后使用perl程序進行gene based的注釋
perl annotate_variation.pl -out test -build mm9 test.input mousedb
注釋后會生成test.variant_function,test.exonic_variant_function和test.log文件,前兩個即為所需要的文件。用這個例子輸出test.exonic_variant_function文件輸出為空文件,因為這些位點沒有在exonic區域的,所以沒有結果。如果有位點在exonic中,則在test.exonic_variant_function中會更具體的描述為同義突變還是非同義突變
intronic Tfap2b 1 19215217 19215217 T C UTR3 Bag2 1 33803084 33803084 A G UTR3 Bag2 1 33803198 33803198 A G UTR3 Mgat4a 1 37499237 37499237 T C UTR3 Mgat4a 1 37499238 37499238 T C UTR3 Mgat4a 1 37500003 37500003 T C intronic Uxs1 1 43826936 43826936 T C intronic Casp8 1 58853960 58853960 A G intronic Casp8 1 58854487 58854487 A G intronic Cyp20a1 1 60436865 60436865 T C
