用Annovar注釋非人類基因組,如小鼠mm9


annovar一般只包含人類基因組注釋數據庫,其他的物種如小鼠需要自己進行建立注釋信息。

第一步:下載annovar軟件
上Annovar官網下載(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),現在要郵件注冊后才能下載。郵件注冊后會給你最新版軟件下載地址,下載后文件為annovar.latest.tar.gz。
第二步:安裝Annovar
linux系統下用該命令解壓

tar zxvf annovar.latest.tar.gz

解壓后生成annovar文件夾,里面有6個perl腳本程序和兩個文件夾,其中一個是example文件夾,另一個是已經建立好的hg19或者GRCh37的humandb的數據庫文件夾,可用於人的注釋。
第三步:使用Annovar
人的注釋方法,官網介紹的很詳細,但僅僅有人的數據庫肯定是滿足不了大家的需求。

 

一般如果你想看是否有某種物種,如小鼠mm9的注釋庫時,命令行運行

perl annotate_variation.pl -builder mm9 -downdb avdblist -webfrom annovar ./

會生成一個mm9開頭的文件,里面包含小鼠mm9有多少注釋數據庫,然后自己可以構建一個mousedb數據庫
先在annovar文件夾里面創建mousedb文件夾(名字可自取),命令mkdir mousedb
然后使用annovar文件夾下的perl程序annotate_variation.pl

perl annotate_variation.pl -downdb -buildver mm9 -webfrom annovar refGene mousedb/

這個命令能實現的是幫忙下載mm9的refGene的文件,保存在mousedb文件下,自動解壓后文件名為mm9_refGene.txt。
然后程序會提示使用以下兩個命令繼續建庫

annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq
retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa

同樣在annovar文件下運行這兩個perl程序

perl annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq

通過這個命令,會在mousedb下創建文件夾mm9_seq,並且在里面下載mm9的基因組文件chromFa.tar.gz,perl程序幫忙解壓后是按染色體分開的fasta格式文件。
然后繼續運行perl程序

perl retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa

該程序會會在mousedb下創建mm9_refGeneMrna.fa文件,是根據mm9_refGene.txt的信息,重新構建成的老鼠轉錄表達基因fasta格式文件
這樣老鼠mm9 annovar gene based注釋庫就弄好了
以文本文件test.input為案例進行測試
生成test.input的txt格式文件,根據annovar官網介紹,只要這最基本的五列信息就可以進行注釋,五列分別染色體名稱,染色體上的位置,染色體上的位置,參考基因組鹼基,變異鹼基。

1       19215217        19215217        T       C
1       33803084        33803084        A       G
1       33803198        33803198        A       G
1       37499237        37499237        T       C
1       37499238        37499238        T       C
1       37500003        37500003        T       C
1       43826936        43826936        T       C
1       58853960        58853960        A       G
1       58854487        58854487        A       G
1       60436865        60436865        T       C

然后使用perl程序進行gene based的注釋

perl annotate_variation.pl -out test -build mm9 test.input mousedb

注釋后會生成test.variant_function,test.exonic_variant_function和test.log文件,前兩個即為所需要的文件。用這個例子輸出test.exonic_variant_function文件輸出為空文件,因為這些位點沒有在exonic區域的,所以沒有結果。如果有位點在exonic中,則在test.exonic_variant_function中會更具體的描述為同義突變還是非同義突變

intronic        Tfap2b  1       19215217        19215217        T       C
UTR3            Bag2    1       33803084        33803084        A       G
UTR3            Bag2    1       33803198        33803198        A       G
UTR3            Mgat4a  1       37499237        37499237        T       C
UTR3            Mgat4a  1       37499238        37499238        T       C
UTR3            Mgat4a  1       37500003        37500003        T       C
intronic        Uxs1    1       43826936        43826936        T       C
intronic        Casp8   1       58853960        58853960        A       G
intronic        Casp8   1       58854487        58854487        A       G
intronic        Cyp20a1 1       60436865        60436865        T       C

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM