基因注釋 InterProScan的三種使用方法


InterProScan的三種使用方法

Interproscan,通過蛋白質結構域和功能位點數據庫預測蛋白質功能。是EBI開發的一個集成了蛋白質家族、結構域和功能位點的非冗余數據庫。Interproscan整合了一些使用最普及的一些數據庫,並應用於功能未知的蛋白進行Interpro注釋和GO注釋。
以下介紹3中interpro注釋的方法:

一、網頁版的Interpro注釋

打開InterProScan的官網地址:http://www.ebi.ac.uk/Tools/pfa/iprscan/。將序列粘貼到輸入框中進行Interpro注釋。

優點:使用網頁版,方便快捷;不消耗本地計算資源。
缺點:輸入必須為蛋白質序列;一次只能比對條蛋白質序列。

二、使用EBI提供的perl程序進行遠程比對

程序下載網頁地址:http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest
其實,除了perl程序,Python和Ruby也各有一支程序。分別是:
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb

優點:不消耗本地計算資源;可以自己編寫腳本來大批量比對本地的protein序列到EBI的
interpro服務器,獲得得interpro注釋。
缺點:比對結果為xml格式,普通科研人員玩不來。

三、本地化的InterProScan注釋

3.1 本地化的InterProScan安裝與配置

3.1.1 從ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下載以下5個文件:

RELEASE/latest/iprscan_v4.8.tar.gz
BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz 
DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz

3.1.2 將5個文件解壓到一個文件夾中,然后運行其中的文件Config.pl,來對InterProScan進行配置。
3.1.3 配置的過程中,若選擇進行本地web配置,則修改本地www服務的配置文件,以能進行本地化網頁版的運行。

3.2 本地化InterProScan的使用。

3.2.1 命令行運行iprscan的方法:

$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out

3.2.2 iprscan的參數說明:

-cli         設定程序在unix命令下運行,如果不設此參數,程序會被當作CGI程序運行。
-iprlookup   結果里顯示相應的interpro注釋信息。
-goterms     結果里顯示相應的GO注釋信息,但前面要加上-iprlookup參數。
-format      輸出結果的格式,有raw, xml, txt, html(default), ebixml
(EBI header on top of xml) gff。
-appl  數據庫和掃描方法的的選擇。無此參數表示默認選擇全部數據庫(配置Interpro
scan時候設置的數據庫)。選擇多個數據庫則需該參數多次。本地運行Interproscan相
比官網運行,有兩個數據庫不能選擇為:tmhmm 和 signalp。這兩個數據庫的選擇需要
commercial license。
-i           輸入文件,InterProScan支持輸入蛋白質序列和核酸序列,如果輸入核
酸系列,程序會將其翻譯成蛋白質序列,你可以指定翻譯用到的密碼表,用下面的-trtable
參數,序列格式可以是raw,Fasta或者EMBL。
-o           結果輸出文件,如果不選擇此參數,結果將輸出到標准輸出,輸出格式可以
用下面的-format參數設定。
-trtable   選擇核酸翻譯蛋白質的密碼表,同時可以設定-trlen 參數來控制核酸翻譯
的轉錄子長度。
-nocrc       不對輸入蛋白質序列進行crc64匹配。不加此參數,則默認是會對蛋白質
序列開啟了crc64匹配。Interpro數據庫(memember database)已經包含了大量序列
搜索的結果,就是如果你的蛋白序列已經包含在interpro的數據庫里面,iprscan會直接
給出搜索結果,無需進行本地運算。interpro數據庫不包括tmhmm, coil和signalp,
所以crc64匹配不到這3個數據庫。一般情況下,由於commercial licese而無法使用
tmhmm和signalp數據庫,coil數據庫也不會使用。故不使用此參數,加快程序運行速度。
-seqtype     輸入的序列類型,蛋白質序列(-seqtype p)(defult)或者(-se
qtype n)。
-email       設定一個Email地址,程序運行完畢向信箱發送郵件通知分析完畢。
-verbose     程序運行過程中顯示運行的狀態。
-help        顯示幫助信息。

3.2.3 InterProScan其它附帶的重要程序

meter.pl     reports the progress of a job.有百分之幾的chunk已經運行完畢。
converter.pl 將raw的格式轉換成其它的格式,比如html,xml,txt等格式。
iterator.pl  運用於逐條去注釋序列

3.2.4 多線程運行
hmmpfam, hmmscan 和 hmmsearch 能多線程運行。
經過測試 PIR superfamily 和 SUPERFAMILY 這兩個數據庫的應用比較費時,可以設置conf文件夾中的配置文件hmmpir.conf和superfamily.conf,將其中的cpu_opt的值設置高一些。默認是1。
3.2.5 逐條序列地運行
InterProScan不能立馬給出結果文件並相繼把結果放入到結果文件中。可以采用逐條比對的方法來得到注釋結果。可以采用如下的方法來隨時終結掉程序,並拿到部分結果。

$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"

3.2.6 優缺點

優點:使用本地化的數據庫,在斷網和計算機資源充足的情況下,能加快注釋速度;本地化網
頁版能同時比對多條序列;本地化能對DNA序列進行interpro注釋。
缺點:本地化安裝InterProScan比較復雜耗時;需要不時更新本地數據庫;本地化運行耗
費計算資源大;

 

 

轉載於:http://www.chenlianfu.com/?p=650


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM