InterProScan的三種使用方法
Interproscan,通過蛋白質結構域和功能位點數據庫預測蛋白質功能。是EBI開發的一個集成了蛋白質家族、結構域和功能位點的非冗余數據庫。Interproscan整合了一些使用最普及的一些數據庫,並應用於功能未知的蛋白進行Interpro注釋和GO注釋。
以下介紹3中interpro注釋的方法:
一、網頁版的Interpro注釋
打開InterProScan的官網地址:http://www.ebi.ac.uk/Tools/pfa/iprscan/。將序列粘貼到輸入框中進行Interpro注釋。
優點:使用網頁版,方便快捷;不消耗本地計算資源。 缺點:輸入必須為蛋白質序列;一次只能比對條蛋白質序列。
二、使用EBI提供的perl程序進行遠程比對
程序下載網頁地址:http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest。
其實,除了perl程序,Python和Ruby也各有一支程序。分別是:
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb。
優點:不消耗本地計算資源;可以自己編寫腳本來大批量比對本地的protein序列到EBI的 interpro服務器,獲得得interpro注釋。 缺點:比對結果為xml格式,普通科研人員玩不來。
三、本地化的InterProScan注釋
3.1 本地化的InterProScan安裝與配置
3.1.1 從ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下載以下5個文件:
RELEASE/latest/iprscan_v4.8.tar.gz BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz
3.1.2 將5個文件解壓到一個文件夾中,然后運行其中的文件Config.pl,來對InterProScan進行配置。
3.1.3 配置的過程中,若選擇進行本地web配置,則修改本地www服務的配置文件,以能進行本地化網頁版的運行。
3.2 本地化InterProScan的使用。
3.2.1 命令行運行iprscan的方法:
$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out
3.2.2 iprscan的參數說明:
-cli 設定程序在unix命令下運行,如果不設此參數,程序會被當作CGI程序運行。 -iprlookup 結果里顯示相應的interpro注釋信息。 -goterms 結果里顯示相應的GO注釋信息,但前面要加上-iprlookup參數。 -format 輸出結果的格式,有raw, xml, txt, html(default), ebixml (EBI header on top of xml) gff。 -appl 數據庫和掃描方法的的選擇。無此參數表示默認選擇全部數據庫(配置Interpro scan時候設置的數據庫)。選擇多個數據庫則需該參數多次。本地運行Interproscan相 比官網運行,有兩個數據庫不能選擇為:tmhmm 和 signalp。這兩個數據庫的選擇需要 commercial license。 -i 輸入文件,InterProScan支持輸入蛋白質序列和核酸序列,如果輸入核 酸系列,程序會將其翻譯成蛋白質序列,你可以指定翻譯用到的密碼表,用下面的-trtable 參數,序列格式可以是raw,Fasta或者EMBL。 -o 結果輸出文件,如果不選擇此參數,結果將輸出到標准輸出,輸出格式可以 用下面的-format參數設定。 -trtable 選擇核酸翻譯蛋白質的密碼表,同時可以設定-trlen 參數來控制核酸翻譯 的轉錄子長度。 -nocrc 不對輸入蛋白質序列進行crc64匹配。不加此參數,則默認是會對蛋白質 序列開啟了crc64匹配。Interpro數據庫(memember database)已經包含了大量序列 搜索的結果,就是如果你的蛋白序列已經包含在interpro的數據庫里面,iprscan會直接 給出搜索結果,無需進行本地運算。interpro數據庫不包括tmhmm, coil和signalp, 所以crc64匹配不到這3個數據庫。一般情況下,由於commercial licese而無法使用 tmhmm和signalp數據庫,coil數據庫也不會使用。故不使用此參數,加快程序運行速度。 -seqtype 輸入的序列類型,蛋白質序列(-seqtype p)(defult)或者(-se qtype n)。 -email 設定一個Email地址,程序運行完畢向信箱發送郵件通知分析完畢。 -verbose 程序運行過程中顯示運行的狀態。 -help 顯示幫助信息。
3.2.3 InterProScan其它附帶的重要程序
meter.pl reports the progress of a job.有百分之幾的chunk已經運行完畢。 converter.pl 將raw的格式轉換成其它的格式,比如html,xml,txt等格式。 iterator.pl 運用於逐條去注釋序列
3.2.4 多線程運行
hmmpfam, hmmscan 和 hmmsearch 能多線程運行。
經過測試 PIR superfamily 和 SUPERFAMILY 這兩個數據庫的應用比較費時,可以設置conf文件夾中的配置文件hmmpir.conf和superfamily.conf,將其中的cpu_opt的值設置高一些。默認是1。
3.2.5 逐條序列地運行
InterProScan不能立馬給出結果文件並相繼把結果放入到結果文件中。可以采用逐條比對的方法來得到注釋結果。可以采用如下的方法來隨時終結掉程序,並拿到部分結果。
$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"
3.2.6 優缺點
優點:使用本地化的數據庫,在斷網和計算機資源充足的情況下,能加快注釋速度;本地化網 頁版能同時比對多條序列;本地化能對DNA序列進行interpro注釋。 缺點:本地化安裝InterProScan比較復雜耗時;需要不時更新本地數據庫;本地化運行耗 費計算資源大;
轉載於:http://www.chenlianfu.com/?p=650