Interproscan,通過蛋白質結構域和功能位點數據庫預測蛋白質功能。是EBI開發的一個集成了蛋白質家族、結構域和功能位點的非冗余數據庫。Interproscan整合了一些使用最普及的一些數據庫，並應用於功能未知的蛋白進行Interpro注釋和GO注釋。
以下介紹3中interpro注釋的方法：

一、網頁版的Interpro注釋

打開InterProScan的官網地址：http://www.ebi.ac.uk/Tools/pfa/iprscan/。將序列粘貼到輸入框中進行Interpro注釋。

優點：使用網頁版，方便快捷；不消耗本地計算資源。
缺點：輸入必須為蛋白質序列；一次只能比對條蛋白質序列。

二、使用EBI提供的perl程序進行遠程比對

程序下載網頁地址：http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest。
其實，除了perl程序，Python和Ruby也各有一支程序。分別是：
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb。

優點：不消耗本地計算資源；可以自己編寫腳本來大批量比對本地的protein序列到EBI的
interpro服務器，獲得得interpro注釋。
缺點：比對結果為xml格式，普通科研人員玩不來。

三、本地化的InterProScan注釋

3.1 本地化的InterProScan安裝與配置

3.1.1 從ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下載以下5個文件：

RELEASE/latest/iprscan_v4.8.tar.gz
BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz 
DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz

3.1.2 將5個文件解壓到一個文件夾中，然后運行其中的文件Config.pl，來對InterProScan進行配置。
3.1.3 配置的過程中，若選擇進行本地web配置，則修改本地www服務的配置文件，以能進行本地化網頁版的運行。

3.2 本地化InterProScan的使用。

3.2.1 命令行運行iprscan的方法：

$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out

3.2.2 iprscan的參數說明：

-cli         設定程序在unix命令下運行，如果不設此參數，程序會被當作CGI程序運行。
-iprlookup   結果里顯示相應的interpro注釋信息。
-goterms     結果里顯示相應的GO注釋信息，但前面要加上-iprlookup參數。
-format      輸出結果的格式，有raw, xml, txt, html(default), ebixml
(EBI header on top of xml) gff。
-appl  數據庫和掃描方法的的選擇。無此參數表示默認選擇全部數據庫（配置Interpro
scan時候設置的數據庫）。選擇多個數據庫則需該參數多次。本地運行Interproscan相
比官網運行，有兩個數據庫不能選擇為：tmhmm 和 signalp。這兩個數據庫的選擇需要
commercial license。
-i           輸入文件，InterProScan支持輸入蛋白質序列和核酸序列，如果輸入核
酸系列，程序會將其翻譯成蛋白質序列，你可以指定翻譯用到的密碼表，用下面的-trtable
參數，序列格式可以是raw，Fasta或者EMBL。
-o           結果輸出文件，如果不選擇此參數，結果將輸出到標准輸出，輸出格式可以
用下面的-format參數設定。
-trtable   選擇核酸翻譯蛋白質的密碼表，同時可以設定-trlen 參數來控制核酸翻譯
的轉錄子長度。
-nocrc       不對輸入蛋白質序列進行crc64匹配。不加此參數，則默認是會對蛋白質
序列開啟了crc64匹配。Interpro數據庫(memember database)已經包含了大量序列
搜索的結果，就是如果你的蛋白序列已經包含在interpro的數據庫里面，iprscan會直接
給出搜索結果，無需進行本地運算。interpro數據庫不包括tmhmm, coil和signalp，
所以crc64匹配不到這3個數據庫。一般情況下，由於commercial licese而無法使用
tmhmm和signalp數據庫，coil數據庫也不會使用。故不使用此參數，加快程序運行速度。
-seqtype     輸入的序列類型，蛋白質序列（-seqtype p）（defult）或者（-se
qtype n）。
-email       設定一個Email地址，程序運行完畢向信箱發送郵件通知分析完畢。
-verbose     程序運行過程中顯示運行的狀態。
-help        顯示幫助信息。

3.2.3 InterProScan其它附帶的重要程序

meter.pl     reports the progress of a job.有百分之幾的chunk已經運行完畢。
converter.pl 將raw的格式轉換成其它的格式，比如html,xml，txt等格式。
iterator.pl  運用於逐條去注釋序列

3.2.4 多線程運行
hmmpfam, hmmscan 和 hmmsearch 能多線程運行。
經過測試 PIR superfamily 和 SUPERFAMILY 這兩個數據庫的應用比較費時，可以設置conf文件夾中的配置文件hmmpir.conf和superfamily.conf，將其中的cpu_opt的值設置高一些。默認是1。
3.2.5 逐條序列地運行
InterProScan不能立馬給出結果文件並相繼把結果放入到結果文件中。可以采用逐條比對的方法來得到注釋結果。可以采用如下的方法來隨時終結掉程序，並拿到部分結果。

$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"

3.2.6 優缺點

優點：使用本地化的數據庫，在斷網和計算機資源充足的情況下，能加快注釋速度；本地化網
頁版能同時比對多條序列；本地化能對DNA序列進行interpro注釋。
缺點：本地化安裝InterProScan比較復雜耗時；需要不時更新本地數據庫；本地化運行耗
費計算資源大；

基因注釋 InterProScan的三種使用方法

InterProScan的三種使用方法

一、網頁版的Interpro注釋

二、使用EBI提供的perl程序進行遠程比對

三、本地化的InterProScan注釋

3.1 本地化的InterProScan安裝與配置

3.2 本地化InterProScan的使用。

免責聲明！