基因結構預測中同源注釋策略,將mRNA、cDNA、蛋白、EST等序列比對到組裝的基因組中,在文章中通常使用以下比對軟件:
- tblastn
- gamp
- exonerate
- blat
根據我的實測,以上軟件整體都比較慢。gmap可設置多線程來提升速度。tblastn雖然也可以,但對提速沒什么影響。exonerate和gamp巨吃內存。
以下是跑的資源情況。我的組裝基因組約400Mb。tblastn的查詢序列311764條,gmap的查詢序列1483791條,exonerate的查詢序列43632條。

另有一款軟件 spaln:https://github.com/ogotoh/spaln,據說很快。但文檔比較費解,我懶得摸索,暫時還沒用起來。
因此,我的建議是如果你的服務器配置很高,首選gmap多設線程。配置不高或者想快速獲得結果情況下,可拆分query序列(蛋白/cDNA/mRNA/EST),進行並行比對,最后進行合並。尤其是tblastn之類的軟件,必須這樣才行。否則建議嘗試用spaln(影響力較低,沒用過,還不好說)。
