homology策略預測基因結構,下載了公共mRNA/CDS序列,考慮用gmap比對。本來是個很簡單的腳本,但總是不那么順利。
無論是用conda安裝,還是源碼安裝較新版本,都存在問題。
gmap_build -D ./ -d reference reference.fa
gmap -t 10 -D ./ -d reference -f gff3_gene cds.fa > cds_gene.gff3
第一步建立索引都沒問題。但比對時,沒報錯,出現如下:
Pre-loading ref positions, kmer 15, interval 3......done (530,977,840 bytes, 0.01 sec)
Starting alignment
No paths found for XM_006664437.3
No paths found for XM_040529871.1
No paths found for XM_040529870.1
.....
結果是cds_gene.gff3除了表頭,一條結果都沒有。
在網上找了一圈,推薦版本降級,參考:https://github.com/PASApipeline/PASApipeline/issues/88。
於是,我重新安裝了gmap-gsnap-2017-11-15.tar.gz,源碼編譯安裝。
wget -c http://research-pub.gene.com/gmap/src/gmap-gsnap-2017-11-15.tar.gz
tar -xvf gmap-gsnap-2017-11-15.tar.gz
mkdir gmap
cd gmap-gsnap-2017-11-15
./configure --prefix=/path/biosoft/gmap
make && make install
安裝時間較新版本要長,再次使用時,雖然仍有少部分序列出現No paths found
,但大部分還是正常的。看了下,那些沒比對上的基本上原本就是預測的。因此結果應該正常。