MAFFT 進行多序列比對


  • 簡介

最經典和廣為熟知的多序列比對軟件是 clustalw 。 但是現有的多序列比對軟件較多,有文獻報道:比對速度(Muscle>MAFFT>ClustalW>T-Coffee),比對准確性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推薦使用 MAFFT 軟件進行多序列比對。

  • 安裝

 1 $ wget http://mafft.cbrc.jp/alignment/software/mafft-7.158-without-extensions-src.tgz
 2 $ tar zxf mafft-7.158-without-extensions-src.tgz
 3 $ cd mafft-7.158-without-extensions/core
 4 $ perl -p -i -e 's#PREFIX =.*#PREFIX = /opt/biosoft/mafft#' Makefile
 5 $ perl -p -i -e 's#BINDIR =.*#BINDIR = /opt/biosoft/mafft/bin/#' Makefile
 6 $ make
 7 $ make install
 8 $ echo 'PATH=$PATH:/opt/biosoft/mafft/bin/' >> ~/.bashrc
 9 $ source ~/.bashrc
10 
11 檢測軟件是否正確安裝
12 $ cd ../test
13 $ rehash                                                   # if necessary
14 $ mafft sample > test.fftns2                               # FFT-NS-2
15 $ mafft --maxiterate 100  sample > test.fftnsi             # FFT-NS-i
16 $ mafft --globalpair sample > test.gins1                   # G-INS-1
17 $ mafft --globalpair --maxiterate 100  sample > test.ginsi # G-INS-i
18 $ mafft --localpair sample > test.lins1                    # L-INS-1
19 $ mafft --localpair --maxiterate 100  sample > test.linsi  # L-INS-i
20 $ diff test.fftns2 sample.fftns2
21 $ diff test.fftnsi sample.fftnsi
22 $ diff test.gins1 sample.gins1
23 $ diff test.ginsi sample.ginsi
24 $ diff test.lins1 sample.lins1
25 若 diff 的結果不換回異常,則正確安裝。
  • 使用

輸入文件為fasta 的aa/nt

1 較為精確方法

(1)最准確的方法。適合於 <200 條序列,且序列長度 <~2000 aa/nt 的比對

 1 mafft --maxiterate 1000 --localpair ex1.txt >ex1.mfa 

ex1.txt 輸入文件, ex1.mfa 輸出文件

(2)適合於序列長度相似的多序列比對。序列條數 <200, 序列長度 <~2000 aa/nt 

 1 mafft --maxiterate 1000 --globalpair --clustalout ex2.txt >ext2.clw 

--clustalout 輸出文件格式為clusw,否則為fasta

(3)  適合序列中包含較大的非匹配區域。序列條數 <200, 序列長度 <~2000 aa/nt 

 1 mafft --maxiterate 1000 --ep 0 --genafpair ex1.txt >ex1.mfa 

2 節約速度的方法

(1)減少迭代次數,最大迭代次數減為 2 

 1 mafft --retree 2 --maxiterate 2 ex1.txt >ex1.mfa 

(2)最大迭代次數減為 0 

 1 mafft --retree 2 --maxiterate 0 ex1.txt >ex1.mfa 

(3)此方法非常快速,適合 >2000 條序列的多序列比對。

 1 mafft --retree 1 --maxiterate 0 ex1.txt >ex1.mfa 

(4)迭代過程中不進行 FFT aproximation

 1 mafft --retree 2 --maxiterate 2 --nofft ex1.txt >ex1.mfa  

 1 mafft --retree 2 --maxiterate 0 --nofft ex1.txt >ex1.mfa  

(5)3 個參數都設置為最不消耗時間的類型,適合於 ~10,000 到 ~50,000 條序列的比對

 1 mafft --retree 1 --maxiterate 0 --nofft --parttree ex1.txt >ex1.mfa 

 

關注下方公眾號可獲得更多精彩

 

參考

陳連福的生信博客


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM