多序列比對


 

文章轉載於 

多序列比對(或多序列聯配,multiple sequence alignment,MSA),是指把多條(3 條或以上)有系統進化關系的蛋白質或核酸序列進行比對,盡可能地把相同的鹼基或氨基酸殘基排在同一列上。這樣做的意義是,對齊的鹼基或氨基酸殘基在進化上是同源的,即來自共同祖先(common ancestor)。下圖是一個 MSA 的例子。

MSA 有許多用途,如構建系統發育樹,選擇壓分析,基因家族的保守結構域分析,motif 分析等。

MSA 分析的軟件有很多,如 mafft(http://mafft.cbrc.jp/alignment/software/),muscle(http://www.drive5.com/muscle/downloads.htm),probcons(http://probcons.stanford.edu/),T-coffee(http://tcoffee.crg.cat/),clustalw(http://clustalw.ddbj.nig.ac.jp/)等。

從軟件的速度和准確性出發,mafft 和 muscle 是不錯的選擇。這里介紹 mafft 的使用方法。

mafft 安裝(非 root)

  • 下載

  • wget http://mafft.cbrc.jp/alignment/software/mafft-7.310-with-extensions-src.tgz
  • 解壓
  • tar -zxvf mafft-7.310-with-extensions-src.tgz
  • 編輯 Makefile 文件的第一行
  • cd mafft-7.310-with-extensions/core/

    vim Makefile (或用 nano 等進行編輯)

    編輯:

    PREFIX = /usr/local

    為:

    PREFIX = /home/your_home/somewhere

    (如:PREFIX = /home/liuhui/bin/mafft-7.310

  • 編譯和安
  • make

    make install

  • 安裝最后安裝在 /home/liuhui/bin/mafft-7.310/bin 下,將這個路徑放到 .bashrc 中即可
  • mafft 使用方法

    mafft 的一般用法為:

  • mafft [arguments] input > output
  • input 可以是 fasta 格式的蛋白質或核苷酸序列。

    對於 200 條序列以內且序列長度小於 2,000 bp 或 aa 的文件,可以使用 mafft-linsi

  • mafft-linsi input > output
  • 文件較小時,也可以使用在線版:http://mafft.cbrc.jp/alignment/server/

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM