MSA:多重比對序列的格式及其應用


多重比對序列的格式及其應用

    這里對多重序列比對格式(Multiple sequence alignment – MSA)進行總結。在做系統演化分析、序列功能分析、基因預測等,都需要涉及到多重序列比對。特別是當需要用不同軟件對多重比對序列進行批量操作時,會遇到各種的格式,而這些格式是如何產生的,有什么區別,格式之間如何轉換,從哪里可以下載到相關的格式序列,不同的格式又有什么特殊的用途等,本篇文章將就這些問題進行總結與討論。因為涉及內容較多,不足之處,歡迎大家補充或者批判。

     生物信息學的基礎是基於這樣的一個假設:序列相似,結構相似,功能相似。所以相似的一組序列,就可能同屬於一個基因家族,而這樣的一組序列相似的部分,就可能使其功能之所在,稱其為結構域。這是對於基因家族分類的一種方式,將結構與功能進行聯系,從而實現從結構預測功能(序列稱為一級結構)。

 

多重序列數據分析流程


進行多重比對、多重序列的編輯、多重序列注釋、存儲與展示、系統演化分析等,不同的軟件、不同的系統,除了要兼容現有的格式,還會根據自身的需要,都定義新的格式。所以這些本身可以進行部分的格式轉換,同時許多腳本模塊比如bioperl等也提供了一些格式之間轉換的腳本。這些格式同發布其軟件平台有着密切的聯系,隨着軟件的流行而流行。

下表是目前主流的格式:

名稱 后綴 描述 Unique file Feature 詳細定義地址
FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
Aligned FASTA (UCSC a2m) format .a2m UCSC    
Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加豐富的注釋信息,適合多序列比對結果的注釋。 # STOCKHOLM 1.0<seqname> <aligned sequence>

//
鏈接wiki鏈接
PHYLIP .phy, .phylip, .phylip2 PHYLIP software   鏈接
NBR/PIR .pir NBRF or PIR sequence format >P1; 鏈接
CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 鏈接
GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color.   鏈接
NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format.   鏈接
BLC .blc   >Seq1>Seq2  
PFAM .pfam   SequenceName THISISASEQENCE 鏈接
MEGA .meg MEGA software    
SELEX .      
IG .ig      
Internet (NCBI) XML format .xml      
NBRF format .nbrf      

主要軟件平台對於格式的要求

  • Clustal
    輸入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    輸出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
  • MUSCLE(http://www.drive5.com/muscle/muscle.html)
    輸入:FASTA, CLUSTAL, MSF
    輸出:FASTA
  • hmmbuild
    ClustalW, GCG MSF, or SELEX
  • hmmalign
    輸入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
    輸出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
  • Jalview java viewer (http://www.jalview.org/help.html)
    輸入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
    輸出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
  • MEGA
    輸入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
    輸出:MEGA, PAUP, FASTA
  • PFAM數據庫
    Selex, Stockholm, MSF, FASTA


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM