多重比對序列的格式及其應用
這里對多重序列比對格式(Multiple sequence alignment – MSA)進行總結。在做系統演化分析、序列功能分析、基因預測等,都需要涉及到多重序列比對。特別是當需要用不同軟件對多重比對序列進行批量操作時,會遇到各種的格式,而這些格式是如何產生的,有什么區別,格式之間如何轉換,從哪里可以下載到相關的格式序列,不同的格式又有什么特殊的用途等,本篇文章將就這些問題進行總結與討論。因為涉及內容較多,不足之處,歡迎大家補充或者批判。
生物信息學的基礎是基於這樣的一個假設:序列相似,結構相似,功能相似。所以相似的一組序列,就可能同屬於一個基因家族,而這樣的一組序列相似的部分,就可能使其功能之所在,稱其為結構域。這是對於基因家族分類的一種方式,將結構與功能進行聯系,從而實現從結構預測功能(序列稱為一級結構)。
進行多重比對、多重序列的編輯、多重序列注釋、存儲與展示、系統演化分析等,不同的軟件、不同的系統,除了要兼容現有的格式,還會根據自身的需要,都定義新的格式。所以這些本身可以進行部分的格式轉換,同時許多腳本模塊比如bioperl等也提供了一些格式之間轉換的腳本。這些格式同發布其軟件平台有着密切的聯系,隨着軟件的流行而流行。
下表是目前主流的格式:
名稱 | 后綴 | 描述 | Unique file Feature | 詳細定義地址 |
FASTA | .fasta, fa | Pearson or FASTA sequence format | >SequenceNameTHISISASEQENCE | FASTA (Pearson) |
GCG/MSF format | .msf, .gcg | GCG Multiple Sequence File (MSF) alignment format | !! AA_MULTIPLE_ALIGNMENT 1.0..// | GCG/MSF |
Aligned FASTA (UCSC a2m) format | .a2m | UCSC | ||
Stockholm format | .txt | used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加豐富的注釋信息,適合多序列比對結果的注釋。 | # STOCKHOLM 1.0<seqname> <aligned sequence> … // |
鏈接,wiki鏈接 |
PHYLIP | .phy, .phylip, .phylip2 | PHYLIP software | 鏈接 | |
NBR/PIR | .pir | NBRF or PIR sequence format | >P1; | 鏈接 |
CLUSTAL | .aln, .an, .aln2 | ClustalW alignment format | CLUSTAL | 鏈接 |
GDE | .gde | GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color. | 鏈接 | |
NEXUS | .nxs, .nexus | Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format. | 鏈接 | |
BLC | .blc | >Seq1>Seq2 | ||
PFAM | .pfam | SequenceName THISISASEQENCE | 鏈接 | |
MEGA | .meg | MEGA software | ||
SELEX | . | |||
IG | .ig | |||
Internet (NCBI) XML format | .xml | |||
NBRF format | .nbrf |
主要軟件平台對於格式的要求
- Clustal
輸入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
輸出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
- MUSCLE(http://www.drive5.com/muscle/muscle.html)
輸入:FASTA, CLUSTAL, MSF
輸出:FASTA - hmmbuild
ClustalW, GCG MSF, or SELEX - hmmalign
輸入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
輸出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M - Jalview java viewer (http://www.jalview.org/help.html)
輸入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
輸出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm - MEGA
輸入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR, NBRF, MSF, IG, and XML formats.
輸出:MEGA, PAUP, FASTA -
PFAM數據庫
Selex, Stockholm, MSF, FASTA