多序列比對&建樹


相關鏈接
http://journals.sagepub.com/doi/10.3181/0903-MR-94 (冠狀病毒的Minireview)
http://www.biotrainee.com/thread-2253-1-1.html (系統發育樹相關)
https://blog.csdn.net/Cccrush/article/details/90695891 (詳細介紹進化樹的幾種構建方法和原理)

目標物種和序列

物種:冠狀病毒中能夠感染人的7種病毒
序列來源:NCBI上已經公布的Ref序列,我們只采用了其中的6種。

相關Seq列表

相關seq_list

多序列比對的原理和方法

多序列比對算法

相關的工具

  1. ClustalX/W(前者為圖形界面,后者為命令行界面)
  2. T-Coffee工具
  3. MultAlin工具
  4. MAFFT工具
  5. MEGAX工具(常用)

建樹的幾種方法

  1. 非加權分組平均法( unweighted pair group method with arithmetic mean, UPGAM
  2. 最小進化法( minimum evolution,ME)
  3. 最小二乘法( least squares,LS)
  4. 鄰接法 (neighbor-joining, NJ)

以上的4種方法其實都屬於距離法,即通過計算各物種之間的進化距離來作為建樹的依據。
實際上還有一類建樹的法則:Character-based methods 特征法,這里先跳過去,日后在看(挖坑ing)。

實際操作

Muscle&ClustalW

上面的幾種工具在EBI的網站上都有公布(實際上里面還有很多的工具可以實現多序列比對),我們采用了其中的MUSCLE方法+ClustalW方法+MAFFT方法,能夠直接得到最終的建樹結果。

相關網頁:
https://www.ebi.ac.uk/Tools/msa/muscle/
https://www.ebi.ac.uk/Tools/msa/clustalo/

可視化結果

Muscle:Accurate MSA tool, especially good with proteins. Suitable for medium alignments.
Muscle
ClustalW:New MSA tool that uses seeded guide trees and HMM profile-profile techniques to generate alignments. Suitable for medium-large alignments.
ClustalW
MAFFT:MSA tool that uses Fast Fourier Transforms. Suitable for medium-large alignments.
MAFFT
三種方法的結果是很類似的

newick文本

# Muscle
(
(
KP198610:0.22253,
(
NC_002645.1:0.16531,
MK334047.1:0.15607)
:0.08099)
:0.01856,
NC_019843.3:0.22538,
(
NC_045512.2:0.09935,
NC_004718.3:0.10340)
:0.11661);

# ClustalW
(
(
NC_019843.3:0.23351,
(
NC_045512.2:0.09863,
NC_004718.3:0.10330)
:0.12454)
:0.02357,
KP198610:0.23317,
(
MK334047.1:0.16005,
NC_002645.1:0.16886)
:0.09141);

# MAFFT
(
KP198610:0.23000,
(
MK334047.1:0.15815,
NC_002645.1:0.16536)
:0.08813,
(
NC_019843.3:0.22966,
(
NC_045512.2:0.09772,
NC_004718.3:0.10361)
:0.12929)
:0.03177);

MEGAX本地

構建流程

graph TB; Align -->Input_integrated_fasta; Input_integrated_fasta --> Align_by_ClusterW; Align_by_ClusterW --takes_long_time--> Phylogenetic_analysis_in_Data_option; Phylogenetic_analysis_in_Data_option --> Compute_pairwise_distance_in_Distance_option;

距離矩陣和自帶建樹

距離矩陣
預測結果

手動建樹結果

手動結果

關於NEWICK格式

Newick實際上不僅一種格式,而是一種有序文本的構建方式。之前已經給出了建樹結果的Newick版本。實際上也有很多可以進行newick處理的工具包和軟件,python中的ete3就是其中的一種,MEGAX也可以處理newick結果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM