相關鏈接
http://journals.sagepub.com/doi/10.3181/0903-MR-94 (冠狀病毒的Minireview)
http://www.biotrainee.com/thread-2253-1-1.html (系統發育樹相關)
https://blog.csdn.net/Cccrush/article/details/90695891 (詳細介紹進化樹的幾種構建方法和原理)
目標物種和序列
物種:冠狀病毒中能夠感染人的7種病毒
序列來源:NCBI上已經公布的Ref序列,我們只采用了其中的6種。
相關Seq列表
多序列比對的原理和方法
相關的工具
- ClustalX/W(前者為圖形界面,后者為命令行界面)
- T-Coffee工具
- MultAlin工具
- MAFFT工具
- MEGAX工具(常用)
建樹的幾種方法
- 非加權分組平均法( unweighted pair group method with arithmetic mean, UPGAM)
- 最小進化法( minimum evolution,ME)
- 最小二乘法( least squares,LS)
- 鄰接法 (neighbor-joining, NJ)
以上的4種方法其實都屬於距離法,即通過計算各物種之間的進化距離來作為建樹的依據。
實際上還有一類建樹的法則:Character-based methods 特征法,這里先跳過去,日后在看(挖坑ing)。
實際操作
Muscle&ClustalW
上面的幾種工具在EBI的網站上都有公布(實際上里面還有很多的工具可以實現多序列比對),我們采用了其中的MUSCLE方法+ClustalW方法+MAFFT方法,能夠直接得到最終的建樹結果。
相關網頁:
https://www.ebi.ac.uk/Tools/msa/muscle/
https://www.ebi.ac.uk/Tools/msa/clustalo/
可視化結果
Muscle:Accurate MSA tool, especially good with proteins. Suitable for medium alignments.
ClustalW:New MSA tool that uses seeded guide trees and HMM profile-profile techniques to generate alignments. Suitable for medium-large alignments.
MAFFT:MSA tool that uses Fast Fourier Transforms. Suitable for medium-large alignments.
三種方法的結果是很類似的
newick文本
# Muscle
(
(
KP198610:0.22253,
(
NC_002645.1:0.16531,
MK334047.1:0.15607)
:0.08099)
:0.01856,
NC_019843.3:0.22538,
(
NC_045512.2:0.09935,
NC_004718.3:0.10340)
:0.11661);
# ClustalW
(
(
NC_019843.3:0.23351,
(
NC_045512.2:0.09863,
NC_004718.3:0.10330)
:0.12454)
:0.02357,
KP198610:0.23317,
(
MK334047.1:0.16005,
NC_002645.1:0.16886)
:0.09141);
# MAFFT
(
KP198610:0.23000,
(
MK334047.1:0.15815,
NC_002645.1:0.16536)
:0.08813,
(
NC_019843.3:0.22966,
(
NC_045512.2:0.09772,
NC_004718.3:0.10361)
:0.12929)
:0.03177);
MEGAX本地
構建流程
距離矩陣和自帶建樹
手動建樹結果
關於NEWICK格式
Newick實際上不僅一種格式,而是一種有序文本的構建方式。之前已經給出了建樹結果的Newick版本。實際上也有很多可以進行newick處理的工具包和軟件,python中的ete3就是其中的一種,MEGAX也可以處理newick結果。