--系統進化樹-原理介紹及軟件使用--
引自:http://blog.sina.com.cn/s/blog_670445240101l3ai.html
什么叫系統進化?
系統發生分析一般是建立在分子鍾基礎上的。分子鍾:分子序列進化是按照一恆定速率進行的,所以積累突變的數量和進化時間成一定比例,基於這個假說,發生樹上的樹枝長度可以用來估算基因分離的時間。
什么叫系統進化樹(Phyligenetic tree)?
系統進化樹是對多序列比對(MSA)結果以樹形圖形式的一個呈現,對於研究進化關系有很大的幫助,通過進化樹分析我們也可以關鍵功能基因和蛋白得出一些假說。
如上圖所示,進化樹可以有不同的表示形式
上圖很好的反映了進化樹構建的依據:1,隨着物種進化的演繹,進化水平越相近的物種他們的序列越接近;2如果是由同一個物種演化過來的,分化出來的不同物種會保留共同祖先的印記,這是區別於其他的祖先的。
系統進化樹分有根(rooted)和無根(unrooted)樹。有根樹(歸於一個節點)反映了樹上物種或基因的時間順序,而無根樹只反映分類單元之間的距離而不涉及誰是誰的祖先問題。
進化樹的構建
進化樹的構建大體要分為3步:序列的比對,建樹,然后驗證。
1,序列的比對:做ALIGNMENT的軟件很多,最經常使用的有CLUSTALX和CLUSTALW
2,構建進化樹有兩種基本的方法:獨立元素法(discrete character methods)和距離法(distance methods),基於距離的構建方法UPGMA(Unweighted pair group method with arithmetic mean,平均連接聚類法)、ME(Minimum Evolution,最小進化法)和NJ(Neighbor-Joining,鄰接法);基於特征的構建方法:最大簡約法(MP法),最大似然法(ML法),進化簡約法(EP法),相容性方法等。
不同的方法可能會得到不同的結論,我們需要用不同的方法以及不同的參數,加上對生物問題的理解來構建最好的進化樹來幫助我們更好的理解生物學問題。其中一個衡量樹的好壞的方法就是看bootstrap的值,值越大越好,
距離法:
距離依靠法是指進化樹的拓撲形狀由兩兩序列的進化距離決定的。進化樹枝條的長度代表着進化距離
1,所有的距離法首先通過倆倆比對產生一個“距離矩陣”,然后計算出每對序列的基於距離,簡單的理解基因距離就是兩個序列沒有匹配上的個數(當然,實際計算比這個要麻煩的多);2,然后這個倆倆比對距離矩陣用來判斷距離最近的兩個序列,這兩個序列來形成進化樹的兩個樹枝,這些倆倆比對的距離矩陣然后重新開始找序列最近的兩個序列,但這次最相近的兩個序列通過一個節點連接到樹上,以次往下推,直到結束。3,再根據距離畫好這個樹。
這個方法的優點就在於快速,缺點為:1它的准確與否是建立在這樣的假說上的:additive distances (always)和molecular clock (sometimes);2 Information loss occurs due to data transformation ;3 Uninterpretable branch lengths;4 Single “best tree” found.
獨立元素法:
所謂獨立元素法是指進化樹的拓撲形狀是由序列上的每個鹼基/氨基酸的狀態決定的(例如:一個序列上可能包含很多的酶切位點,而每個酶切位點的存在與否是由幾個鹼基的狀態決定的,也就是說一個序列鹼基的狀態決定着它的酶切位點狀態,當多個序列進行進化樹分析時,進化樹的拓撲形狀也就由這些鹼基的狀態決定了)。根據transition probabilities, base frequencies, rate heterogeneity等等求出最大的概率圖
舉個硬幣的例子來說明問題吧
Likelihood (L) = Probability (dataobserved | model)
Data : HHTHTH
Model 1 : fair coin Prob(H) = 0.5, Prob(T) = 0.5
Model 2 : 2-head coin Prob(H) = 1.0, Prob(T) = 0.0
Model 3 : 2-tail coin Prob(H) = 0.0, Prob(T) = 1.0
L (Data|Model1)
= Prob(H|Model1) * Prob(H|Model1) * Prob(T|Model1) * Prob(H|Model1) *
Prob(T|Model1) * Prob(H|Model1)
= 0.5 * 0.5 * 0.5 * 0.5 * 0.5 * 0.5 = 0.0156
L (Data|Model2) = 1.0 * 1.0 * 0.0 * 1.0 * 0.0 * 1.0 = 0.0
L (Data|Model3) = 0.0 * 0.0 * 1.0 * 0.0 * 1.0 * 0.0 = 0.0
同理對於maximum likelihood
Find the model that maximizes the likelihood of the observed data
Data : GGACGCCTGACGCCGCTCGG
Model 1: equal base composition - 0.25, 0.25, 0.25, 0.25 – A, C, G, T, respectively
Model 2: G+C bias - 0.1, 0.4, 0.4, 0.1 – A, C, G, T, respectively
Model 3: A+T bias - 0.4, 0.1, 0.1, 0.4 – A, C, G, T, respectively
L (Data|Model1) = Prob(G|Model1)*Prob(G|Model1)*Prob(A|Model1)*...* Prob(G|Model1) = 0.2520 = 9.1x10-13
L (Data|Model2) = 0.416 * 0.14 = 4.3x10-11 ← maximum likelihood
L (Data|Model3) = 0.116 * 0.44 = 2.6x10-18
對於核酸替代進化模型需要考慮兩個因素:1每個鹼基出現的概率;2根據進化關系確定的每個鹼基轉移的概率。有很多進化模型,合理選擇。
優點:基於精細的進化模型;可以對特殊的樹形拓撲圖的相似性統計評估;經常返回很多相似的圖(Often returns many equally likely trees),比其他的方法呈現的結果要好。 缺點:計算花時間,Often returns many equally likely trees.
3,Bootstrap驗證
這是目前公認的比較好的檢驗方法,采用隨機抽樣的方法組成新的序列,然后序列比對,出現同樣的比對結果的概率,如下圖所示,我們對一定長度序列有放回的抽取,抽取次數跟序列長度一樣,pr1為第一次隨機抽樣的模式,第一個鹼基被抽中了1次,第二個鹼基被抽中了3次,第三個鹼基被抽中了1次……然后以這種模式抽提所有的比對的序列形式新的序列,然后在對新的序列進行構圖,同理,隨機產生新的模式,重復之前的步驟,這樣的隨機產生的模式一共1000組,最后求出模中節點出現的概率即為該序列比對的bootstrap概率。
這種方法需要兩種假設:數據量足夠大;The data are identically and independently distributed。
Bootstrap values
> 90% strongly supported
70 > 90% well supported
50 > 70% weakly supported
< 50% not supported
上面兩個圖bootstrap原理一樣,但是在建立取點模式上有一點點不一樣。
對進化樹的分析
假設上面的比對結果都有一個不錯的bootstrap驗證,基因X’,X’’,X’’’,X’’’’直系同源,Y,Y’跟這幾個旁系同源(直系來源於基因的分化,旁系來源於基因的復制),圖1是我們的參考進化圖,反應的跟我們預期的一樣,圖2中跟我們預期的圖1一比,我們懷疑可能是發生了基因水平轉移(HGT);圖3,我們發現了一個旁系同源基因,在其他的物種中沒有發現旁系同源,所以我們懷疑可能是發生了基因復制;圖4我們看到旁系同源基因也跟其他的物種同源,可以推斷出這個復制的過程在這兩個物種的祖先就已經發生了。
表1 構建分子進化樹相關的軟件
軟件 網址 說明
ClustalX http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ 圖形化的多序列比對工具
ClustalW http://www.cf.ac.uk/biosi/resear ... loads/clustalw.html 命令行格式的多序列比對工具
GeneDoc http://www.psc.edu/biomed/genedoc/ 多序列比對結果的美化工具(可以導入fasta格式的文件,出來的圖可用於發表,我用過)
BioEdit http://www.mbio.ncsu.edu/BioEdit/bioedit.html 序列分析的綜合工具
MEGA http://www.megasoftware.net/ 圖形化、集成的進化分析工具,不包括ML
PAUP http://paup.csit.fsu.edu/ 商業軟件,集成的進化分析工具
PHYLIP http://evolution.genetics.washington.edu/phylip.html 免費的、集成的進化分析工具
PHYML http://atgc.lirmm.fr/phyml/ 最快的ML建樹工具
PAML http://abacus.gene.ucl.ac.uk/software/paml.html ML建樹工具
Tree-puzzle http://www.tree-puzzle.de/ 較快的ML建樹工具
MrBayes http://mrbayes.csit.fsu.edu/ 基於貝葉斯方法的建樹工具
MAC5 http://www.agapow.net/software/mac5/ 基於貝葉斯方法的建樹工具
TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html 進化樹顯示工具(加紅色標注的為最通用的分析軟件)
用mega和genedoc做出漂亮可更改的蛋白質比對圖
序列美化工具介紹(可用於論文中):http://wenku.baidu.com/link?url=HhsVNpqf3pfopEfbngd46CYVOS_91BqjPCuAbUqj7CcJdvE1jhPeaRZH2ctZARS5-lNk1dyko-NSd92_sgMs5AqYOl_NIc0vNBOdD-a1KYi