利用MEGA-X選擇模型及構建美化進化樹


對於經常構建進化樹的朋友來說,MEGA應該是個老朋友了。MEGA從1993年的第一個版本問世一直錘煉到去年剛剛發布的MEGA-X,已經經歷了26年,在這期間,MEGA共更新八個版本,先后在Molecular Biology and Evolution、Bioinformatics、Computer Applications in the Biosciences等期刊上發表共十篇論文,總引用量已經超過11萬。對於如此熟悉的一個老朋友,讓我們今天一起來了解一下它的新版本MEGA-X,開發它更多的使用方法。 MEGA-X的官網網址是 https://www.megasoftware.net/,它支持在Windows、MacOS 以及Linux 系統下運行,有圖形界面和命令行兩個版本可供選擇,支持64 位和32 位,與之前的版本比較,MEGA-X 最大的特點是大數據運算能力增強,並且支持多種計算平台

 

今天主要介紹的是在MEGA-X圖形界面下構建系統發育樹並且對發育樹進行美化。下載安裝好MEGA-X后,首先打開軟件。

 

此處我們以一株細菌的16S rRNA序列為目標序列,首先在NCBI中進行Blast比對,下載將要一起比對建樹的菌株序列。在NCBI中輸入序列或者上傳文件,選擇數據庫時可以選擇「Nucleotide collection(nr/nt)」或者「16S ribosomal RNA sequences」數據庫,一般來說nr/nt庫信息比較全面。

 

我們選擇了10個不同種的16S rRNA序列進行下載。另外,此處還可以比對下載2-3條大腸桿菌(Escherichia coli)和沙門氏桿菌(Salmonella)的16S rRNA序列作為外類群(在Organism選項中進行物種限定),后面推斷進化時間的時候可以用到。將所有下載的序列整理在一個文件中,為了方便后面的建樹可以將菌株名稱后面多余的信息在這里替換刪除掉(只是名稱上的信息,不要改動鹼基序列),然后將文件的擴展名改為.fasta。在MEGA-X首頁選擇DATA,點擊Open a File/Session,選擇剛才的文件。

 

打開文件時詢問「Analyze or Align File?」,此處點擊Align。序列中可能會出現混合鹼基符號,混合鹼基符號指兩種或多種鹼基(核苷)混合物的表示符號,或未完全確定可能屬於某兩種或多種鹼基(核苷)的符號:R表示A+G;Y表示C+T;M表示A+C;K表示G+T;S表示C+G;W表示A+T;H表示A+C+T;B表示C+G+T;V表示A+C+G;D表示A+G+T;N表示A+C+G+T。

 

接下來選擇序列比對的方法:Muscle或者ClustalW。ClustalW的基本原理是首先做序列的兩兩比對,根據該兩兩比對計算兩兩距離矩陣,是一種經典的比對方法,使用范圍也比較廣泛。Muscle的功能僅限於多序列比對,它的最大優勢是速度,比ClustalW的速度快幾個數量級,而且序列數越多速度的差別越大。方法可以通過點擊圖中上方Alignment或者下方的圖標「W」和「Muscle」來選擇。如果你的序列是DNA編碼序列,就一定要選擇Align Codons,因為序列通過密碼子比對比DNA序列的比對會更加真實,避免間隙對比對結果產生的影響。MEGA可以比較方便快速地將密碼子排列比對,后續作為輸入文件在軟件PAML或DATAMONKEY中進行進化壓力的分析時就會比較方便。

 

在這里我們選擇Muscle進行序列排列,點擊Align DNA,會出現一些參數選項,根據自己需要進行修改,在這里直接點擊OK選擇默認參數即可。

 

比對之后要去檢查一下比對的情況,有的差異很大的或許是因為序列方向反了,這個時候要把它反轉回來,右擊這條序列,點擊Reverse Complement,反轉后一定要再次點擊Muscle比對,檢查是否大部分都對齊了。

 

這里我們可以將最后對比后的文件導出,可以導出保存為MEGA格式。

 

然后點擊Data中的Phylogenetic Analysis直接進行系統發育分析。

 

分析后返回主頁面,接下來我們要選擇一個最優的模型,提高建樹的精確度。如果想要快速建樹可以省去這一步,直接選擇默認的模型。點擊MODELS中的Find Best DNA/Protein Models(ML) 軟件就會根據你的數據幫你計算尋找最適合的模型。

 

分析時選擇默認參數,開始進行分析計算。

 

不久就會顯示分析計算結果。具有最低BIC分數(BayesianInformation Criterion)的模型被認為是最好地描述替代模式。對於每個模型,還給出了AICc值(Akaike Information Criterion, corrected,值越低擬合程度越好),以及用來計算上述兩個分值的最大似然值(lnL)和參數數量(包括分支長度)。在這里就可以看到,BIC分數最低的模型是K2+G+I,K2+G+I在這里就是最好的模型。

 

但因為實際在后面的模型選擇中,軟件有時沒有提供組合的模型來選擇,所以我們繼續看下面的BIC分數,可以找到單個模型中得分最小的,就是我們在這里要選擇的最優模型。看到這里的BIC值最低的單個模型是TN93(Tamura-Nei)。

 

模型選好后,就可以點擊PHYLOGENY進行方法的選擇了。構建系統發育樹有三種主要的建樹方法,分別是距離法、最大節約法(maximumparsimony, MP)和最大似然法(maximum likelihood,ML)。最大似然法考察數據組中序列的多重比對結果,優化出擁有一定拓撲結構和樹枝長度的進化樹,這個進化樹能夠以最大的概率導致考察的多重比對結果;距離樹考察數據組中所有序列的兩兩比對結果,通過序列兩兩之間的差異決定進化樹的拓撲結構和樹枝長度,基於距離的方法有UPGMA、ME(Minimum Evolution,最小進化法)和NJ(Neighbor-Joining,鄰接法)等;最大節約法考察數據組中序列的多重比對結果,優化出的進化樹能夠利用最少的離散步驟去解釋多重比對中的鹼基差異。在這些方法中,如果模型合適,ML的效果較好。對於近緣序列,有人喜歡MP,因為用到的假設最少,遠緣序列上一般用NJ或者ML,這兩個方法都是需要選擇模型的。對於相似性很低的序列,NJ往往出現Long-branch attraction(LBA,長枝吸引現象),這種現象有時候會嚴重干擾進化樹的構建。其實當序列的相似性比較高時,各種方法都會得到不錯的結果,模型之間的差別也不是很大。所以平時我們一般推薦用兩種不同的方法進行建樹,如果得到的進化樹類似,則結果較為可靠。這里我們先選擇Neighbor-Joining法建樹。

 

點擊方法后,選擇自展值,即重復建樹以進行檢驗的次數,一般選擇1000以上才比較可靠。模型的話選擇之前計算好的最優的模型,點擊OK。

 

稍等片刻,就初步構建好了這個樹,接下來我們對這棵樹進行一些調整和美化。首先我們看到每棵樹的前面都標有自展值,這主要是對進化樹進行評估的一個百分比值。因為進化樹的構建是一個統計學問題,我們所構建出來的進化樹只是對真實的進化關系的評估或者模擬。如果我們采用了一個適當的方法,那么所構建的進化樹就會接近真實的「進化樹」。這里的數值表示我們將該樹重復構建1000(之前設置的數值)次,得到相同結果的次數占重復次數的百分比值。一般Bootstrap的值>70%,則認為構建的進化樹非常可靠,50%-70%認為基本可靠,小於50%認為不可靠(不同的人對於這個閾值有不同的划分)。如果Bootstrap值太低,則有可能進化樹的拓撲結構有錯誤。當Bootstrap的值小於50%時,我們一般選擇隱去。

 

點擊左上的工具圖標,隱去較低的自展值可以點擊此處的Branches。

 

設置隱去50以下的數值。

 

這個工具欄里的其他選項還可以對字體和線條粗線長短等進行修改,並且將想要突出的菌株和分枝信息進行重點標注。

 

左邊的工具欄里還可以對進化樹進行修改,比如改變樹根,調整分枝的上下位置,以及重點標記突出某個分枝信息。

 

最后美化結果。

 

在這里還可以點擊樹形圖標將進化樹修改成為圓圈型和松針型。

 

結果圖展示如下。

 

為了數據更加可靠,大家可以再選擇另外一種方法進行建樹,和上一種方法構建出的進化樹進行比對。然后最后導出儲存圖片,這里提供EMP、SVG (矢量圖,可進一步通過繪圖軟件如AI編輯)、PDF、PNG和TIFF (位圖)幾種格式來導出。

 

記得將進化樹的文本文件也保存一下。點擊File中的Export Current Tree(Newick)保存Newick格式。

 

 保存后的樹文件格式如下,導出的樹文件便於之后在iTOL、Evolview、Figtree等工具中進行更進一步的美化,比如添加分類顏色、標記以及熱圖和條形圖等。

 

MEGA的使用非常方便,作為一個歷史悠久並且極具創新精神的軟件,它一直在提高自己的計算速度,豐富自己的計算平台。今天主要介紹了用圖形界面MEGA-X建樹的操作步驟,下次我們來介紹下根據MEGA-X構建的進化樹來推斷物種進化時間以及鏈接到DATAMOKEY等軟件去計算進化壓力等,期待一下吧。 參考文獻:Kumar S, Stecher G, LiM, et al. MEGA-X: Molecular Evolutionary Genetics Analysis across computingplatforms[J]. Molecular Biology & Evolution, 2018.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM