【實驗目的】
1、熟悉構建分子系統發生樹的基本過程,獲得使用不同建樹方法、建樹材料和建樹參數對建樹結果影響的正確認識;
2、掌握使用Clustalx進行序列多重比對的操作方法;
3、掌握使用Phylip軟件構建系統發生樹的操作方法。
【實驗原理】
在現代分子進化研究中,根據現有生物基因或物種多樣性來重建生物的進化史是一個非常重要的問題。一個可靠的系統發生的推斷,將揭示出有關生物進化過程的順序,有助於我們了解生物進化的歷史和進化機制。
對於一個完整的進化樹分析需要以下幾個步驟:⑴ 要對所分析的多序列目標進行比對(alignment)。 ⑵ 要構建一個進化樹(phyligenetic tree)。構建進化樹的算法主要分為兩類:獨立元素法(discrete character methods)和距離依靠法(distance methods)。所謂獨立元素法是指進化樹的拓撲形狀是由序列上的每個鹼基/氨基酸的狀態決定的(例如:一個序列上可能包含很多的酶切位點,而每個酶切位點的存在與否是由幾個鹼基的狀態決定的,也就是說一個序列鹼基的狀態決定着它的酶切位點狀態,當多個序列進行進化樹分析時,進化樹的拓撲形狀也就由這些鹼基的狀態決定了)。而距離依靠法是指進化樹的拓撲形狀由兩兩序列的進化距離決定的。進化樹枝條的長度代表着進化距離。獨立元素法包括最大簡約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距離依靠法包括除權配對法(UPGMAM)和鄰位相連法(Neighbor-joining)。⑶ 對進化樹進行評估,主要采用Bootstraping法。進化樹的構建是一個統計學問題,我們所構建出來的進化樹只是對真實的進化關系的評估或者模擬。如果我們采用了一個適當的方法,那么所構建的進化樹就會接近真實的"進化樹"。模擬的進化樹需要一種數學方法來對其進行評估。不同的算法有不同的適用目標。一般來說,最大簡約性法適用於符合以下條件的多序列:i 所要比較的序列的鹼基差別小,ii 對於序列上的每一個鹼基有近似相等的變異率,iii 沒有過多的顛換/轉換的傾向,iv 所檢驗的序列的鹼基數目較多(大於幾千個鹼基);用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計算極其耗時。如果分析的序列較多,有可能要花上幾天的時間才能計算完畢。UPGMAM(Unweighted pair group method with arithmetic mean)假設在進化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在着一個分子鍾。這種算法得到的進化樹相對來說不是很准確,現在已經很少使用。鄰位相連法是一個經常被使用的算法,它構建的進化樹相對准確,而且計算快捷。其缺點是序列上的所有位點都被同等對待,而且,所分析的序列的進化距離不能太大。另外,需要特別指出的是對於一些特定多序列對象來說可能沒有任何一個現存算法非常適合它。
CLUSTALX和PHYLIP軟件能夠實現上述的建樹步驟。CLUSTALX是Windows界面下的多重序列比對軟件。PHYLIP是多個軟件的壓縮包,功能極其強大,主要包括五個方面的功能軟件:i,DNA和蛋白質序列數據的分析軟件。ii,序列數據轉變成距離數據后,對距離數據分析的軟件。 iii,對基因頻率和連續的元素分析的軟件。iv,把序列的每個鹼基/氨基酸獨立看待(鹼基/氨基酸只有0和1的狀態)時,對序列進行分析的軟件。v,按照DOLLO簡約性算法對序列進行分析的軟件。vi,繪制和修改進化樹的軟件。
【實驗內容】
1、使用CLUSTALX軟件對已知八條DNA序列(如下)進行多重序列比對;
M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT
M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT
M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT
Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT
Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT
Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT
Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT
Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT
2、使用PHYLIP 軟件包構建上述DNA分子系統發生樹。
【實驗方法】
一、用CLUSTALX軟件對已知DNA序列做多序列比對。
操作步驟:
1、以FASTA格式准備8個DNA序列test.seq(或txt)文件。
2、雙擊進入CLUSTALX程序,點FILE進入LOAD SEQUENCE,打開test.seq(或txt)文件。
3、點ALIGNMENT,在默認alignment parameters下,點擊Do complete Alignment 。在新出現的窗口中點擊ALIGN進行比對,這時輸出兩個文件(默認輸出文件格式為Clustal格式):比對文件test.aln和向導樹文件test.dnd。
4、點FILE進入Save sequence as,在format 框中選PHYLIP,文件在PHYLIP軟件目錄下以test.phy存在,點擊OK。
5、將PHYLIP軟件目錄下的test.phy文件拷貝到EXE文件夾中。用計事本方式打開的test.phy文件的部分序列如下:
圖中的8和50分別表示8個序列和每個序列有50個鹼基。
二、用PHYLIP軟件推導進化樹。
1、進入EXE文件夾,點擊SEQBOOT軟件輸入test.phy文件名,回車。
圖中的D、J、R、I、O、1、2代表可選擇的選項,鍵入這些字母,程序的條件就會發生改變。D選項無須改變。J選項有三種條件可以選擇,分別是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法對進化樹進行評估,所謂Bootstraping法就是從整個序列的鹼基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成了許多序列。一個多序列組也就可以變成許多個多序列組。根據某種算法(最大簡約性法、最大可能性法、除權配對法或鄰位相連法)每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比較,按照多數規則(majority-rule)我們就會得到一個最"逼真"的進化樹。Jackknife則是另外一種隨機選取序列的方法。它與Bootstrap法的區別是不將剩下的一半序列補齊,只生成一個縮短了一半的新序列。Permute是另外一種取樣方法,其目的與Bootstrap和Jackknife法不同,這里不再介紹。R選項讓使用者輸入republicate的數目。所謂republicate就是用Bootstrap法生成的一個多序列組。根據多序列中所含的序列的數目的不同可以選取不同的republicate,此處選200,輸入Y確認參數並在Random number seed (must be odd) ?的下面輸入一個奇數(比如3)。當我們設置好條件后按回車,程序開始運行,並在EXE文件夾中產生一個文件outfile,Outfile用記事本打開如下:
這個文件包括了200個republicate。
2、 文件outfile改為infile。點擊DNADIST程序。選項M是輸入剛才設置的republicate的數目,輸入D選擇data sets,輸入200。
設置好條件后,輸入Y確認參數。程序開始運行,並在EXE文件夾中產生outfile,部分內容如下:
將outfile文件名改為infile,為避免與原先infile文件重復,將 原先文件名改為infile1。
3、EXE文件夾中選擇通過距離矩陣推測進化樹的算法,點擊NEIGHBOR程序。輸入M更改參數,輸入D選擇data sets。輸入200。輸入奇數種子3。
輸Y確認參數。程序開始運行,並在EXE文件夾中產生outfile和outtree兩個結果輸出。outtree文件是一個樹文件,可以用treeview等軟件打開。outfile是一個分析結果的輸出報告,包括了樹和其他一些分析報告,可以用記事本直接打開。部分內容如下:
4、將outtree文件名改為intree,點擊DRAWTREE程序,輸入font1文件名,作為參數。輸Y確認參數。程序開始運行,並出現Tree Preview圖。
5、點擊DRAWGRAM程序,輸入font1文件名,作為參數。輸Y確認參數。程序開始運行,並出現Tree Preview圖。
6、將EXE文件夾中的outfile文件名改為outfile1,以避免被新生成的outfile 文件覆蓋。點擊CONSENSE程序。輸入Y確認設置。EXE文件夾中新生成outfile和outtree。Outfile文件用記事本打開,內容如下:
7 、將EXE文件夾中的intree文件名改為intree1,將outtree改intree。點擊DRAWTREE程序,輸入font1文件名,作為參數。輸Y確認參數。程序開始運行,並出現Tree Preview圖。
8、點擊DRAWGRAM程序,輸入font1文件名,作為參數。輸Y確認參數。程序開始運行,並出現Tree Preview圖。
【作業】
1、提交使用CLUSTALX及PHYLIP軟件進行多重序列比對及構建系統發生樹的結果;
2、總結多重序列比對及構建系統發生樹的關鍵事項。
轉載:http://www.bioon.com.cn/protocol/showarticle.asp?newsid=19432