基於序列比對的系統發育分析

本文轉載自查看原文 2018-10-19 13:09 2616 生物信息學基礎

# Thanks .這是scut系統發育學課程論文。

1、簡介：

進化生物學是指研究不同生物在一段時期中的改變，其目的是提供理論，進而解釋生物多樣性的過程和機制。與證據充足的生物學相比，支持進化生物學的確鑿證據並不多，往往只能通過其他生物學分支學科提供的例證來形成理論，形成的理論來解釋這些例證。譬如鯨類為什么能適應水生環境，通過生物學上基本特征的觀察：毛發、骨盆的消失和減少，進而產生鯨類的祖先可能直接起源於毛發少的兩棲動物而非地球上的哺乳類的假設，這些假設並不直觀，往往十分錯綜。

涉及進化的分子生物學問題也是復雜的：基因隨機突變產生基因的多態性，但是這種基因的多態性是如何在種群中得以有效的保存呢?通常的解釋是自然選擇（壓力），對突變的正負選擇，使得突變得以保存或淘汰；另一種解釋是中性突變占絕大多數，多態基因是否保存取決於新基因的產生與通過遺傳漂變而使得基因消失之間的平衡。

進化生物學產生了很多分支，如分子進化主要是研究DNA、RNA、氨基酸等生物大分子的進化歷史，系統發育學主要研究有機體的多樣性以及它們的關系和類別。（我們大可不必糾結與具體的概念，只需有進化的思想。如題，序列比對提示我們用的往往是DNA等生物大分子序列，故分子進化=分子系統發育。）

進化生物學的應用：農業上可以通過人工選擇，提高作物的遺傳多樣性；醫學上可以發現病原生物與其寄主共同進化的關系，大劑量的抗生素的濫用，有可能使得耐葯性細菌得以選擇，進而使得葯物失效。很多生物學過程與機制都可以用進化的眼光去解釋（如，CRISPR/Cas9中的噬菌體與細菌對抗的選擇機制）。

2、進化理論

2.1 進化歷史：

自然選擇理論：拉馬克、達爾文，通過化石、同功器官或者其他資料佐證。

2.2 分子進化理論：

兩個基因之間的差異稱為趨異度：可用單位進化時期來表示，即產生1%趨異度所用的時間。

分子鍾是指：蛋白質氨基酸之間的趨異度與其分開后的時間成正比，每一種蛋白質的相對恆定進化速率。

中性進化理論：

生物進化基於:遺傳變異的產生和后代中的變異分選
DNA序列中的變異來自隨機突變：同義突變錯義突變（無義突變）
中性突變：對表型沒有影響的突變為中性突變：遺傳漂變是指中性突變變異體頻率的隨機變化過程
非中性突變：容易受到自然選擇：負選擇消除新突變，當變異體逐漸去除，群體內幾乎沒有變異；正選擇為有利表型，當新突變最終取代原有序列時，自然選擇降低了群體內的變異，但是可能在兩個群體之間產生更大的變異。
同義和非同義氨基酸替換的比值P可以衡量正負選擇：P>1正選擇：免疫球蛋白的肽結合區 P=1 中性進化 P<1 負選擇

中性進化學說認為：大多數突變基因為中性突變，中立突變基因在群體的固定是隨機漂移引起的，因此功能上重要的基因受到更多的選擇壓力而進化速率慢，新基因的產生主要以基因重復和不等交換方式進行。

2.3 分子進化與傳統進化的理論區別與聯系：

（注：圖片僅供學習，侵權刪！）

3、分子系統發育分析（phylogeny analysis）

3.1 概念和分析步驟

<1> 系統發育學研究的是進化關系，推斷或者評估單位之間的進化關系。通過系統發育分析所推斷出來的進化關系一般用進化樹來描述，這個進化樹就描述了同一譜系的進化關系，包括了分子進化（基因樹）、物種進化以及分子進化和物種進化的綜合。

<2>為什么使用系統進化樹？

鑒定未知的物種親屬關系最近的類型：如用核糖體RNA；通過進化樹直系同源關系，發現新的功能基因（不同物種）；重現基因起源，揭示一些基因晚期的變化。（直系同源orthologous與旁系同源paralogous：汽車輪子與輪子直接是旁系同源，輪子與轉盤是直系同源。）

<3>主要步驟有呢？

數據收集，多序列比對，數學建模，進化樹構建，檢驗評估

3.2 數據選取

下面主要講下數據選取與其對應構建的樹：

（基因水平轉移）同源基因建的樹homologous genes稱為基因樹（gene tree）;paralogous (旁系同源)，基因家族樹；orthologous （直系同源）——不同species，species tree，eg：核糖體RNA廣泛存在於各類物種，可用它構建生命之樹。

3.3 序列比對：

(一) 原理概述：

聯配，比較相似性，進行同源性分析（反映共同祖先序列進化）：可用於搜索相似序列，預測。

大概提下Needle-Wunsch算法全局比對算法、Smith-Waterman局部比對算法：引入計分方法（匹配成功+1，錯配-1，匹配空格-2，空格之間匹配0）；每次使局部分級最優，最后累達到總的最優化。

（二）多序列比對：1）、累進法：序列兩兩比對，產生向導樹，加入序列依次比對（進化距離為負分總和絕對值）2）、星比對法：兩兩比對后，選中心序列，將其他序列與中心序列對齊。

（三）比對結果：使用ClustalW（ www.ebi.ac.uk/clustalw）進行多序列比對

最后對比對序列進行改善，如下；

去除不C、N端、不匹配的區域（gap）較多的序列處也去除。

3.4 數學模型選擇：

DNA序列進化就是位點上的核苷酸隨時間的變化，包括：鹼基替換、缺失和插入。根據不同進化改變類型構建的模型有替換模型（substitution model）和indel 模型。

蛋白質序列數學模型考慮氨基酸取代速率、組成、速率變異，有經驗模型、機理模型、固定速率模型與可變速率模型：廣義時間可逆取代模型（general time-reversible model）允許氨基酸組成頻率和取代速率自由變化。

3.5 進化樹：

3.5.1 進化樹

進化樹樹可分為有跟樹和無根樹兩類。有根樹是具有方向的樹，包含唯一的節點，將其作為樹中所有物種的近的共同祖先。最常用的確定樹根的方法是使用一個或多個無可爭議的同源物種作為外群（英文outgroup），這個外群要足夠近，以提供足夠的信息，但又不能太近以至於和樹中的種類相混。把有根樹去掉根即成為無根樹。一棵無根樹在沒有其他信息（外群）或假設（如假設最大枝長為根）時不能確定其樹根。無根樹是沒有方向的，其中線段的兩個演化方向都有可能。

3.5.2 進化樹構建方法

1、距離法：UPGMA（非加權組平均法）：基於遺傳距離聚類

鄰接法（NJ）：選星狀樹，算距離，合並；

選鄰居，算距離，合並；

... ...

2、最大簡約法（MP）：根據信息位點（有序列元素比對變化）提供的各序列替換情況，在所有可能的樹中尋找含有最小替換數的樹的方法。（蛋白質的PAM矩陣時，計算替換數也會用到這種方法）

3、最大似然法（ML）：所有可能的樹中所以可能的替換數方式中，選擇可能性最大的一種方式(引入了一個基於先驗的似然函數，最后求得似然率最大時的枝長)。

4、貝葉斯法：后驗概率法

3.6 進化樹評估

自舉檢驗（Bootstrap Method）：就是一種抽樣檢驗

首先從排列的多序列中隨機有放回的抽取某一列，構成相同長度的新的排列序列；重復，得到多組序列；最后對這些新的序列進行建樹，觀察這些樹與原始樹是否有差異，以此評價建樹的可靠性。

模擬研究表明，在合適的條件下，亦即各種替換速率基本相等，樹枝基本對稱的條件下，如果自舉值大於70，那么系統發育進化樹能夠反映真實的系統發生史的可能性要大於95%。

4、系統發育分析軟件

4.1 序列准備與多序列比對

4.1.1 DNA（https://zhuanlan.zhihu.com/p/36598434 知乎白石墨）

（1）下載fasta格式序列

輸入你想查找的序列，比如Syp基因：

（2）進入基因詳細頁面：

（3）點擊左下角GenBank,進入點擊send to：下載fasta格式序列

於是我選了12條序列(1 2 3 5 6 7 8 9 10 11 12 14)：下面合並這些序列於一個fasta文件中：

得到整合文件 all_sequence.fasta.

4.1.2 Protien

NCBI查找 gamma fibrinogen（纖維蛋白）.氨基酸序列 (UniProtKB/Swiss-Prot)

O12957 (Sheep), O02672 (Moose), O02683 (Giraffe)
O02690 (Chevrotain), O02681 (Beluga) O02687 (Sperm_whale)
O02673 (Rorqual), O02688 (Pig), O12959 (Peccary)
O02677 (Dromedary), O02689 (Tapir), O02682 (Horse)
O02676 (Hyena), O02680 (Coyote), O12954 (Hippopotamus)

>sheep
RFGSYCPTTCGIADFLSNYQTSVDKDLRNLEGIFYQVENKTSEATELVKAIKISYNPDEPSKPSNIESATKNYKRMM

>Moose

RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM

>Giraffe

RFGSYCPTTCGVADFLSNYQTSVEXDLYRLESDLYQVENKTSEAKELVKAIQISYNPDEPSKPSHIESATKNSKRMM

>Chevrotain

RFGSYCPTTCGIADFLSNYQTSVDKDLHNLESILYQVENKTSEARELVKAIQISYNPDEASKPNKIESATRNSKKMM

>Beluga

RFGSYCPTTCGIADFLSXYQTSVDKDLQNLEGILRQVENKTSEARELVKAIQISYRSDGPAKPNGIESATKISKKVL

>Sperm_whale

RFGSYCPTTCGIADFLSTYQTNVDKDLQNLEGILRQVENKTSEARELVKEIQISYRSDGPAKPSGIESATKNSKKML

>Rorqual

RFGSYCPTTCGIADFLSTYQTSVDKDLQNLEGILRQVENKTSEARELVKAIQISYRSDGPAXPNGIDSATKISKKML

>Pig

RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML

>Peccary

RFGSYCPTTCGITDFLSTYQNTVEKDLQNLEGILHQVENKTSEAKELIKAIQISYNPDXPSKPDRIQSATKDSKKML

>Dromedary

RFGSYCPTTCGIADFLSTYQNSVDKDLQTLEDILHQVENKTTEARELIKAVQISYNPAEPSKPSRIESATKDFKKMM

>Tapir

RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML

>Horse

RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM

>Hyena

RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM

>Coyote

RFGSYCPTTCGIADFLXTYQTGVDNDLQALEDLLRRIENKTAEAKEVIKSIQITYNPDEPPKPNRVVGATXDSKKMM

>Hippopotamus

RFGSYCPXTCGVADFLSNYXTSVDKDLQNLESIVHEVENKTSEARELVKAIQISYNPDEPEKPSRIESATKNSKKMX

4.1.3 多序列比對

使用ClustalX 2.1 進行多序列比對：

File-load 載入合並后的文件all_sequence.fasta.

點擊Alignment-Alignment Parameters :一般默認就行（23333）

點擊Output Format option :勾選PHYLIP 格式點擊ok

點擊 Do Complete Alignment ，程序運行，輸出 aln、dnd（前導樹文件，和進化樹很像）、phy后綴的三個文件。

結果需要編輯第一列只留下物種名，序列去掉5',3'端的空序列（因為要比對序列同源性，最好把顯示 - 的序列去掉，使多序列的兩端整齊，類似矩陣）

4.2 MEGA

（1）打開MEGA-X，將aln格式文件轉換成Mega格式：得到all_seq.meg格式文件

（2）導入meg文件：選擇Nucleotide sequences。

（3）PHYLOGENY：選擇建樹方法（構建ML樹）

建樹方法、分子數檢測方法、鹼基替換數學模型。若序列為protien可以選取：廣義時間可逆取代模型（general time-reversible model）。

程序運行過程：

獲得進化樹：窗口有兩個屬性頁，一個是Original tree ，一個是bootstrap 驗證過的一致樹，bootstrap值大於70的話，一般情況下有95的可能性重構進化過程。

可以使用多種建樹方法可得出不同的樹，根據自舉值對進化樹進行優化，這里不討論進化樹的生物學意義。

4.3 Phylip

Phylip是一個免費的系統發育構建軟件包：按照建樹所需使用軟件包來infile-outfile的過程

軟件包如下：常用的有seqboot dnadist protdist consense

（1）PHY文件：ClustalX 2.1導出的*.phy文件格式有sequence和interleaved兩種。這次使gamma fibrinogen氨基酸序列來建樹。文件第一行包括兩個數：第一個數為欲分析的序列數第二個為各組分析的鹼基或氨基酸數（最少的）。

clusterX比對結果顯示蛋白同源性

interleaved文件格式

（2）運行seqboot程序：

1）首先將獲得的*.phy數據名改為：seqbootinfile.phy,輸入數據文件名：C:\GF\seqbootinfile.py

2）程序需要輸入一個隨機數（4n+1），輸入1111，選項包括數據套大小（100-1000），檢測方法；程序運行之后得到一個outfile的文件；最后enter鍵退出。

（3）運行Prodist：距離法，將上一步的outfile改成prodistinfile;打開Prodist程序（使用NJ法構建進化樹，如使用其他算法，則使用其他軟件），輸入m，回車；輸入D，回車，輸入1000（其實默認就行）；輸入Y，最后獲得一個outfile。

（4）運行neighbor程序：使用NJ法建樹，將上步outfile改為neighborinfile；打開程序，鍵入文件，m，回車；鍵入1000；奇數1111，回車；Y，運行一段時間得到outfile和outtree：outfile是分析結果的輸出報告，outtree可用treeview打開。