目前鑒定全基因組加倍(whole-genome duplication events)有3種
-
通過染色體共線性(synteny)
方法是比較兩個基因組的序列,並將同源序列的位置繪制成點狀圖,如果能在點狀圖中發現比較明顯的長片段,切較多,便可以推測是由於大尺度的基因組重復以后保留下來的痕跡,,而一般我們假想這種大尺度的基因組重復往往就是全基因組的重復。同樣,對於單個物種而言,我們也可以繪制基因組內部的共線性的點狀圖,如果發現同一個物種的基因組的區間可以匹配到多個不同的區間中,這就暗示了該物種經歷過基因組的加倍事件。利用共線性方法有一個弊端就是需要依賴全基因組的序列和基因順序,因此只有做了全基因組測序才能進行共線性分析,不過這在基因組測序技術飛速發展的今天也不是什么難事。
在向日葵的這篇文章中,作者就用到了這種方法,三個點狀圖分別是向日葵、洋薊、咖啡的基因組內部共線性分析。每個圖的橫縱坐標的方格代表一條染色體。例如,最左邊的向日葵基因組有17條染色體。對角線當然是每個基因和自己本身的共線性。而對角線之外的點,代表分布在不同位置的旁系同源基因對。圖中圓圈標注的位置,就是明顯的基因組加倍事件的痕跡——3號染色體的一段和9號染色體的一段有明顯的共線性。手機屏幕太小看不清?下面有高清圖:
。
這個明顯的痕跡就是向日葵獨有的全基因組二倍化事件WGD-2留下的痕跡,當然其實還有很多,眼力好的同學可以自己連連看一下。那么前兩次WGT留下的痕跡呢?全基因組加倍事件可以一次性增加一個物種所有的基因拷貝,在自然選擇的作用下,倍增后的基因經歷不同的命運:部分拷貝丟失,失去功能(假基因化);部分拷貝獲得新的功能(新功能化);或者各自行使祖先基因的部分功能(亞功能化)
-
同義突變率ks
這是比較流行的方法。這種方法的背景是認為Ks值在某種程度上反映了同源基因的產生時間。而全基因組加倍事件會產生大量的同源基因,反映在Ks值上便是會有大量的Ks值接近的同源基因對的產生,這樣通過繪制Ks值的分布圖便可以發現明顯的Ks值峰,而這些峰也就對應了全基因組加倍事件。這種方法是基於兩點假設:1.基因的突變頻率是穩定的;2.同義突變(Ks)不會影響物種適應性,因為並不會造成氨基酸序列的變化。
舉個簡單的例子,如果我們要進行人口調查,研究哪一年是生育高峰,我們不需要回去查醫院的出生記錄(或者根本沒有),只需要調查現在的人口年齡構成,就可以看出哪個年齡是有一個高峰,那么那個年齡的人出生的年份,就是生育高峰。甚至,假如被調查的人都忘記了自己的年齡(一個很大的假如,可以認為是集體失憶造成的),我們都可以通過臉上的皺紋、頭發的稀疏等外部特征來推斷被調查人的年齡。如果是這樣的話,我們同樣是基於兩點假設:1.皺紋的增長,頭發的脫落是穩定的;2.皺紋和頭發並不會影響死亡率。
言歸正傳,要進行Ks分析,首先要找到同源基因對,在不同的物種里面(比如向日葵-咖啡),是找最近的直系同源基因(ortholog),而在基因組內部(比如向日葵-向日葵),則是找最近的旁系同源基因(paralog)。通過計算這些基因的Ks值,我們就可以繪制出不同Ks值基因數量的分布圖。
在這幅圖中,橫坐標是同源基因對的Ks值的分布( 最大似然法F3x4 model),縱坐標為同源基因的數量,不同顏色的柱子代表不同的物種組合,比如黑色就是向日葵基因組內部的Ks分布。每一個峰都對應一次全基因組加倍事件,比如向日葵的WGD-2,因為發生的較晚,所以峰所在的位置Ks值較小,而且峰比較明顯。而最下面橙色的峰,是咖啡發生的全基因組三倍化事件,峰值所在位置Ks值較大,但峰已經很不明顯。同樣,藍色的峰為洋薊的WGT-1事件,紫色的峰代表向日葵和咖啡的分化事件。最左邊向日葵黑色的峰,其實是向日葵的重復序列造成的,不是真正的Ks峰。
不僅如此,有了Ks值,我們還可以計算全基因組加倍事件發生的時間,只要知道鹼基同義替換的速率r就可以了。在這里,這篇文章的作者在一個神奇的網站www.timetree.org查詢了物種的分化時間,向日葵和咖啡的分化時間是100MYA,那么根據公式:分化時間=Ks/2r,就可以計算每年每個同義替換位點發生替換的速率為r=8.25E-9。然后用這個r值去計算不同的基因組加倍事件發生的時間,最終得出了我們在上文提到的時間:WGTγ (Ks=2.02-2.71, 122-164 MYA), WGT1 (Ks=0.63-0.82, 38-50 MYA) ,以及WGD2 (Ks=0.48, 29 MYA)。是不是跟做小學乘除法一樣簡單?
當然Ks值也有一些不可避免的限制,比如很難應用於比較古老的基因組加倍事件的識別,這是因為隨着時間的推移,同源基因對之間的Ks值會發生變化,而對於古老的基因組加倍事件而言,其所產生的同源基因對的Ks值的變化可大可小,最后反映在Ks值的分布上就會發現方差很大的一些Ks,這樣就很難推算是否有一個明顯的Ks峰值了。另外,由於隨着時間的延長,同義替換趨於飽和,會導致Ks值計算的偏差,對於尋找古老的基因組加倍事件造成困難。
-
系統發生組學的方法
系統發生組學是通過構建大量的基因樹,然后比較基因樹和物種關系的參考系統發生樹,找到上面的差異,這些差異往往是由於基因重復導致的。如果能發現大量的基因樹中在同一物種樹節點上都有基因重復事件,那么一個比較直接的猜想就是這個節點發生了一次基因組的復制事件。系統發生組學的方法比較困難,計算量大,這里不再詳述。
關注下方公眾號可獲得更多精彩
參考鏈接
1. 從人見人愛的向日葵說起——Ks與全基因組多倍化事件
2. The sunflower genome provides insights into oil metabolism, flowering and Asterid evolution