菜豆屬(Phaseolus L.)為同源二倍體作物,包含有80 多個物種,多數為野生種,僅有5 個栽培種,分別為普通菜豆(P.
vulgaris L.)、多花菜豆(P. cocineus L.)、利馬豆(P.
lunatus L.)、叢林菜豆(P. dumosus L.)和寬葉菜豆(P. acutifolius L.),其中普通菜豆在世界范圍內種植范圍最廣、栽培面積最大、食用人群最多。普通菜豆籽粒富含蛋白質和多種微量元素,且脂肪含量非常低,是人類極佳的植物蛋白來源。
普通菜豆有兩個獨立的起源中心,中美基因庫和安第斯基因庫。因此,美國和西班牙科學家先后發起了對中美基因庫(G19833)和安第斯基因庫(BAT 93)代表性材料的全基因組測序計划。
兩個研究團隊都發現了普通菜豆的兩個基因庫在豆科基因組發生復制之后再次發生了基因的復制現象。
研究一:G19833組裝,2014NG
通過454 測序平台獲得 24.1 Gb 的數據量,同時利用 Sanger 測序法完成了 3 個 fosmid 文庫和兩個 BAC 文庫的末端測序,並結合包含 7 015個 SNP 標記的基於 F2 群體和 261 個 SSR 標記的基於 RIL 群體的遺傳圖譜進行序列組裝。最終,組裝scaffold 序列總長度為 521 Mb,而 contig 序列總長度為 472.5 Mb,占預估基因組大小 587 Mb 的 80%。G19833 基因組的重復序列約占 45.4%,其中 LTR反轉錄轉座子是最多的一類,占基因組的 36.7%。同時,研究團隊完成了根、莖和葉等 11 個組織的轉錄組測序用於基因的預測和分析,共鑒定出 27 191 個基因。
菜豆與大豆比較Circos圖。
(a)灰色線連接重復的基因。
(b)染色體結構,着絲粒和着絲粒周圍區域分別為黑色和灰色(比例以 Mb 為單位)。
(c)以 200 kb 為間隔的 1 Mb 滑動窗口中的基因密度。
( d ) 在 1 Mb 的滑動窗口中以 200-kb 的間隔重復密度。
(e)基於 6,945 個 SNP 和 SSR 的遺傳和物理作圖的重組率。
( f , g ) 第一個共線區 ( f ) 和第二個與大豆共線區 ( g ) 由於譜系特異性復制導致菜豆中的每個片段都有兩條染色體片段。
對來自中美洲和安第斯野生種群的 30 個個體進行了合並重測序,形成測序池pool
菜豆的馴化
(a)野生中美洲和安第斯普通豆池的分化。大約165,000 年前,野生安第斯基因庫與野生中美洲基因庫分道揚鑣,群體少,瓶頸持續了大約76,000 年。瓶頸之后是指數增長階段,一直延續到今天。兩個庫之間的不對稱基因流在維持遺傳多樣性方面起着關鍵作用,尤其是在安第斯種群中,平均遷移率M 21 = 0.135(野生中美洲到野生安第斯)和M 12= 0.087(野生安第斯山脈到野生中美洲)。這種情況符合普通豆的中美洲起源模型,具有早於馴化的安第斯瓶頸。( n anc , 祖先種群的大小; t div , 瓶頸的開始; n b , 瓶頸種群的大小; t b , 瓶頸的長度)
( b ) 基於來自普通豆 DNA 庫重測序的 SNP 數據的種群基因組分析。每個池的圓圈大小與池的π值成正比。野生中美洲 (MA) 池的π = 0.0061作為參考。Fst代表任何兩個池的差異,記錄在連接池的線上。Land,地方品種;N,北;S,南;C、中。
(c)普通豆種子大小的變化。野生中美洲和安第斯豆類(各兩個)的種子小於對應於參考基因型 (G19833) 和美國種植的多種市場常見豆類的種子。
菜豆演化過程中多樣性的下降和分化
( a , b ) 10-kb/2-kb 滑動窗口中的全基因組范圍的分化指數Fst和馴化相關的多樣性π ratio統計,( a ) 中美洲 和 ( b )安第斯。Log 10 π小於零的未顯示。線條代表每個統計量的經驗分布的 90%、95% 和 99%
種子重量的GWAS分析
( a ) 在美國的 4 個地點種植了一個由 280 個個體組成的中美洲栽培品種。表型數據與 34,799 個 SNP 標記相結合,並使用控制群體結構和基因型相關性的混合模型進行分析。
(b)在 Pv07 上種子重量GWAS 結果與 1.23 Mb 左右大小的連鎖不平衡(r2)掃描窗口。用於馴化的候選基因的位置由 GWAS 顯示上方的星號表示。候選范圍從Phvul.007G094299到Phvul.007G.99700。
研究二:BAT 93組裝,2016 genome biology
2016 年西班牙科學家領導的研究團隊完成了 BAT 93 的全基因組測序,同美國科學家的測序策略基本一致,采用多種方法相結合進行基因組的測序組裝,最終,獲得 549.6 Mb 的序列,與預期的基因組大小基本一致,重復序列占基因組的35%,LTR 反轉錄轉座子仍是重復序列的主要類型。通過對 34 個不同的組織或是時期的 RNA 文庫的測序,鑒定出 30 491 個編碼基因。
BAT93 組裝概述。
a scaffold00017 的GBS示例。定義的錯誤裝配點位於中心。顏色表示 GBS 樣本和參考基因組之間的不同變異:藍色,純合變異;淺藍色,雜合變異;灰色,沒有任何變體。顏色對應於連鎖群。
b BAT93(綠色)和G19833(棕色)連鎖群之間一對一同源基因的類同線性比較。顏色對應於連鎖群。
c Circos 圖表示菜豆連鎖群的基因含量和轉錄組圖譜。外環代表跨bean連鎖群的基因定位。灰色區域意味着包含基因,而白色區域則是注釋基因中缺失。紅線顯示的是連鎖群的重復覆蓋。不同顏色的方塊代表不同類型的基因:紅色,smallRNAs;藍色,lncRNA;黃色,豆類特有的;黑色, 抗性。划定連鎖組的水平條下方的內環代表不同器官的 RNA-Seq 覆蓋率:軸向分生組織、花、豆莢、種子、葉、根和莖
lncRNAs 在菜豆中的保守性和表達模式。
12 種植物中 lncRNA 轉錄本的系統基因組學分析。顯示了在至少一種其他植物中保守的 762 個豆類轉錄本(屬於 507 個基因)。與豆類序列相似性百分比繪制熱圖,其中綠色表示高度相似,灰色表示缺失的轉錄本。最左邊的一列表示豆類的平均表達水平,最右邊的一列標記了從擬南芥同源物推斷的 56 個轉錄本。
系統基因組學分析。
基於對 172 個廣泛存在的單拷貝直系同源基因,采用最大似然分析物種系統發育。兩個不同的菜豆種質具有不同的顏色。條形代表每個物種的基因總數(頂部的刻度)並被划分以指示不同類型的系統發育譜:綠色,廣泛存在的蛋白質,在 14 個物種中的至少 12 個中發現;在六種豆科植物中的至少四種中發現的灰色,廣泛存在但豆科植物特有的蛋白質;淺橙色,基因沒有明確的系統發育譜;棕色的,在其他物種中沒有(可檢測到的)同源物的物種特異性基因。每個條形下方的細藍線代表在給定物種中具有同源性的菜豆G19833 基因的百分比。相反,橙色細線代表在給定物種中具有同源性的菜豆 BAT93 基因的百分比。
轉錄組動態學。
a菜豆的發展階段。
b基於蛋白質編碼基因 ( PCG )表達水平的豆類樣品分層聚類。
c PCG 和 lncRNA 基因的組織特異性。條形圖代表基因在給定數量的器官中表達的比例。
d餅圖代表器官特異性 PCG 和 lncRNA 跨器官的分布。
e發育過程中的差異 PCG 和 lncRNA 表達。每個條形對應於在給定發育階段與前一個階段相比差異表達的基因數量。高於和低於零的值分別表示上調和下調基因的比例;受調控基因的數量顯示在相應條形的頂端。
共表達網絡。
a 共表達網絡排布:11 個最大的模塊用不同的顏色着色,並標有它們假定的功能。
b 共表達網絡中最大模塊的組成(PCG 和 lncRNA 的數量,以及器官特異性基因的數量)。顏色對應於(a)中網絡中的顏色。
c 基因連通性作為進化年齡的函數。
d 基因連接作為旁系同源物存在/不存在的函數。
基因復制與表達模式。
a 分配給不同相對進化時期的物種列表。紅色方塊代表重復事件。
b為分配給特定時期的蛋白質計算的平均 Pearson 相關系數 (PCC) 和組織表達互補性 (TEC) 分數。在特定年齡復制的基因數量在 x 軸括號中表示。
c基因表達變異與基因重復之間的關系。
文章重點研究了器官發育和形成背后的基因表達模式,以及這與潛在基因進化的關系。總體而言,與之前對常見豆類轉錄組的分析一致,發現大約 70% 的基因在發育過程中或跨器官表現出調節表達;一些基因在特定階段高度表達,如核酮糖-二磷酸羧化酶和來自葉和種子樣品中菜豆蛋白家族的貯藏蛋白。
結論:
- 提供了中美洲普通菜豆品種的基因組、轉錄組和系統基因組數據。
- 比較兩個獨立馴化的譜系,表明大多數豆類特異性基因家族的擴展,包括那些涉及抗性基因的擴展,早於中美洲和安第斯基因庫的分裂,因此早於馴化。這表明關鍵的預先存在的適應性可能促進了某些物種的馴化。
- 轉錄組圖譜顯示 lncRNA 在相關組織(豆莢和種子)中特別豐富,這表明它可能在果實發育中發揮作用。
- 指出基因復制在植物中形成差異組織和發育表達方面的重要作用。隨着基因家族通過連續的復制次數變得更大,它們的表達模式變得更窄,彼此不同。
reference
2021普通菜豆基因組研究進展