日本朝顏(牽牛花)的基因組測序和分析


日本那部號稱世界上最早長篇寫實小說的《源氏物語》第四卷《夕顏》中有這樣的一句話:名花褪色終難棄,愛煞朝顏欲折難!此處對“朝顏”有個注解:朝顏即牽牛花。呵呵,還挺詩意好啦,我們直接切入正題,看看Japanese都對牽牛花做了些啥子,竟然發了NC嘞~

篇幅有限,本文就不po原文啦,要看的自行百度唷

 

研究背景

 

知道么,牽牛花和番薯一樣都屬於番薯屬喔,番薯屬還是旋花科中最大的屬!(厲害了wuli牽牛花)牽牛花(日本朝顏)一直以來都被作為模式生物來研究花卉性狀的遺傳基礎,並且擁有超過1500個突變系。本文作者利用二代和三代測序數據,組裝出牽牛花基因組,進而將scaffolds掛載到了15條染色體上。然后利用組裝基因組檢測Tpn1家族的轉座子,這類轉座子作為形成牽牛花的誘導因子,以及在分析矮桿基因CONTRACTED中的重要作用而廣為人知(拓展:牽牛花屬於旋花科,但矮牽牛就屬於茄科啦)。最后對旋花科和茄科物種進行了比較基因組學分析。

 

材料

 

牽牛花TKS株系

 

測序方法

 

通過PacBio測序得到39.4 GB,共52.6×三代數據,read N50為10.3 kb,最長read長度為48.1 kb,平均read長度為6.8

kb。構建300 bp和500 bp的2個PE150小文庫和插入片段分別為3 kb、5 kb、10 kb(*2)、15 kb及20 kb的6個大文庫,利用Illumina HiSeq測序獲得906×二代數據。

 

研究結果

 

1、基因組組裝

作者先通過流式細胞術評估確定基因組大小在750 Mb左右,再利用PacBio數據初步組裝到contig水平,得到基因組大小為736.4 Mb,contigN50為1.83 Mb。將二代小文庫與基因組比對,共檢測到1,532個SNP,20,479個deletion和6,549個insertion,進而得出組裝的單鹼基准確率達到99.99%,看來組裝效果還是不錯噠~接着利用二代小文庫數據對組裝基因組進行糾錯,並去除了長達1.15 Mb的線粒體和葉綠體序列。然后利用二代大文庫數據進行scaffold搭建,並利用PacBio數據進行補洞,最終組裝基因組的scaffoldN50達到3.72 Mb。作者還利用Soapdenovo2進行了組裝,得到的基因組大小為1.1 Gb,而當只考慮1 kb以上的scaffolds和contigs時,基因組大小則為768 Mb,scaffoldN50為3.5 Mb,contigN50為9.5 kb。

 

2、錯拼檢測和染色體構建

 

scaffold水平的基因組組裝完成,接下來就該掛載染色體啦~

首先利用基於Illumina的RAD-seq(簡化基因組測序)技術對兩個親本和207個子代樣本進行測序,分別獲得86.1 Mb的親本reads,和562.2 Mb的子代reads。掛載前,先將reads與組裝基因組進行BWA比對,過濾掉重復及沒有限制性酶切位點的reads。為了使得最終80%以上的樣品中含有marker,並且每個樣品中至少含有80%的marker,作者又利用STACKS來檢測SNP並過濾marker。接下來,就是利用Onemap構建遺傳圖譜了。

根據遺傳圖譜檢測並糾正錯拼造成的scaffold嵌合體。如果一條scaffold含有一串指向兩個不同連鎖群的連鎖標記,並且兩種標記之間以N(即gap)相連,就將其作為嵌合體在N處分開。對於contig水平的嵌合體,則將其分為三部分,頭尾的部分分別屬於兩個不同的染色體,中間部分依舊作為嵌合體保留。在scaffold搭建完成后,進行了第一次scaffold嵌合體切割,斷開了52條scaffolds,而補洞完成后,又斷開了29條scaffolds。但是contigN50和scaffoldN50依舊能達到1.87 Mb和2.88 Mb。最后將scaffolds之間以gaps連接成染色體,然后根據marker的順序確定scaffold方向,marker不足的忽略方向問題,但依舊會作為染色體的一部分。最終染色體覆蓋率達到了91.42%,其中包括25.53%未定向的scaffolds。

 

3、組裝評估

CEGMA和BUSCO都可以用來評估組裝完整性,作者就利用這兩種方法相互印證。CEGMA評估結果顯示,組裝完整性達到了94.35%,擁有99.60%的核心基因;BUSCO結果顯示完整性也達到了95%。進一步評估表明,在93,691個ESTs中有99.11%的支持率,其中coverage在90%以上的EST占97.40%;而20,874個BAC對scaffolds和染色體的支持率則分別是94.92%和97.78%;將轉錄組數據與組裝基因組比對,發現來自胚胎組織的轉錄組比對率為94.7%,而其余5個組織(根、莖、葉、花、胚胎、種子)的轉錄組比對率則為96%。這說明牽牛花中保留了大部分保守的核心基因,並且組裝質量高。5條約100 kb的全長BAC序列都能完整覆蓋到scaffolds上,其中一條BAC序列包含了12.6 kb的Tpn1家族的轉座子——TpnA2,這也說明了長序列和高拷貝數的重復元件都已成功組裝出來。

舉個例子證明,作者在30條攜帶有端粒重復元件(AAACCCT)的scaffolds中檢測到串聯重復序列,其中13條因為完全由串聯重復序列組成,而無法掛載到遺傳圖譜上。並且,作者在染色體2、6、8、14號的兩端都檢測到了串聯重復序列,但在染色體3、4、5、9、10、12、13、15號中只在一端檢測到。另外還發現18s、5.8s和25s都與串聯重復區域中的NOR(nucleolar organizer regions)區域相關,但5s rDNA序列卻離NOR區域很遠。

 

4、重復序列分析及Tpn1轉座子識別

完成了基因組組裝,就可以進一步注釋分析啦~

首先使用RepeatModeler預測重復序列,得出基因組重復序列含量為63.92%,其中LTR(長末端重復序列)占比最高。而LTR中,copia和gypsy元件分別占基因組的12.92%和14.46%。通過識別末端反向重復序列(terminal inverted repeat,TIR)和靶位點重復序列(target site duplication,TSD)檢測到339個Tpn1家族的轉座子。在這些轉座子中,除了一個轉座子含有的TSD序列是5 bp之外,其他全都只有3 bp。由BLAST比對結果顯示,大部分Tpn1轉座子在5’和3’末端區域都含有SRR序列。已知TIR和SRR是轉座子轉錄的順式調控元件(cis-requirements存在於DNA鏈上,對轉錄調控起作用;trans-不存在於DNA鏈,但與cis結合,對轉錄調控起作用的反式作用因子),那么可以推測Tpn1轉座子很有可能是可以轉座的。但同時發現32個Tpn1轉座子的SRR區域中包含了大量重排,所以這些轉座子也有可能已經失活了。有29個Tpn1轉座子存在於基因的5’UTR和內含子區域,這有可能會干擾到基因功能。作者猜測Tpn1家族自發的轉座子可能同時擁有TnpATnpD轉座酶編碼序列,如En/Spm。為了證實這個猜想,作者將玉米和金魚草中的TnpATnpD序列與牽牛花中339個轉座子序列BLAST比對,發現了兩個與TnpD同源的轉座子——TpnA3TpnA4,但沒有找到與TnpA的同源拷貝。在預測基因或轉錄本中也沒有找到TnpATnpD對應的轉錄本序列,由此猜測轉座酶在TKS株系中的轉錄是沉默的。在Q1072株系中Tpn1具有轉錄活性,並且存在與TnpATnpD同源的cDNA序列——TnpA1TnpA2。因為TpnA1具有功能性的TIR和SRR序列,因此作者推測TpnA1是一個自發性轉座元件,但並沒有在該轉座子中發現TpnATpnD的編碼序列,也沒有發現單獨編碼TpnA的序列。盡管在Tpn1轉座子中沒找到,但作者還是在基因組上分別找到了疑似TnpA和TnpD編碼序列的同源拷貝,並且其轉座酶的氨基酸序列十分保守,且與已知的En/Spm、金魚草的Tam1轉座酶擁有相同保守域。

 

5、基因預測和功能注釋

 

一切按照精細圖流程進行…於是重復序列預測之后,基因預測和功能注釋登場...

利用來自葉子、花、胚胎、莖、根、種子,6個組織樣的轉錄組數據進行轉錄組預測,同時以番茄為參考物種,利用Augustus進行從頭預測。最終確定了42,783個基因,45,365個轉錄本。其中,44,916個轉錄本含有完整的ORF(開放閱讀框,有確定的起始和終止密碼子),並且95.54%的轉錄本存在於15條染色體中。17.52%的基因僅含單個外顯子,2/3的轉錄本擁有的外顯子數目小於等於5個。對預測基因進行功能注釋,最終61.99%的基因注釋到UniProt-Swiss-Prot數據庫,未注釋上的基因中又有16.93%注釋到UniProt-Trembl數據庫中。另外,61.92%的基因有Pfam結構域支持。最終共注釋到79.12%的基因。

 

6、矮基因CONTRACTED的分析

 

常規分析之后,抓個重點細細研究~ 

隱性突變基因ct造成的矮桿植株擁有深綠色、厚且皺巴巴的葉片和子葉,並且花和種子也非常小。在遺傳圖譜上定位到ct基因在LG5位置,與編碼花青素合成基因A3的位點僅相距1.2 cM。因為油菜素甾醇(BR)能促使ctkobitokbt)共同突變,並且kbtstars)是等位基因,而s與擬南芥中編碼BR合成酶的DET2基因是同源基因,因此作者推測矮基因CONTRACTEDCT)是一個BR合成基因。眾所周知,擬南芥中的ROT3基因編碼P450蛋白,可以催化BR前體中的C-23羥基化。而作者就在牽牛花名為BDFN01000805的scaffold中,距離A3基因129 kb的位置,找到了ROT3的同源基因,將其命名為INIL05g09538,進一步證明了作者的推測。通過比較發現,在矮植株中桿19個ct突變基因的第一個外顯子都有Tpn1轉座子插入,但在正常植株中都沒有該插入。另外,在牽牛花中檢測到了3個ct等位基因:ct-1ct-2ct-w。其中ct-1ct-w帶有Tpn1家族轉座子Tpn14Tpn15,而ct-2ct-1缺失5’端包括Tpn14部分序列在內的36 bp序列產生。最后利用RT-PCR比較BR合成酶中突變基因的轉錄本水平發現,轉座子的插入會強烈抑制植物下胚軸基因中完整轉錄本的積累。也就是說,矮基因ctTpn1轉座子的插入,可能就是形成矮桿植株的原因。

 

7、比較基因組學分析

最后,作者將牽牛花與近緣物種進行比較基因組學分析,來探索牽牛花特性。利用OrthoMCL對水稻、葡萄、獼猴桃(菊分支),以及茄科植物番茄、土豆、辣椒進行基因家族聚類,共找到1,353個單拷貝基因。4個茄目物種(牽牛花、番茄、土豆、辣椒),共同擁有10,549個基因家族。相對於茄科物種(番茄、土豆、辣椒),牽牛花擁有2,242個特有的基因家族。接着以水稻為單子葉植物外群,利用RaxML根據最大似然法構建進化樹。然后利用BEAST評估得出牽牛花與其他茄目物種的分化時間在7,525萬年前,這一結果在TTOL數據庫中也得到了印證。

利用MCScanX分析共線性,在2,275個共線性區塊中找到了17,376對同源基因存在與於染色體上。牽牛花與番茄僅擁有47.05%的同源基因,而兩者與獼猴桃的共線性基因卻極為相近:34.89%和36.01%。作者猜測造成這種現象,可能是由於獼猴桃發生了兩次近期的全基因組復制事件(whole genome duplication,WGD)導致的。茄科物種在7,100±1940萬年前共同發生了一次近期的WGD事件。根據Ks分布圖發現,番茄自身的WGD事件發生在番茄和牽牛花的WGD事件之后,猜測這可能也是茄科特有的WGD事件,也就是說發生時間在7,525萬年前。同時,在牽牛花中也發現了一個Ks峰,作者猜測這可能是旋花科特有的WGD事件。與茄目中直系同源基因相比,旁系同源基因存在基因家族的擴張現象。對牽牛花特有的基因家族進行注釋,發現其中富含與授粉、生殖過程相關的基因。

 

結果討論

 

實踐證明,長片段數據在組裝基因組中是非常有用的。已發表基因組的contigN50長度平均在50 kb左右,而本文組裝得到的牽牛花基因組卻高達1.87 Mb。本文中Tnp1轉座子平均長度在7 kb左右,因此插入片段為7 kb的PacBio數據對於這一類重復序列區域的組裝效果顯著。

對基因組草圖的研究能夠極大幫助我們去了解牽牛花性狀的遺傳基礎。作者在所有15條染色體中都檢測到了Tpn1家族轉座子的存在。TIRs和SRRs的存在意味着序列中可能會發生轉座,而TpnA1TpnA2TpnA3TpnA4可能是編碼轉座子的序列,因此作者推測這兩種特征極有可能是突變個體中發生Tpn1轉座子轉座的誘導因素。進化分析表明,雖然牽牛花、番茄和獼猴桃都屬於菊分支,但它們各有1次獨立的WGD事件。

目前,牽牛花是旋花科中唯一組裝到染色體水平的基因組,這不僅能促進未來對牽牛花及其相關物種的研究,還能為茄目的比較基因組學分析提供幫助。

 

參考文獻

 

Hoshino A, Jayakumar V, Nitasaka E, et al. Genome sequence and analysis of the Japanese morning glory Ipomoea nil.[J]. Nature communications, 2016, 7.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM