泛基因組分析方案



備注:本文主要來源於知乎《全新的泛基因組解決方案》。關於大豆泛基因組文章解讀,請看往期記錄《大豆(Soybean, Glycine max)泛基因組2020Cell》

一、研究內容

泛基因組產品采用從頭組裝的策略進行泛基因組構建,分析內容包括比較基因組分析、核心基因和非必需基因分析、結構變異(SVs)分析和圖形結構基因組的構建。具體內容如下:
image.png

1.比較基因組分析

泛基因組包含多個材料的基因組數據,非常適合進行材料間的比較基因組分析,挖掘群體/個體材料的特有基因,從而在全基因組水平上了解不同材料間的共性與特性,進而了解其基因組結構、基因功能,探究特有基因與特殊生物學性狀的關系,推斷物種進化地位及適應性機制。

例如,大豆泛基因組研究[1]中,研究者通過WGD(Whole genome duplication,全基因組復制)分析,發現WGD區域包含較高比例的核心基因和次核心基因,而非WGD區域包含較高比例的非必需基因和特有基因。比較WGD和non-WGD之間的核苷酸多樣性,發現WGD區域基因核苷酸多樣性顯著低於非WGD區域。同時,在非WGD區域發現了更多的SVs,且與非WGD區域相比,WGD區域擁有較少特有SVs。研究結果表明基因組復制可以作為一種重要的遺傳力來影響SVs的進化。

image

圖1 大豆WGD與非WGD區域之間的基因和結構變異特征的比較(圖片引自文獻[1]),A:WGD與非WGD區域之間的基因密度比較。B:WGD和非WGD區域之間重復DNA比例的比較。C:WGD和非WGD區域之間核苷酸多樣性的比較。D:WGD和非WGD區域中的基因組成情況。E:WGD和非WGD區域中的結構變化組成情況。F:WGD和非WGD區域之間PAV驅動的單核苷酸突變率比較。

2. 核心基因/非必需基因分析

泛基因組中的基因分為核心基因和非必需基因,不同類型基因在特征和功能上具有明顯差異,通過對不同類型基因集的比較,可以進一步揭示物種的基因組變化和適應性機制。

泛基因組大小模擬

通過泛基因集的大小模擬(即泛基因和核心基因累計分析),可以預測該物種泛基集的理論大小、挖掘個體特有基因、了解個體基因組成、明確物種核心基因和非必需基因的占比等。

例如,大豆泛基因組研究[1]中,研究者對核心基因和非必需基因數目進行模擬,發現總基因隨着新基因組的加入而增加,並在n=25時接近平緩,表明這27份大豆材料非常具有代表性,已包含絕大多數的大豆基因信息。此外,短柄草[2]和番茄[3]等泛基因組研究也做了類似的分析。

image.png

圖2 大豆核心基因和非必需基因分析 A:泛基因組和核心基因組中基因家族數目隨大豆基因組數目增加的變化情況。B:泛基因組和個體基因組的基因家族組成。(圖片引自文獻[1])

核心基因/非必需基因功能富集

通過功能富集分析,可以直觀了解不同類型基因集的功能,有助於挖掘影響特殊生物學性狀形成的特有基因資源。

例如,大豆泛基因組研究[1]中,Pfam富集分析和GO富集分析顯示,核心基因在與生長、免疫、生殖、細胞發生等相關的生物學過程中富集,而非必需和特有基因在生物和非生物脅迫響應過程中富集。KEGG通路分析表明,核心基因富含與基礎代謝和次生代謝產物生物合成有關的途徑,非必需基因在特定代謝相關的途徑富集。

此外,短柄草[2]、番茄[3]、甘藍[4]等泛基因組研究均有類似發現。

image

圖3 大豆核心基因和非必需基因功能富集分析A:核心和非必需基因的Pfam富集。B:核心和非必需基因的GO分析。C:核心和非必需基因的KEGG分析。(圖片引自文獻[1])

核心基因/非必需基因保守性分析

對不同類型基因集進行保守性分析,有助於挖掘適應性進化或馴化中發揮關鍵作用的基因。

例如,大豆泛基因組研究[1]中,對不同類型的基因進行保守性比較,結果表明含有InterPro結構域的核心基因和次核心基因遠遠高於非必需基因和特有基因,非必需基因的核苷酸多樣性(π)和dN / dS (非同義替換率與同義替換率的的比值)均高於核心基因,這些結果表明核心基因比非必需基因在功能上更保守。短柄草泛基因組研究[2]也有類似的發現。

image

圖4 大豆核心基因和非必需基因保守性比較左圖:核心基因和非必需基因中具有InterPro結構域的基因比例。中間圖及右圖:核心基因和非必需基因的核苷酸多樣性(π)和dN / dS 比較。(圖片引自文獻[1])

核心基因/非必需基因與重復序列相關性分析

研究表明,非必需基因更可能在重復序列區域富集。對不同類型基因集所在的重復區域進行統計。

例如,短柄草泛基因組研究[2]中,研究者發現染色體上非必需基因與核心基因的比率與種內TE活性高度相關,在染色體的着絲粒周圍區域,非必需基因與核心基因的比率更高。甘藍泛基因組研究[4]中也有類似的發現,與核心基因相比,非必需基因周圍具有較高TE密度。

image.png

圖5 核心基因和非必需基因與重復序列相關性左圖:短柄草染色體的着絲粒周圍區域,核心基因與非必需基因的分布情況。右圖:甘藍核心和非必需基因TE含量比較。(圖片引自文獻[2,4])

核心基因/非必需基因表達水平分析

核心基因與非必需基因功能不同,表達量也有差異。

例如,短柄草泛基因組研究[2]中,研究者發現與非必需基因相比,核心基因通常有更高表達水平,並且在組織中更廣泛地表達。番茄泛基因組研究[3]也做有類似的發現。

image.png

圖6 短柄草核心基因和非必需基因表達比較 左圖:核心基因與Shell基因的表達水平比較。右圖:核心基因在與Shell基因的在多種組織中的表達情況。(圖片引自文獻[2])

3.結構變異分析

相比於原核生物基因組主要由基因序列組成,真核生物基因組中有超過50%的基因組可能是基因間的,並且基因序列本身還包含內含子。因此,真核生物泛基因組除了要關注基因外,也應該關注序列的變異。根據泛基因組進行結構變異分析,可以深入挖掘重要性狀的調控基因,解析表型多樣性形成的遺傳基礎。

SVs特征分析

基於基因組序列比對進行基因組SVs的檢測,可以對SVs特征進行分析,如對SVs類型、長度分布、基因組分布、重復含量進行比較等。番茄結構變異研究[5]中,研究者構建了最全面的pan-SV基因組,並對SVs的特征進行詳細分析,結果表明大多數SVs相對較小,SVs通常由轉座子和相關重復序列組成或產生。大豆泛基因組研究[1]也有類似內容。

image

圖7 SVs的特征分布左圖:番茄不同大小SVs的檢測頻率分布圖及不同類型SVs的長度分布圖。右圖:番茄不同類型SVs的重復含量分布。(圖片引自文獻[5])

核心/非必需SVs累計分析

將所有基因組中整合得到的非冗余SVs,同樣基於核心基因和非必須基因類似的策略進行核心和非必需SVs划分和比較。通過核心和非必需SVs累計曲線,可以預測該物種泛基組的理論大小、挖掘個體特有結構變異。

例如,大豆泛基因組研究[1]中,研究者根據SVs的等位基因頻率,將SVs分為4類:核心SVs、次核心SVs、非必需SVs或特有SVs。與核心基因和非必需基因的累計分布模式相似,非冗余SVs集隨着樣本的加入而增長,並且趨於平緩。同時,核心SVs集逐漸減少,最終有130個SVs為所有樣本共有。番茄結構變異研究[5]也有類似的SVs累計分布趨勢的發現。

image

圖8 核心和非必需SVs累計分析 左圖:大豆核心和非必需SVs累計分析。右圖:番茄核心和非必需SVs累計分析。(圖片引自文獻[1,5])

圖形結構基因組構建

在基因組從頭組裝的基礎上,把該物種的所有遺傳變異的信息都添加到參考基因組中,表示為含有替代路徑的圖形結構,從而進行圖形結構泛基因構建,該泛基因組極大的涵蓋了個體間的差異信息,為物種研究提供更全面的遺傳信息。例如,大豆泛基因組研究[1]首次采用了圖形結構的泛基因組構建方法,打破了傳統線性基因組的存儲形式,展示了物種更全面的遺傳信息,為后續基因組學的其他研究奠定良好的基礎。

image

圖9 圖形結構基因組構建(圖片引自文獻[6])

SVs對基因結構的影響

通過泛基因組序列及基因結構分析,不僅可以檢測到先前報道的等位基因,而且可以發現新的基因結構變異,包括基因融合。

例如,大豆泛基因組研究[1]發現開花基因E3 基因結構變異導致其自身移碼甚至與其他基因融合,從而影響大豆的開花。

image

圖10 E3 在不同大豆材料中的結構變異 A:E3 在基因組中的物理位置。B:不同種質中E3的單倍型。C:13.3 kb的缺失導致單倍型E3-tr 材料中SoyZH13_19G210500基因丟失和E3 (SoyZH13_19G210400)與其鄰近基因SoyZH13_19G210600的基因融合。(圖片引自文獻[1])

SVs對基因表達的影響

通過對SVs所在的區域進行分類展示,並結合轉錄組數據對基因表達進行分析,有助於挖掘影響基因表達的關鍵SVs。

例如,番茄結構變異研究[5]通過檢測有和無SVs時相關基因的差異表達程度,來檢測受SVs影響的表達基因。結果發現在21,156個SV-基因對中發現數百個顯著的表達改變。研究表明結構變異通過改變基因劑量效應和表達水平,從而影響果實的風味,大小和產量。

image

圖11 番茄SVs對基因表達的影響 左圖:番茄材料中不同基因組特征SVs的百分比。右圖:受不同類型SVs影響的差異表達基因的數量情況。(圖片引自文獻[5])

二、技術策略

樣本選擇

為全面捕獲物種所有的基因組信息,建議基於經驗或群體結構信息選擇最具代表性的個體進行泛基因組構建,推薦樣本個數≥5個,具體可根據物種基因組大小、復雜度及群體復雜度進行調整。

大豆泛基因組研究[1]中,研究者通過2,898份大豆的重測序和進化樹構建,選擇了26份在系統發育關系和地理分布方面最具代表性的材料進行泛基因組構建。大麥泛基因組研究[7] 中,研究者通過19,778份大麥種質的基因分型數據的PCA(包含不同地理來源、行類型、生長習性等材料)選擇了20份大麥來代表其遺傳多樣性。

image

圖12 20份代表性大麥的材料選擇(圖片引自文獻[7])

測序策略

推薦采用PacBio HiFi測序,讀長長且准確,測序深度≥15X/樣本

HiFi組裝作為組裝界的新秀,具有組裝周期短,准確性高,連續性好,簡單基因組和復雜基因組通吃的特點,對於泛基因組這樣的大樣本量基因組組裝尤其合適,大幅縮短組裝周期,提高組裝准確性和連續性。

缺點是貴。目前真正用HiFi來做泛基因組的還是很少,但二代和三代都有,二代組裝相對來說比較碎,可能研究不了太深的問題。

image.png

圖13 HiFi測序深度與組裝連續性的關系(圖片引自文獻[8])

參考文獻:

1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.

2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.

3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.

4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.

5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.

6. Tao Yongfu, Jordan David R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant, 2020.

7. Jayakodi Murukarthick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Reveals the Hidden Legacy of Mutation Breeding[J]. Nature, 2020.

8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology, 2019.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM