【GS文獻】基因組選擇在植物分子育種應用的最新綜述(2020)



2020年10月張志武老師聯合多家單位的大佬撰寫的植物GS育種的最新進展,目前還只是預印版(改到第二版)。這篇綜述涉及到GS在植物領域應用的最新進展,長達48頁。不同於其他的綜述描寫空洞寬泛,這一篇特別對模型方法進行了介紹,正好解決了我的需求。缺點就是可能重點說明了他們自己開發的算法,其他模型算法介紹不夠全面。這里僅記錄要點,不當請指正。

強烈建議閱讀原文,雖然很長,但沒有太多廢話,是比較好的入門材料。
Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review

1. 簡介

GS利用所有的基因組標記,不論是否有顯著效應。

過去的GS綜述主要描述了:

  • 實施步驟;
  • 訓練-測試群的關系,標記屬性;
  • 計算的挑戰;
  • 物種及具體生產,包括植物、動物、飼草、乳業、小麥等。

本篇綜述的主要內容:

  • 提高GS准確性的方法發展:gBLUP——Bayesian——GWAS+GS;
  • 影響選擇反應的三個因素:雜交育種——多性狀——長期選擇的變異保留;
  • 准確性評估的陷阱及分子育種應用。

2. BLUP類模型

  • BLUP針對隨機效應,BLUPE針對固定效應。
  • 一般而言,隨機效應的水平數大於或等於觀測(樣本),為避免過擬合,混合線性模型MLM需要似然迭代(而非GLM模型中的最小二乘法),最大似然法在隨機效應中可以有方差結構。
  • BLUP的發展:

表型y,遺傳效應u,殘差e

*表型y,遺傳效應u,殘差e*
  • 作物很少由於性別差異而表現不同,而且植物育種依賴於在同胞中選擇(無系譜信息),因此BLUP的方法在植物中不如家畜那樣常用,直到覆蓋全基因組的分子標記出現使之成為可能。

  • 基於標記的親緣關系矩陣優於基於系譜的矩陣,因為它捕獲的是真實的kinship(包含了非系譜的部分,如孟德爾隨機抽樣和偏分離的誤差)。

  • VanRaden的G矩陣:
    image.png
    W是中心化后的基因型矩陣,P是等位基因頻率

  • 直接法(左)和間接法(右)比較:
    image.png
    直接法估計u,間接法估計標記效應g之和Mg;當K=M’且標記效應g是獨立的正態分布(如上公式)時,間接法和直接法估計的育種值是一樣的,即u=Mg。

  • ssBLUP(H矩陣):
    image.png
    權重w介於0-1之間,A22是系譜關系矩陣,ssBLUP比單獨使用系譜的ABLUP准確性高

  • 把所有的標記設為隨機效應,它們的和用來預測個體:當標記效應服從正態分布,均值為0,方差連續,模型變為嶺回歸;當方差假定為服從逆卡方分布的隨機變量,模型變為貝葉斯方法。

  • rrBLUP和GBLUP預測相同。

  • TABLUP:親緣關系矩陣中,不是所有的分子標記效應都相同,這些標記可根據具體性狀的GWAS估計效應結果來賦予權重。

  • SUPER BLUP(sBLUP):沿用SUPER GWAS的思路(將標記降維為bin),TABLUP可進一步細化為少數基因控制的性狀,這樣kinship構建僅僅使用的是關聯標記。

  • compressed BLUP(cBLUP):也是沿用的compressed GWAS思路,在kinship中考慮群體結構的影響,用group的遺傳效應值來代替個體的值,用個體對應的組來進行預測。

  • 對於低遺傳力的性狀和有較大遺傳結構的群體,cBLUP的結果優於gBLUP和sBLUP。

3. Bayesian類模型

  • n>>p的問題:如果分子標記都作為固定效應,在固定效應模型中易造成過擬合,因此將它們作為隨機效應。
  • 假定分子標記效應服從正態分布,均值為0,方差分布如下:
    image.png
  • 實際情況中,很少有全部標記效應都服從同一分布的情況(RRBLUP,限制最大)。除殘差外,只有一個隨機效應。Bayes方法則有更多的參數需要求解。
  • BayesA限制最小,即每個標記都有它自己的分布和不同的方差。
  • 貝葉斯方法計算的挑戰原因是:大量的抽樣需要達到收斂。
  • R包:BGLR,BayesR,MCMCglmm,LaplacesDemon,BMTME

4. 機器學習

親緣關系矩陣kinship在工程領域定義為”核“,kernel。
K自乘產生新的核K2=K’K,這個過程不斷迭代直到不再變化。

機器學習方法相對於傳統統計方法的優勢:

  • 能處理”大p小n“的問題;
  • 它是個黑箱,無需事先知道變量的分布或目標性狀的遺傳效應;
  • 考慮了多個體互作或者特征間的相關性;
  • 高准確性(允許重定義訓練核驗證集,交叉驗證)。

學習算法的目標是為了減少偏差和方差。

Gadient Boosting Machine(GBM):梯度提升,弱學習算法。
隨機森林模型和GBM都是基於決策樹的集成方法。

非監督方法一般不直接應用於GS,只能提供特征。比如PCA。

深度學習不論監督和非監督都可用。convolutional neural networks(CNNs),recurrent neural networks(RNNs)。

不少研究已經比較了機器學習模型和統計模型的結果:整體而言,標准機器學習方法較傳統統計模型優;單個方法中,GBM在復雜性狀中表現突出,GBLUP在群體結構的群體中表現最好。

對於加性模型的中低遺傳力性狀,機器學習和一般統計模型結果是一致的。但在加性和上位性效應的結果中,機器學習方法更優。

一個較大的挑戰:如何整合多點數據到預測模型中,特點是復雜遺傳與環境及管理互作(GxExM)的數據。

5. GWAS輔助的GS

結合已驗證和新發現的標記到模型可能會提升預測能力。

將GWAS顯著位點考慮進GS:

  • 直接的好處:維持多世代的預測能力(打破了LD和隨機突變);
  • 間接的好處:增加已驗證突變的數量。

已驗證位點加入GS模型的方法:

  • 將關聯標記當作固定效應(下圖d);
  • 將關聯標記當作另一個隨機效應(有它自己的kernel derived)(下圖e);
  • 在傳統GS模型的基因型親緣關系矩陣中賦予標記的權重(下圖c);
  • MultiBLUP方法,將染色體划為片段,每個片段構建的G矩陣分配為不同的隨機效應(下圖f)。
    image.png

將顯著關聯信號納入GS模型的固定效應(作為協變量),將會得到一個復雜的結果:如水稻中作為固定效應,准確性增加10%;小麥中增加3-14%;但其他報道增加較小,甚至減小。

同樣地,將其作為隨機效應的結果也很復雜。

因此,單純地考慮將關聯信號納入模型不一定能提高准確性,具體表現應該和性狀的遺傳結構有關。

6. 雜交育種

低標記密度的GS雜交種應用可參考文獻:
Zhao, Y., Mette, M. F., and Reif, J. C. 2015. Genomic selection in hybrid breeding. Plant Breeding. 134(1): 1–10. DOI: 10.1111/pbr.12231
本篇綜述主要介紹高密度標記的GS在雜交種上的應用。

  • 雜交種,即F1代的GS預測,主要評價雜交種在產量相關性狀的表現,必須考慮非加性效應(作物基因組中雜交位點急劇上升)。
  • 玉米的商業育種流程中,訓練集:預測集=1:4,選擇top10-20%。

影響雜交種預測的幾個因素:

  • 訓練群和預測群的遺傳背景需要一致。可通過父母本基因型構建進化樹來驗證。如果不一致,會出現過擬合。表型僅在一個點調查也會導致過擬合。
  • 系譜關系kinship和雙親的雜交模式應該一致。否則F1的雜交表現也會表達不充分,相關性結果不好。
  • 考慮GxE。包括宏觀環境和微觀環境,宏觀環境主要影響開花時間,由幾個主效基因控制光周期基因(可建模),應在最佳生態區域篩選親本;微觀環境太復雜無法准確建模,因此要將多位點性狀的表型變異考慮進BLUP算法。

雜種優勢一般認為是顯性和上位性效應(復雜等位基因/基因內/基因間互作)的結果。

為了准確預測雜交種,所有加性和非加性效應需要考慮進模型。

同時要注意雜種優勢效應的組成也是隨性狀而變化的。不同性狀的GS預測需要鑒定雜交QTL位點。

由於一般配合力GCA(加性效應的反映)和特殊配合力SCA(非加性效應的反映)可能來自不同遺傳效應,所以預測雜交種F1正確的方法是分別考慮GCA和SCA。

GCA模型就是基於gBLUP,重點在親緣關系矩陣構建。環境效應也能整合進gBLUP,作為固定效應的協變量。

SCA模型有兩種方法:一是將雜優SNPs位點作為Panel整合進gBLUP模型中(作為固定效應);二是使用非線性模型,如Bayesian和機器學習。

雜優SNP Panel如何鑒定?可用GWAS挖掘,以MPH(mid-parent heterosis,即F1表型與雙親均值之差)作為性狀表型,Panel一般視顯著QTL的數目來定,一般根據性狀3-5 SNPs。

7. 多性狀

多性狀的選擇multi-trait genomic selection (MT-GS) 一般是因為性狀間共有某種程度的遺傳結構,在遺傳上是相關的。

對低遺傳力(伴隨高遺傳力性狀相關)或者難以測量的性狀,應用MT-GS。

MT-GS模型同樣可基於gBLUP,替換kinship即可。
也可用貝葉斯方法,是一個典型的線性回歸模型。可以擴展到多性狀-多環境的貝葉斯模型,相關R包BMTME。

除了gBLUP和貝葉斯框架的線性回歸,也可基於非線性的機器學習和深度學習,如MTDLMP模型。

8. 長期選擇

如何平衡遺傳增益和遺傳多樣性的矛盾關系?

  • 提高罕見的有利等位基因,即賦予群體中低頻的優良等位基因更高的權重,避免丟失。
  • 基因組最佳貢獻選擇(GOCS)
  • 基於潛在后代的選擇
  • 標記密度和預測模型
  • 育種群體的設計

9. 預測准確性評估

交叉驗證仍是評價預測能力的最主要方法之一。兩種方法:hold,instant。

系統偏差對結果有影響,如測試集選擇,測試集和訓練集關系,GWAS在划分交叉驗證前的早期選擇。正確的交叉驗證實施步驟應該是:一開始就在整個群體中划分數據,然后GWAS只用訓練群來做。下圖是GWAS用全部數據和只用訓練群數據的比較:
image.png
測試群體的表型只在最后計算准確性的時候用,在此之前都不應該用。

10. GS到植物育種

GS的提出其實植物(Bernardo 1994)比動物(Meuwissen,2001)更早。但因為分子標記的kinship在動物遺傳評估系統中容易實施,導致gBLUP、ssBLUP等方法在動物中廣泛應用。直到高通量數據(基因型和表型)的成本下降,植物的GS才開始有了突破。

40多篇關於谷物的GS文章發表,非谷物的有7篇蔬菜,5篇克隆繁殖作物和13篇林木。這些文章基本達成共識:最好的GS模型視性狀的遺傳結構而定。

GS相比表型選擇,更便宜(實在話現在還是太貴了),利用基因型優勢能預測多性狀。

GS的植物育種不再是一個能力問題,而是如何實施的問題。

11. 未來展望

一條龍:Genomics-Phenomics- Agronomics (GPA) paradigm

表型組發展:代謝組學,高光譜成像,微型根管成像。

GPA范例表現在五個方面:

  • 從親本表現預測子代潛力;
  • 將預測范圍擴展到加性效應,包括顯性,上位性和遺傳-環境相互作用效應;
  • 傳統農藝性狀和高通量表型之間多效性的利用;
  • 通過GWAS更深入地了解農藝性狀的遺傳結構,並將這些結構集成到GS模型中;
  • 新興大數據和機器學習方法(尤其是基於人工神經網絡的深度學習)在高通量、高維度
    數據的優勢。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM