說明
Enhancing Genetic Gain through Genomic Selection: From Livestock to Plants
這篇是徐雲碧老師2019年發表在《Plant Communications》上的綜述。徐老師是農科院作科所以及CIMMYT的分子育種專家,著有《分子數量遺傳學》和《分子植物育種》,提出環境型、遺傳增益等非常具有指導意義的理論,是真正的行業大佬。最難得的是,他還是行業內的布道者,大力宣傳先進知識,實在是業界良心。
這篇綜述是從遺傳增益的角度來理解GS,或者是說以GS為中心的遺傳增益,積淀了徐老師大量的觀點和成果。除了提煉要點,我也會參雜一點自己的理解和看法。
1.前言
- 農作物遺傳增益(單產增長率)正在減緩,未來生產將不能滿足需求。
- 育種發展:PS(表型選擇)——BLUP——MAS——GS。
- 1990年后植物改良過程的七大技術:GS、轉基因、QTL作圖、關聯作圖、表型組、環境型、基因編輯。
- 與GS相關的背景和知識圖譜:
遺傳增益
公式:ΔG = i σA rMG / t
- ΔG是期望的遺傳增益;
- i是選擇的強度;
- σA是遺傳方差;
- rMG是選擇的准確性(通過實際和估計育種值的相關性判斷),如果是表型選擇,則等於狹義遺傳力的平方根(h);
- t是育種周期。
提高遺傳增益圍繞着以上公式展開:增加選擇強度,加大遺傳方差,提高選擇/預測准確性或遺傳力,縮短育種周期。
自交和雜交作物育種的GS應用示例:
2.植物GS瓶頸
在動物中,個體價值更高,世代間隔短,因此遺傳增益更高。此外,有合適的基因分型平台(價格合理的芯片),標記穩定,廣泛的系譜信息及后代測試年限,種群結構少,流程相對簡單。奶牛、豬、綿羊、肉牛、雞等家畜陸續應用GS。
在植物GS中需考慮的影響遺傳增益的因素:
- 群體:類型、大小、新種質、選擇比例、選擇方法、選擇指數、用於估計育種值的種質;
- 基因型:分子標記、靶向基因(轉基因、基因編輯等);
- 遺傳力:田間管理、估計;
- GS模型:標記效應、GxE、rrBLUP、Bayesian、ML等;
- 育種方案:育種設計、整合育種平台、加代等。
幾個主要影響植物GS的因素:
標記密度、群體大小、統計模型、參考群和候選群的遺傳關系、群體結構和表型准確性等。
植物中最大的限制是成本,需要開發出具有高效益成本的基因分型、表型和環境分型平台,創建多樣化和可更新的參考群,開發高效和多功能的基因組預測模型,縮短育種周期時間和加快育種過程,建立強大的決策支持系統,並建立開源育種計划。
此外,還要考慮純種系和建立預測模型的高通量和精密表型,因為基因-環境相互作用(GEI或GxE)對植物的表型影響重大,但對動物的影響有限(在設施中飼養更便於管理)。
動物和植物GS的比較:
- 可行性:價值鏈(動物個體價值高,投資回報高,植物反之),成本(動物更耐高成本),效益(動物早期選擇和縮短世代的收益更多)。
- 平台:基因分型(動物提取更容易,有家系和后代測試數據),表型(動物可動,基於個體,數目較少;植物固定,基於群體,數目較大),環境型(動物相對穩定,易測量和控制),信息學和決策支持(動物因數目少,數據量較小,要求較低)。
- 訓練群和育種群:類型(動物大部分是雜合,植物類型多樣),大小(動物小),規模(動物血統較小,植物大小不一,取決於物種),共享和更新(動物資源共享和更新較差)。
- 影響遺傳增益的因素:遺傳變異(動物無法圖位克隆,突變克隆),遺傳力(動物相對較高),選擇強度(通過增加群體規模或降低選擇率來增加增長潛力),周期(動物對早期選擇極其敏感,植物可通過DH快速純合,對光周期敏感,可加代,早期選擇不敏感),統計模型(動物易控制群體結構,一種模型可能適合同一群體類型,植物受環境影響大,有不同高層次的群體結構,不同群體類型需要不同模型)。
- 育種策略:種質評估(動物不能長期維持,不可再生,基於系譜評估,植物可以),前育種(動物不重要,植物重要而實用),壓力承受力,開源育種(動物更適用於父母及其群體,植物適用所有情況)。
3.提高GS預測的准確性
根據GS的影響因素,GS預測的准確性可用以下公式來表示:
rGM代表預測准確性,x1-x5分別代表標記密度、群體大小和結構、參考-候選群關系、遺傳力、GS模型,系數a-e有可能和rGM並非線性關系。
高密度標記
- 當標記數目足夠大,提高預測精度會達到一個閾值,不會再隨標記密度增加而增加。
- 所需的標記密度隨植物種類、群體類型和大小有關,異化授粉作物所需標記密度高於自花授粉作物,自然群體要高於雙親群體(因自然群體的群體結構和高LD狀態)。
- 基因分型成本的解決:GBS,GBTS(靶向GBS),以低成本增加標記密度。標記的數目和密度已不再是問題,可以為所有類型的群體建立一個通用的高密度標記Panel。
增加群體規模,同時平衡參考-候選群關系
- 通過使用聚類,圖形網絡分析和遺傳交配方案建立訓練樣本設計的參考群體優於隨機抽樣構建。可從群體規模較大的真實數據集中重采樣來生成不同的訓練和測試數據集。
- 為了在選擇階段保持或優化准確性,應經常更新GS模型,主要是由於重組事件增加導致標記和QTL的LD降低。
- 參考群和候選群親緣關系應該足夠相近,以共享大范圍的單倍型,從而使GS最准確。當兩者親緣關系較近時,GS的預測准確性顯著提高。
- 通過在參考群中包含更多相關(指親緣關系)的雜交來增加相關性的重要性,而不是通過添加不相關或關聯性較小的雜交來增加參考群大小的重要性。訓練群Panel設計的重要性!
- 但持續使用親緣關系近的群體來獲得更好的預測將會縮小遺傳基礎,減少有利於未來選擇的遺傳變異,從而減慢長期GS的遺傳增益。
- 因此需要考慮短期和長期選擇的遺傳增益來平衡和優化參考-候選群關系:一是使用相關遺傳區域和靶向分子標記的變體,通過這些變體來使用與參考群密切相關的各種候選群;二是在淡季或異地使用一部分群體作為參考群,來預測其余候選群體。
將標記效應和GWAS結果整合到預測模型中
- 先前研究中確定和驗證的功能標記(如GWAS顯著位點,分子實驗驗證功能基因,模擬研究得到的QTL)可以用作模型中的固定效應,以提高預測准確性。
- 實際上,在模型中使用少量重要標記作為基因型矩陣可以實現更准確的預測。
- 可以基於GEBV從育種群體中選擇潛在的近交系。通過將GS與MAS或GWAS(具有少量基因相關標記)整合,提高預測准確性,從而提高遺傳增益。
在預測模型中加入GxE和非加性效應
- 幾乎所有統計模型都可用於有效捕獲和精確估計純合群體中每個標記的累加遺傳效應。但是,當參考群和候選群由雜合群體組成,並且是跨地點和年份(環境)表型時,它們在評估非加性或非遺傳效應(包括顯性、上位性和G x E效應)方面的能力有限。
- 基於非線性核算法(如再生核希爾伯特空間RKHS)開發的GS模型具有捕獲非遺傳效應並提高標記效應估計精度的特定能力。
- 作物生長模型(CGM)通過捕獲組合效應來彌補常規GS的缺陷,能很好地解釋了產量的非加性基因作用,成為通用基因組預測模型之一。
通過多組學信息來優化預測模型
- 將轉錄組學和代謝組學數據整合到GS模型中可以提高預測准確性,因為它們可以有效地捕獲較小效應和非加性的影響,尤其在預測混合性能時。如MLLASSO模型。
- 這個說實話,離實際應用太遙遠了。多組學做過一點,本身准確性和一致性就值得懷疑,用來預測,很難說清楚。加上成本就更加離譜了。
4.GS與現代育種技術結合
從GS的角度來看,有兩種不同的策略可以提高植物育種的遺傳增益。
- 一是提高預測准確性。
- 二是將GS與其他育種技術(如MAS、標記輔助循環選擇MARS、轉基因、基因組編輯、DH等)結合。
此外,GS還可以與速育方法結合使用,以進一步縮短育種周期。
用於GS的綜合育種平台:
-
育種的本質:創造變異—>挖掘變異—>應用變異
-
通過前育種將外來種質的相關基因轉移到優良種質庫中,使用高密度標記評估外來種質的育種價值,以及恢復目標性狀的多樣性。可以通過策略性采樣的參考群預測基因庫種質的表現。
-
遺傳力與GS的預測准確性正相關。換句話說,在一定環境下,基於田間試驗數據的農藝性狀對遺傳力的估計越高,預測性能就越好。因此,精細的田間管理減少環境影響和實驗誤差,從而提高遺傳力估計和預測的准確性。
-
GS的預測准確性隨群體規模的增加而增加,對於擴大群體和測試規模,DH技術是一種潛在的選擇。GS+DH可以生產獲得許多純種系或中間育種材料。在玉米中,跨國種子公司開發了種子芯片技術,基於種子DNA的基因分型來促進在種植之前基於功能標記和GEBV預先選擇DH品系,從而大大減少了后續支出。
-
在雜交育種中,GS用於潛在雜交種的表現預測,通過構建一個合適的參考群,並開發一個能夠區分雜交群體、估計一般和特殊配合力的有效模型。在計算機上就可排除大量雜交。
-
綜合育種平台將有助於提高育種效率、擴大測試規模,以提高選擇強度,從而最終提高遺傳增益。
5.GS開源育種網絡
-
許多研究表明,用於訓練GS模型的表型和環境數據之間的相關性越高,預測精度越好,可以實現的育種結果就越有用,這在小麥GS育種中也得到了證實。
-
跨國育種公司的GS已經可以通過一組完善設備的集中式平台進行實施和管理,可顯著降低成本。但小機構應該建立一個開放源代碼的育種網絡,以在GS育種程序之間共享各種資源,包括表型、基因型、環境型、設施平台、信息管理和決策支持工具。
-
共享數據:包括同一群體的其他基因型,更多具有相同親本的群體,在其他環境中測試的相同群體所產生的基因型,表型和環境型(季節,年份和地點),或其某些組合等數據。
-
開源育種網絡:
-
現有的一些開源育種平台:
GOBii; http://gobiiproject.org/
CGIARhttp://excellenceinbreeding.org
OSSIhttps://osseeds.org/ -
CIMMYT開源育種的GS實踐:
玉米GS共使用7956個DH或F5:6品系,其中3年表型的1926個品系用作參考群,5030個無表型的品系用作預測群,根據GEBV選擇了587個品系做進一步的測試和驗證。(數據還未發表(X. Zhang and M.S.O., unpublished))
關於GS的開源育種,這個是真的很有意義,康奈爾大學的 Susan R. McCouch也在做類似的事情,詳情參見:When more is better: how data sharing would accelerate genomic selection of crop plants
網站:https://www.godan.info/
不過這個實施起來太難了,涉及到太多人的利益,育種家視之如寶的育種材料和數據能輕易共享出去嗎?在此打一個大大的問號。實際上,這些開源育種項目也是建立了Partner關系的,類似於育種聯盟吧,需要門票,路人無法訪問。