文獻來源:
尹立林, 馬雲龍, 項韜, 朱猛進, 余梅, 李新雲, 劉小磊, 趙書紅. 全基因組選擇模型研究進展及展望[J]. 畜牧獸醫學報, 2019, 50(2): 233-242.
華中農大趙書紅老師於2019年發表在《 畜牧獸醫學報》上的綜述,主要針對動物。
1. GS概況
- 2009年開始奶牛選育已全部由GS主導,豬的GS國外大型公司已開展,禽類水產等動物也開始嘗試GS。
- 過去育種的缺點:系譜法將全同胞所有個體的育種值視為相同(實際存在個體差異),MAS對微效多基因解釋的遺傳變異有限。
- 原理:分布於全基因組的高密度SNP標記中,至少有一個SNP能夠與影響該目標性狀的QTL處於 LD 狀態,這樣使得每個QTL的效應都可以通過SNP得到反映,將所有標記效應值累加,獲得基因組估計育種值(GEBV)。
2. GS模型
1)直接法
把個體作為隨機效應,參考群體和預測群體遺傳信息構建的親緣關系矩陣作為方差協方差矩陣,通過迭代法估計方差組分,進而求解混合模型獲取待預測個體的估計育種值。
GBLUP
直接法的混合線性模型:
- y為性狀向量
- b為固定效應
- μ為隨機效應,且服從均值為0,方差為Gσa2的正態分布,可記作μ~N(0, Gσa2),σa2為遺傳方差,G為個體間的親緣關系矩陣
- X和Z分別為b和μ的關聯矩陣
- e為殘差效應,服從正態分布N(0, Iσe2)
Vanraden方法計算G矩陣:
- M為m×n標准化的基因型矩陣,m為標記個數,n為分型個體數
- M,是M矩陣轉置
- pi為第i個位點最小等位基因頻率
REML計算育種值:
采用約束最大似然法(REML)估計方差組分,計算育種值。
G矩陣/GBLUP優點:
- 直接法與傳統BLUP(ABLUP)方法原理一致,只是用基於標記計算的G矩陣代替了基於系譜計算的A矩陣
- GBLUP計算快,能真實反映個體間遺傳信息的差異,降低了孟德爾抽樣造成的偏差,准確性更高。
GBLUP缺點:
- 使所有標記對G矩陣具有等同的貢獻
- 不同性狀利用相同的G矩陣
實際上不同性狀遺傳機制不同,復雜程度不同,因此很多學者對GBLUP進行了改進。
直接法的模型改進
主要有兩類:
①單隨機效應
仍然在GBLUP模型中設置一個隨機效應(不包含殘差效應),但是在構建G矩陣過程中,對不同標記給予權重,稱之為性狀特異關系矩陣。
- TABLUP
- GBLUP|GA
- 將大效應標記放入模型中作為固定效應,解釋主要的遺傳方差,剩余遺傳方差由隨機效應部分獲取
- 整合不同物種組學數據進行個體育種值估計
- 將標記與基因通路信息整合構建個體親緣關系矩陣
- SSBLUP (single-step BLUP):同時使用系譜關系矩陣A和基因組關系矩陣G,獲得新的矩陣H:
SSBLUP不僅可以估計被基因分型個體的育種值,而且可以估計未進行基因分型個體的育種值。
SSBLUP在豬全基因組選擇上存在較大優勢,是當前豬全基因組選擇中最為廣泛使用的方法之一。
②多隨機效應
將標記分類,按照不同染色體區域、與性狀關聯程度大小等條件,將標記分為不同的組別,在模型中設置兩個或多個隨機效應。
- GFBLUP
- MultiBLUP:GS+GWAS+LRT
- MKLMM:基於MultiBLUP
多隨機效應靈活多變,但是當群體不斷增加,多隨機效應的方差組分估計成為一大難題,也成為多隨機效應模型受制約的關鍵因素。
2)間接法
間接法模型
- y為表型向量;
- X為固定效應系數矩陣;
- b為固定效應;
- Zi為第i個位點數字化基因型向量(如:0, 1, 2);
- gi為第i個位點效應值;
- e為模型擬合殘差,服從分布N~(0, Iσe2)。
多元回歸的標記效應方程:
- σgi2為第i個標記方差,直接與性狀遺傳構建相關。
間接法重點和難點在於如何對超參的先驗分布,即對gi及其方差服從的分布進行合理假設。
- RRBLUP (ridge regression BLUP):假設所有標記都具有效應,且來源於同一個分布,即σgi2相等。
- 理論上RRBLUP與GBLUP方法是等價的。但實際上,不同性狀遺傳機理、控制的基因數目及遺傳效應大小不同,認為所有標記都具有效應是不合理的,故假設所有標記方差不等更符合實際情況。
- BayesA:認為所有標記都具有效應,且大部分標記效應較小,只有少部分大效應標記(參數求解過程結合了Bayes理論)。
- Bayes B、C、Cpi等:認為大部分標記無效應,只有少部分標記具有效應。
幾種經典Bayes方法的先驗假設區別:
符合更復雜假設的模型,如Bayes模型,往往具有更多的待估參數,在提高預測准確度的同時帶來了更大的計算量。
基於間接法的模型改進
- BSLMM:結合Bayes和GBLUP
- BayesR:適用於由簡單到復雜的所有性狀,因此具有更高的靈活性和廣泛性
- DPR
- BayesN
3. GS模型比較
利用第16屆QTL-MAS Workshop公布的3個模擬性狀。該數據共包含4100個個體,其中4000(3000個有表型信息,1000個無表型信息)個個體具有基因型,因此需要預測的個體為1000個具有基因型的個體及100個無基因型個體。
模型比較結論
- 利用系譜信息的BLUP模型准確性明顯低於利用基因組信息的模型;
- 間接法模型准確性優於GBLUP模型,計算時間更長,但與基於GBLUP改進的模型准確性基本等同;
- 雖然間接法模型不斷改進,但准確性並未明顯提升;
- 將大效應標記作為固定效應的Fixed GBLUP可提高GBLUP准確性,但是,由於加入的大效應標記較少,只能解釋部分遺傳變異,提升效果沒有利用權重基因組關系矩陣的Weighted GBLUP高;
- 對於分型個體而言SSBLUP相對於GBLUP並沒有明顯優勢,而對於未分型的個體能夠大大提高預測准確性。
4.問題及展望
- 目前還沒有一種模型能廣泛適用於所有性狀
- 模型的兩個重要挑戰:計算准確性和計算效率
- 直接法(GBLUP為代表)計算效率較高,但是計算准確性略差於間接法(BayesB為代表)
- 間接法計算准確性較高,但計算量龐大,且無法實現並行運算,而育種講求時效性,所以難以高效指導育種實踐;
- GS主要考慮加性效應,對於顯性效應及互作效應等未納入到育種值估計模型
- GS主要在品種內進行,品種間由於遺傳背景不同,跨品種預測准確性難以保證
- 同品種間親緣關系太遠的個體育種值預測效果也不理想
- GS只用到基因組信息,大量的多組學研究結果利用不夠充分
- 相比傳統BLUP的稀疏矩陣,利用基因組信息計算的稠密矩陣給混合模型參數估計及模型求解帶來了巨大的挑戰,應通過數學或着計算機手段簡化計算復雜度
- 測序可減少對LD的依賴(相比芯片),得到更豐富的遺傳信息,對於親緣關系較近的群體可通過填充將芯片個體標記密度填充到測序水平。測序技術的應用將成為全基因組選擇新時代的轉折點,成本和計算又將是挑戰。