目錄
1. 優勢雜交育種預測
- 雜交育種:選育優良純合親本,再進行親本配組。
- 雜種優勢與親本間的遺傳差異有關,前人通過遺傳標記計算親本間的遺傳距離。但遺傳距離和雜種優勢的相關性只能在一定程度上定性地評價雜交組合的表現,並不能定量地預測表現。
- 從利用遺傳標記的QTL到早期家畜的BLUP方法,GS應用初具雛形,但通過遺傳系譜圖構建的親緣關系矩陣預測能力有限。
- 高密度SNP標記計算遺傳關系矩陣來估算個體育種值。
2. GS育種原理與模型算法
- GS原理:
所有的GS模型都聚焦在如何准確估計β(標記效應)上。
- 過擬合的缺陷:即再訓練群體中構建的模型再測試群體中的預測效果不佳。一般用交叉驗證來對模型進行評估。
- 維數災難:如果通過常規的最小二乘法利用線性擬合估計育種值,通常會因為分子標記間的多重共線性問題使模型失去預測能力。
- 不同預測算法從變量選擇、降維和系數壓縮等方法進行建模,來提升模型的預測能力。
嶺回歸和LASSO回歸
- 嶺回歸(Ridge regression,RR):在最小二乘法的誤差平方和最小的基礎上,對系數進行限制,使離差平方和最小,同時使隨機效應向量(β系數)的平方和小於一個非負常數值,該值越小就說明βj向量壓縮得越厲害。
- 另一個理解:嶺回歸在最小二乘法的離差平方和最小的原則上,引入了一個懲罰項。
- LASSO回歸是另一種方式的壓縮,使離差平方和最小,同時使隨機效應向量(β系數)的絕對值之和小於一個非負常數值,該值越小就說明βj向量壓縮得越厲害。
- RR屬於L2正則化(對所有的β進行約束,建模后保留所有預測因子),LASSO屬於L1正則化(一定約束條件下會將某些預測因子系數壓縮為0,從而達到變量選擇的目的)。
- 當有效預測因子很多但貢獻值都較小時,RR預測效果較好; 當有效預測因子較少且有效因子貢獻值都較高時,LASSO預測效果好。
貝葉斯方法
- 不同於傳統擬合方法,貝葉斯方法一般會根據經驗給出βj的先驗密度,再通過先驗密度和似然函數求解βj的后驗概率。
- 公式及參數:
- 固定效應:βjk服從扁平先驗(即不提供任何先驗信息)。
- BRR:貝葉斯嶺回歸,βjk服從高斯先驗(即βj服從正態分布)。
- Bayesian LASSO:βjk服從雙指數先驗分布。
- BayesA:βjk服從scaled-t先驗分布。它和Bayesian LASSO認為只有少數因子有比較顯著的效應。
- BayesB和C:βjk的先驗分布屬於混合分布,假設有大量的βj為0,與scaled-t先驗分布混合為BayesB,與高斯先驗分布混合為BayesC。
- 貝葉斯模型的運算時間與迭代次數有關。
GBLUP和RRBLUP
- GBLUP公式:
- RRBLUP公式:
- 通過標記效應和個體育種值預測雜交后代的表現結果是等價的。這兩個模型適合大規模建模和預測分析。
偏最小二乘法
- PLS:首先在預測因子中進行特征提取,然后進行最小二乘法線性擬合運算。
- 涉及到矩陣運算,再分子標記數量較多時對計算力要求很高,運行時間長,不適合高密度SNP建模預測。
支持向量機/支持向量回歸
- SVM:為提高分類器穩定性,避免個別個體的變化對分類結果產生劇烈影響,通常會給與分類器一定數量的容錯率和相應的罰分。
- 通過交叉驗證確定容錯率和罰分的最佳參數。
- SVM的優化與觀測點的內積有關,可用不同的核函數來表示內積,如線性核函數、多項式核函數、徑向核函數等。
- 支持向量回歸SVR在動植物育種預測應用廣泛。
- SVM用於GS建模一般易出現過擬合,不太適合做預測,可與其他模型一起作為參考。
其他方法
- 維數詛咒:引入模型的預測因子(SNP標記)越多,模型解釋能力越強,但預測能力會下降。所有預測方法都圍繞提升模型預測能力展開。
- 隨機森林/變量選擇等方法運算量大,只適用於預測因子數量較少的情況。
3. 模型預測能力驗證
- 交叉驗證:留一法,K折交叉驗證。
- 模型預測能力的評估:計算均方誤差,觀測值與預測值的相關系數。
4. 局限性
基於數學建模的雜交種預測的一些假設:
- 不論是雙親群體的衍生群體(重組自交系間雜交組合還是單交群體(包括雙列雜交和NCII等);
- 每個雜交組合的雙親的所有等位基因都是純合的;
- 每個等位基因位點都是雙等位基因,如果有極小比例的其他類型的等位基因,該位點會被主要等位基因覆蓋;
- 雜交組合的基因型由雙親的基因型推導而來;
不考慮反交效應。
影響因素
- 控制數量性狀的QTL分布情況
- 訓練群體大小和選擇
- 遺傳力
- 表型准確性
- SNP標記密度和標記間LD效應
5. 展望
- 基於數量性狀由多基因控制,受環境影響大的特點,GS在確定預測因子時可將環境因子作為固定效應,評估其方差組分,預測時可將環境因子考慮進來,提供模型的預測能力。
- 除了基因組的分子標記,轉錄組、代謝組數據都可作為預測因子,進行建模預測。
參考文獻:
劉策, 孟煥文, 程智慧. 植物全基因組選擇育種技術原理與研究進展. 分子植物育種, 2020 年,第18 卷,第16 期,第5335 - 5342 頁.
西北農林科技大學園藝學院