【GS文獻】基因組選擇技術在農業動物育種中的應用


中國農業大學等多家單位2017年合作發表在《遺傳》雜志上的綜述,筆記之。
作者中還有李寧院士,不勝唏噓。

1.概述

  • GS的兩大難題:基因組分型的成本,基因組育種值(genomic estimted breeding value, GEBV)的准確性。
  • 基於個體的基因組估計育種值GEBV比傳統基於系譜的估計育種值(estimted breeding value, EBV)准確性更高。
  • GS實施示意圖:

image.png

基於單點SNP標記的GEBV估計方法

  • 一類基於估計等位基因效應來計算GEBV:
    ①最小二乘法
    ②嶺回歸-最佳線性無偏預測(ridge regression best linear unbiased prediction, RR-BLUP)
    ③貝葉斯方法

  • 另一類基於SNP構建基因組關系矩陣(GRM/G矩陣),再用線性混合模型估計GEBV:
    ①基因組最佳線性無偏預測法(genomic best linear unbiased prediction, GBLUP)
    ②一步法GBLUP(ssBLUP)

基於單倍型的GEBV 預測模型

  • 隨着個體數和標記密度提升,傳統基於單點SNP 信息的統計模型無法利用所有個體表型數據或所有標記位點信息。
  • 基於單倍型的GEBV 預測模型:通過將已知功能的基因組學信息,包括基因結構、甲基化區域、轉錄因子調控結合位點、選擇信號候選區域等信息,以單倍型信息整合GEBV 預測模型,從而提高准確性(這輩子都可能看不到~)。
  • 其他模型:增加顯性、上位性、印記效應等。

2.基因型

高密度SNP芯片

代表:Illumina的Infinium 技術和Affymetrix的Axiom 技術

image.png
image.png

簡化基因組測序:

  • 如RAD-seq 、GBS、2b-RAD、GGRS、CroPS、RRL、MSG等,不同建庫方法,但原理都是:通過合適的限制性內切酶對基因組進行酶切,然后連接二代測序平台所需的接頭序列,再選擇一定范圍內的連接產物進行測序。
  • GBS、RAD-seq 、2b-RAD最常用,區別在於是否在接頭連接后進行片段選擇,以及PCR后是否進行片段選擇。

基因組重測序

  • GS2.0(Hickey, 2013):基於基因組重測序的GS,區別基於芯片的GS1.0。
  • GS2.0另一種策略:首先對群體中遺傳貢獻較大的個體進行10~30x的中高覆蓋度的重測序,結合單倍型估計技術構建群體主要的單倍型庫;對於大多數個體采用SNP高密芯片或簡化基因組測序技術進行分型,通過基因型填充獲得全基因組的遺傳變異,從而用GEBV的預測。
  • 高密度SNP芯片的單價從幾百到上千人民幣不等,主要取決於定制量、位點密度等;簡化基因組測序的單價通常芯片低,主要取決於所研究物種的基因組大小和所選擇的內切酶。
  • 也可以選20~30個代表性的個體進行重測序,獲得這
    個群體具有一定代表性的SNP數據集,利用這些數據設計芯片,從而進行“廉價”的大規模基因分型。
    image.png
  • 挑戰:分型的准確性和分析時效性。准確性可通過優化測序方案和基因型填充,時效性依靠硬件加速。

3.統計模型

貝葉斯

  • BayesA 假設所有SNP都有效應,且所有SNP 效應的方差服從尺度逆卡方分布的正態分布,其中自由度和尺度參數這兩個參數與遺傳結構直接相關,能夠確定遺傳結構。BayesA 使用MCMC(馬爾科夫鏈蒙特卡洛方法)方法構建Gibbs 抽樣鏈,在模型中對標記效應進行求解。
  • BayesB 只有一小部分標記位點有效應(有效應位點比例預先設定,一般為0.05,其效應方差服從的分布同BayesA),其他大部分染色體片段效應為0。BayesB使用混合分布作為標記效應方差的先驗。
  • BayesC 模型中,有/無效應位點比例是未知的,需要在模型中求解得到,其他同BayesB。
  • BayesCπ 假設有效應位點的效應方差相同,而BayesC 假設其效應方差是不同的。
  • Bayes LASSO 假定標記效應服從Laplace(拉普拉斯)分布,即等價於方差服從指數分布的正態分布。
  • 以上是目前廣泛應用的貝葉斯算法,結果穩定,准確性較高,此外有其他貝葉斯模型:BayesDπ,Bayes SSVS、fBayesB、wBSR 、BAL/IAL 、emBayesR 、EBL 、BayesRS、Bayes TA等。都是在基礎模型上對先驗假設進行變換和模型中的參數進行優化,以期尋找最適合群體的假設模型和參數

GBLUP

  • 通過構建基因組關系矩陣(G矩陣)替換基於系譜信息構建的分子血緣關系矩陣(NRM或A矩陣),進而使用最佳線性無偏預測(BLUP)方法估計GEBV。

  • VanRaden構建G矩陣:先編碼{1,0,1},減去哈溫平衡時均值,得到Z矩陣,如下計算G矩陣,根據MME求解育種值:
    image.png

  • 與貝葉斯方法相比,GBLUP不需要先利用參考群體估計標記效應,再計算GEBV;而是可以直接將有表型及無表型個體可以放在同一個模型中,同時估計出有表型和無表型個體的GEBV及其准確性。

ssGBLUP

  • 基於系譜的BLUP(A矩陣)+ 基於SNP的GBLUP(G矩陣)= HBLUP(H矩陣)

  • H矩陣:
    image.png
    image.png

  • ssGBLUP能將無基因型個體的系譜及表型數據和有基因型的個體的基因組信息結合起來,大大提高基因組選擇的准確性。

4.應用

奶牛:

應用最早最成熟,重點在縮短育種周期,難在擴大參考群和基因型鑒定。
image.png

豬:

重點在提高GEBV估計的准確性(因為世代間隔在現有育種體系中已經很短)。
難點是對傳統育種中選擇准確性低的性狀預測,如繁殖性狀、屠宰性狀、肉質性狀、抗病性狀等。
GS 對豬的生長或胴體性狀具有很好的預測准確性。
在母豬的繁殖性狀(遺傳力低)中應用受限於參考群體的大小。

雞:

限制和難點是個體價值遠小於基因分型成本(這個在植物中更加明顯)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM