GWAS與GS模型介紹與比較



最近看了不少統計基因組方面的資料,以為懂了,其實懵逼。實在是因為統計學基礎太菜,似懂非懂,似是而非。記錄下自己的理解,求輕噴。

1.GWAS模型

GWAS是表型和基因型之間的相關性分析,然而這個相關性用什么統計方法?

GWAS模型的發展:
image.png

1.1卡方檢驗

實際比例是否符合預期分離比例,若不符合則認為基因與表型相關。計算量大。

1.2 相關性系數的t檢驗

首先計算基因和表型之間的相關性(如pearson),再經過r換算為t值,進行t檢驗。計算量小。

1.3 一般線性模型GLM

直接將基因型x和表型y做回歸擬合,即y=xb+e。
image.png
其中y是表型,x是SNP、Q矩陣和總均值的一個綜合變量,e是殘差。

1.4 混合線性模型MLM

GLM模型中,如果兩個表型差異很大,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協方差,把這種位點校正掉。此外,材料間的公共祖先關系也會導致非連鎖相關,可加入親緣關系矩陣作為隨機效應來矯正,即y=Xb+Zu+e,Z為親緣關系矩陣,u為個體育種值,其他同GLM。
image.png

GLM是固定效應模型。MLM除了固定效應,還加入了隨機效應,即親緣關系矩陣。所謂的固定效應是有限水平的,易控制的,關心的是水平上的影響;而隨機效應有很多水平,關心的是水平背后的群體(如均值,方差等)。
image.png
image.png

有種只可意會,不可言傳的感覺。我百度了下,認為它解釋的還可以:隨機效應模型

1.5 壓縮混合線性模型CMLM

MLM的矯正過於嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記。

方法是根據個體遺傳關系的相似性將其分組,然后將壓縮后的組當做協變量,替換原來的個體。組內個體的親緣關系都是一樣的。

image.png

1.6 SUPER

問題來了,CMLM應該選擇哪些SNP來計算親緣關系矩陣,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好,這就是SUPER(Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN(數量性狀SNP),即控制QTL的SNP。
image.png

1.7 FarmCPU

GWAS的瓶頸一是計算速度,二是統計准確性。FarmCPU能提升速度和准確性,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快;其次利用QTN矩陣當做協變量,重新做關聯分析,提升准確率。

SUPER和FarmCPU都是把bin(一段區域,比如10kb)當做SNP單位,而不是單個SNP。

image.png

Blink是進階版GWAS,也是為提高速度和准確率。如下圖所示:先用上方的GLM模型獲得QTNs,然后用右側的GLM以QTNs當做協變量進行SNP檢測,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小),進而利用左側的GLM以BIC(Bayesian information criterion)策略進行QTNs准確性檢測,排除假設錯誤的部分,保留真實的QTNs,不斷循環這一過程,直到檢測到所有關聯SNP(即QTNs)。
image.png

模型總結:
這里是以張志武老師《統計基因組學》課程整理,所以重點介紹的是他們課題組開發的模型。
image.png

GWAS常用軟件:

  • Plink
  • Tassel
  • GAPIT
  • Emmax
  • GEMMA
  • GCTA

2.GS模型

GS模型的發展:
image.png
河流左側是以個體為單位進行預測,包含gBLUP,ssBLUP,sBLUP和cBLUP等。
河流右側是以SNP效應值為單位進行預測,包含rrBLUP,BayesA,B,C,Cπ,Bayes LASSO等。

2.1 MAS

當控制表型的基因數量比較少,同時遺傳力比較高的性狀,可以用少量標記對表型進行很好的預測。

2.2 GBLUP

利用個體親緣關系構建協變量矩陣,然后根據個體育種值對表型進行預測。
image.png

2.3 GBLUP的擴展(ssBLUP,sBLUP,cBLUP)

  • ssBLUP
    構建H矩陣求解,動物中居多,不適合植物,不多介紹,可看之前的綜述文獻推文。
    image.png

  • sBLUP和cBLUP
    gBLUP(圖A)是利用所有建模群體的基因型(GR1-GR5)對試驗群體(GI1-GI4)進行預測,這個過程中每個個體間都有相互關系。
    Compression策略(圖B)是將個體進行分組,把9個個體(建模群體和試驗群體)分成三組,然后對不同組分別進行預測。其中把標記進行壓縮,以Bin為單位進行預測的方法和GWAS的SUPER類似,所以叫sBLUP。另外以個體分組的策略跟GWAS的CMLM類似,因此叫cBLUP。
    可以理解為cBLUP對個體進行降維,sBLUP對標記進行降維。
    image.png

2.4 rrBLUP

如果把GBLUP中構建協變量的個體親緣關系矩陣換成SNP標記構成的關系矩陣,構建模型,然后對個體進行預測,就是rrBLUP的思路。

也就是把模型y=Xb+Zu+e變為y=Xb+Ms+e:
其中M是SNP構建的矩陣(替換個體親緣關系矩陣Z),s就是標記(替換個體u)。
image.png

2.5 rrBLUP的擴展(Bayes類)

rrBLUP假設所有標記效應符合一個正態分布,同時標記效應的方差(σ^2)相等,這可能與基因的實際效應值不相符。

這時引入了貝葉斯的分析方法:預期控制表型的基因數目未知,基因效應值的分布未知。根據預先假定基因的數量和基因效應值分布的不同,建立了不同的貝葉斯模型,如BayesianA,B,C,Cπ,LASSO等。

其差別主要在於:標記效應是否符合相同分布;是否所有標記都有效應值;標記效應方差服從什么分布。

image.png

不同貝葉斯模型的假設和分布可參考之前的推文:[# 【GS文獻】基因組選擇技術在農業動物育種中的應用](https://www.cnblogs.com/jessepeng/p/14139862.html)

用圖形直觀表示不同的貝葉斯方法,下圖中π表示沒有標記效應的比例。

image.png

嶺回歸的所有標記效應方差都相等;貝葉斯A是所有標記都有效應方差,但不同標記有不同的效應方差;貝葉斯B是部分標記有效應方差,同時具有差異;貝葉斯Cπ是部分標記效應有方差,同時所有方差都相等。

2.6 BLUP vs Bayes

  • GS模型理論經歷的一些發展:
    image.png

  • 基於個體的BLUP
    image.png

  • 基於標記的BLUP
    即Z矩陣替換為M矩陣,個體u替換為標記s。
    image.png

  • rrBLUP vs GBLUP
    image.png

  • Bayes vs BLUP
    image.png

  • 模型性能比較
    模型差異很大,需要測試多個模型選擇,涉及怎么選模型的問題。可根據遺傳高低和控制基因多少,使用以下策略選擇進行分析。
    image.png
    以個體為預測單位的模型所需時間更少。
    image.png

GS常用免費開源R包:

  • rrBLUP
  • BAGS
  • BLR
  • BGLR
  • GAPIT

3.GWAS和GS模型比較

如果GWAS使用的是MLM模型及其進階版,那么它和GS用的其實是同一模型。
image.png

只是GWAS的重點在挖掘顯著性位點,關注固定效應Xb,加入隨機效應只是為了控制與表型顯著相關位點的假陽性;而GS重點在計算育種值,關注隨機效應Zu,加入固定效應是為了控制不同個體相同的部分。

兩種方法雖然模型一樣,但應用方向不同,所以視為不同技術,實際上是一回事兒。我們可以將二者結合起來,比如先用GWAS找出顯著位點,再加入GS的固定效應中,可能會使預測的准確性更高。或者是如果標記數目太多,我們不想過濾掉一些無關標記,就可以結合GWAS的結果來過濾。

在GS和GWAS的結合方面,也已經有了一些模型和算法,如SSGBLUP,GS + de novo GWAS,GS + historical GWAS等。

致謝:
感謝張志武老師提供的最新教程以及開發的工具,感謝知乎張帆的課程總結。教程PPT參考:[## Statistical Genomics: 2020](http://zzlab.net/StaGen/2020/index.html)

參考資料:
https://zhuanlan.zhihu.com/p/138185705
https://www.jianshu.com/p/2006b4aaf729


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM