全基因組關聯分析 (GWAS) - 簡介


全基因組關聯分析 (GWAS) - 簡介

在碩士就讀期間,就已經做過 GWAS 相關的分析。當時標記量非常少, windows 系統分析就足夠了,作圖方面涉及的腳本也基本是蔡師兄幫寫的。后來,隨着高通量測序成本的降低,標記數量越來越多,不得不進入 linux 和 腳本操作的時代,因此我也陸陸續續的學習了 R 和 Python等編程語言,但是在編程的世界里,只是一個小菜鳥,大部分的腳本都是“借來的”。
而此次 GWAS方面的相關內容基本取材於百邁客雲課堂。

1、基本概念

全基因組關聯分析(Genome wide association study,GWAS)是對多個個體在全基因組范圍的遺傳變異(標記)多態性進行檢測,獲得基因型,進而將基因型與可觀測的性狀,即表型,進行群體水平的統計學分析,根據統計量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標記),挖掘與性狀變異相關的基因。

 
image.png

相對於連鎖分析的優勢
• 關聯定位的相對優勢:
• 1)分辨率高(單鹼基水平)
• 2)研究材料來源廣泛,可捕獲的變異豐富
• 3)節省時間
關聯分析的基礎-連鎖不平衡(LD)
當位於某一座位的特定等位基因與另一座位的某一等位基因同時出現的概率大於群體中因隨機分布的兩個等位基因同時出現的概率時,就稱這兩個座位處於連鎖不平衡狀態(linkage disequilibrium)
 
image.png

r2 和 D'
• r2和D’反映了LD的不同方面。r2包括了重組和突變,而D’只包括重組史。
D’能更准確地估測重組差異,但樣本較小時,低頻率等位基因組合可能無法
觀測到,導致LD強度被高估,所以D’不適合小樣本群體研究;
• LD衰減作圖中通常采用r2來表示群體的LD水平;
• Haplotype Block中通常采用D’來定義Block;
• 遷移、突變、選擇、有限的群體大小以及其他引起等位基因頻率改變的因素都
會引起LD的改變。
LD衰減
• LD的衰減指位點間由連鎖不平衡到連鎖平衡的演變過程;
• LD的衰減距離決定關聯分析時所需標記密度,也在一定程度上決定關聯分析的精度。
 
image.png

Haplotype Block
• 單體型塊,即連鎖不平衡區域,是指同一條染色體上處於連鎖不平衡狀態的一段連續的區域
• 單體型塊分析可以用於篩選 tag SNP、確定候選基因的范圍等
 
image.png

 

2、材料選擇與群體設計

材料選擇的基本原則
基本原則
1)遺傳變異和表型變異豐富
2)群體結構分化不能過於明顯(如亞種以上,發生生殖隔離是不能做GWAS的)

 
image.png

樣本量
非稀有變異中,對中等變異解釋率(10%左右)的位點的檢測功效要達到80%以上時,需要的樣本量在400左右
位點的效應越低,需要的樣本量越大
 
image.png

群體類型
−種質資源材料
• 遺傳變異豐富,可以同時對多個性狀進行分析
• 群體結構復雜,稀有變異多,遺傳信息丟失明顯
−人工群體
• 包括F2、半同胞家系、動物遠交群體、NAM群體、MAGIC群體和ROAM等群體類型。背景單純,檢測功效高;可以放大稀有變異
• 遺傳變異不夠豐富,重組事件有限,定位精度可能較低
表型調查
精確的表型檢測是關聯分析的關鍵
GWAS對數量性狀和質量性狀都適用
• 數量性狀:多基因控制,能夠測量得到具體數值,符合正態分布;考慮到數量性狀受環境影響大,建議將所有材料在同一環境下培育或養殖,或者用多年多點的數據分開分析后綜合結果或取BLUP值作為性
狀值進行關聯分析。
• 質量性狀:單基因控制,無法用具體數值衡量,可轉換成0、1等表示,需注意每個群體選取近似的樣本。
• 分級性狀:表型分布類似質量性狀,但實際受多基因控制(數量性狀),如抗性性狀,因此需要提供每一個個體精確的測量數據。
• 多指標性狀:有多個指標可以同時度量時,找出代表原表型數據變異的主成分因子,作為關聯分析的表型數據
標記開發與分型
• 實驗室常用標記(SSR等)
• SNP芯片
• NGS開發SNP、small Indel、CNV、SV標記
 
image.png

縱深研究--基因克隆示例
材料:381份粳稻品種(熱帶和溫帶品種)
1、關於水稻谷粒大小的性狀,GWAS定位到7號染色體,SNP峰值所在地方注釋到11個基因;
2、對11個基因分別在稻穗、葉片和根系中做RT-PCR,只有第9個基因OsSPL13在稻穗中表達有差異;
3、OsSPL13基因蛋白表達的進一步驗證;
4、分析OsSPL13基因在水稻大粒和小粒之間的序列差異,包括SNP位點和小的indel;
5、通過轉基因找到影響OsSPL13基因表達相關的相關區域(5’UTR中的一個串聯重復序列);
6、通過RNA干擾的方法將大粒品種GP579和小粒品種Dongjing中OsSPL13的表達量下調后會使水稻籽粒的長度和粒重都顯著降低;
7、篩選到1個Dongjing來源的glw7突變體,粒長和粒重比野生型均明顯降低;
8、通過chip-seq進行OsSPL13調節下游基因的驗證(結果未示)SRS5和DEP1。
 


作者:Zhigang_Han
鏈接:https://www.jianshu.com/p/acdc4a22e30a
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM