作者:黃樹嘉
鏈接:https://zhuanlan.zhihu.com/p/59767114
來源:知乎
來源:https://www.jianshu.com/p/acdc4a22e30a
作者:努力唄還能咋樣吶 https://www.bilibili.com/read/cv6999299 出處:bilibili
關聯分析(Association):在交易數據、關系數據或其他信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。也就是發現交易數據庫中不同商品之間的聯系。
舉例說明:
關聯分析是從大量數據中發現項集之間有趣的關聯和相關聯系。關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放入其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基於購買模式的顧客划分
全基因組關聯分析(GWAS):是對多GWAS個個體在全基因組范圍的遺傳變異(標記)多態性進行檢測,獲得基因型,進而將基因型與可觀測的性狀(表型)進行群體水平的統計學分析,根據統計量或顯著性p值篩選出最有可能影響該性狀的遺傳變異(標記),挖掘與性狀變異相關的基因。
相關說明:
應用基因組中數以百萬計的單核苷酸多態SNP進行全基因組水平上的對照分析或相關性分析,通過比較發現影響復雜性狀的基因變異的一種新策略。在全基因組范圍內選擇遺傳變異進行基因分析,比較異常和對照組之間每個遺傳變異及其頻率的差異,統計分析每個變異與目標性狀之間的關聯性大小,選出最相關的遺傳變異進行驗證,並根據驗證結果最終確認其與目標性狀之間的相關性
連鎖不平衡(Linkage disequilibrium):又稱等位基因關聯。當位於某一座位的特定等位基因與某一等位基因同時出現的概率大於群體中因隨機分布的兩個等位基因同時出現的概率,該現象就是連鎖不平衡讓現象。
相關說明:
如果不存在連鎖不平衡,既是等位型間相互獨立,隨機組合。則:P(AB)= P(A)*P(B)
如果發生連鎖不平衡,既是等位型之間相互聯系。則:P(AB)= P(A)*P(B)+D D表示兩點間LD程度值
在GWAS研究中,Manhattan plot和QQ plot是最常畫的兩類圖,它們可以把跟研究的性狀(比如,基因型和身高)顯著相關的基因位點清晰地展現出來。
曼哈頓圖(Manhattan plot):把GWAS分析之后所有SNP位點的p-value在整個基因組上從左到右依次畫出來。並且,為了更加直觀地表達結果,通常會將p-value轉換為-log10(p-value)。這樣,Y軸的高度就對應了與表型性狀或者疾病的關聯程度,Y軸越高即p-value越低,則關聯度越強
相關說明:
而且,一般而言,由於連鎖不平衡(LD)關系的原因,那些在強關聯位點周圍的SNP也會跟着顯示出類似的信號強度,並依次往兩邊遞減。由於這個原因,我們在曼哈頓圖上就會看到一個個整齊的信號峰(如下圖紅色部分)。
Q-Q plot(QQ圖):說用數據和曼哈頓圖一樣,但是更加能體現出GWAS結果的好壞,它是GWAS研究中重要的質控圖。QQ plot全稱是quantile-quantile plot,也就是分位圖,是一種通過比較兩個概率分布的分位數從而實現對兩個概率分布進行比較的概率圖方法。所以,如果兩個概率分布相同,那么它們的分位數也應該相同或者重疊在同一條直線上。
在GWAS分析中,當我們通過曼哈頓圖看到某些SNP和表型性狀有者很強的相關信號時,依然不能直接認為這些位點就與表型顯著相關。原因:基因組上基因位點的突變通常有兩個來源:
- 第一是自然選擇(Selection),我這里所說的自然選擇不僅指達爾文在《進化論》中所描述的物競天擇,還指所有對物種適應性有影響作用的“力量”,比如高輻射環境、疾病、病毒等,這也是我們在GWAS研究中真正關心的突變;
- 第二是遺傳漂變(genetics drift),它是一種比較隨機的基因組突變而且數量也不少,雖然也是物種演化的一種重要力量,但是由於它的突變都比較隨機,目前認為它與環境的變遷沒有必然聯系,但也會在某些時候,有些隨機的突變帶來了生存優勢,便會在種群中顯示出它的作用。但絕大多數情況下,對於已經在群體中穩定存在的性狀而言,並不認為它們有明顯的作用,所以GWAS研究是不關心這一類突變的,我們要把它們全部排除掉。如果你發現自己得到的結果全部是這樣的變異的話,那么,應該重新考慮一下如何重新設計這個分析,包括是否應該增加樣本量以及想辦法排除技術錯誤以及干擾因素等方面,或者也可能它們之間就是沒有關系。

判斷的秘密就在橫軸為什么要用均勻分布而不是選擇其它分布上。這是因為均勻分布恰好可以用來近似描述基因組上的隨機漂變現象。如果表型性狀並非真的受自然選擇所左右,那么你應該會看到GWAS p-value的分布和均勻分布的結果將集中在一條直線上,如果不是那么就應該能夠看到相互分離的情況,特別是p-value越低的時候分離程度就越高,QQ-plot會翹起來(這是因為GWAS的零假設就是與隨機突變相比沒有區別)。
而且,我們知道基因組上的隨機漂變是一定存在的,所以一定會有位點與隨機漂變相關,特別是是在p-value比較大的位點看起來就應該和隨機漂變重疊,這就表現在QQ-plot的前半部分里。這位點的分布會和均勻分布重疊!而且,比較好的結果是,當p-value < 10^-3時,GWAS結果開始與均勻分布出現快速分離——也就是說,自然選擇的力量明顯地顯示出來了,使得結果在群體中快速擺脫隨機性,最后看到一個高高翹起的QQ-plot。這時基本就可以斷定,我們所研究的表型和基因型之間是存在着顯著相關的自然選擇作用的。
這也是我們在評估一個GWAS研究時最基本的一個判斷。